Robotertext für WordPress. Basierend auf diesen Änderungen sollte der korrekte Code so aussehen

(Letzte Aktualisierung: 31.05.2019)

Hallo an alle! Heute ist das Thema sehr wichtig - robots.txt für WordPress-Site. Wenn Suchroboter eine Website oder ein Blog betreten, suchen sie zunächst nach der robots.txt-Datei. Was ist robots.txt? Robots.txt ist eine Dienstdatei, die sich im Stammverzeichnis der Site befindet und eine Reihe von Anweisungen enthält, mit denen Sie die Site-Indizierung verwalten können. Damit können Sie Suchmaschinen mitteilen, welche Seiten oder Dateien einer Website in die Suche einbezogen werden sollen und welche nicht. Beim Hosting ist die robots.txt-Datei eines der ersten Dokumente, auf die zugegriffen wird.

Erstellen Sie robots.txt für eine WordPress-Site

So erstellen Sie eine Robots.txt-Datei für WordPress

Robots.txt wird hauptsächlich verwendet, um Duplikate, Serviceseiten, gelöschte Seiten und andere unnötige Seiten aus dem Suchmaschinenindex auszuschließen. Darüber hinaus können Sie über robots.txt die PS-Sitemap-Adresse angeben.

Verwenden Sie einen beliebigen Texteditor (z. B. Notepad), erstellen Sie eine Datei mit dem Namen robots.txt und füllen Sie sie wie unten gezeigt aus. Die Datei sollte robots.txt heißen, nicht Robots.txt oder ROBOTS.TXT.

Danach müssen Sie die Datei in das Stammverzeichnis Ihrer Site hochladen.

Die robots.txt-Datei muss sich ausschließlich im Stammverzeichnis der Site befinden und darf die einzige sein.

Optimale, korrekte robots.txt für eine WordPress-Site. Gemeinsam für und Yandex. Ich habe diese robots.txt auf allen Seiten:

Benutzeragent: * Nicht zulassen: /cgi-bin Nicht zulassen: /? Nicht zulassen: /wp- Nicht zulassen: /core/ Nicht zulassen: */feed Nicht zulassen: *?s= Nicht zulassen: *&s= Nicht zulassen: /search Nicht zulassen: */embed Nicht zulassen: *?attachment_id= Nicht zulassen: /id_date Nicht zulassen: */page / Nicht zulassen: *?stats_author Nicht zulassen: *?all_comments Nicht zulassen: *?post_type=func Nicht zulassen: /filecode Nicht zulassen: /profile Nicht zulassen: /qtag/ Nicht zulassen: /articles/ Nicht zulassen: /artictag/ Erlauben: */uploads Erlauben: /* /*.js Erlauben: /*/*.css Erlauben: /wp-*.png Erlauben: /wp-*.jpg Erlauben: /wp-*.jpeg Erlauben: /wp-*.gif Erlauben: /*ajax Sitemap : http://example.com/sitemap.xml

Standard robots.txt WordPress

Separat für Google und Yandex:

Benutzeragent: Yandex Nicht zulassen: /wp-admin Nicht zulassen: /wp-includes Nicht zulassen: /wp-content/plugins Nicht zulassen: /wp-json/ Nicht zulassen: /wp-login.php Nicht zulassen: /wp-register.php Nicht zulassen: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Host: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Nicht zulassen: *?s= Erlauben: /wp-admin/admin-ajax.php Sitemap: http://site.ru/sitemap.xml

Ersetzen Sie site.ru durch Ihre Blog-URL. Sie können diese Datei bedenkenlos an die Suchmaschinen Yandex und Google weiterleiten.

So passen Sie die wichtige robots.txt-Datei individuell an, indem Sie diese Referenzen lesen:

Auf der Yandex-Hilfeseite. Sie können die Richtigkeit der Datei in webmaster.yandex – Indexierungseinstellungen – Robots.txt-Analyse überprüfen. Als nächstes können Sie damit Google robots.txt überprüfen Verknüpfung. Vergessen Sie nicht, dass das Blog, das Sie überprüfen, hinzugefügt werden muss Google Webmaster Tools und Yandex.

Bitte beachten Sie, dass für Yandex und Google die Regeln zum Kompilieren von robots.txt etwas unterschiedlich sind. Hier ist eine weitere nützliche Ressource für das Studium robotstxt.org.ru. Das ist alles.

Jetzt müssen Sie nur noch die erstellte Datei in das Stammverzeichnis Ihres Blogs hochladen. Das Stammverzeichnis des Blogs ist der Ordner public_html, in dem sich die Dateien config.php, index.php usw. befinden.

Abschließend

Das Erstellen und sorgfältige Vorbereiten von robots.txt ist äußerst wichtig. Ist dies nicht der Fall, sammeln Suchroboter alle Informationen im Zusammenhang mit der Website. Bei der Suche werden möglicherweise leere Seiten, Serviceinformationen oder eine Testversion der Website angezeigt.

Damit möchte ich mich für kurze Zeit von Ihnen verabschieden. Viel Glück. Wir sehen uns wieder auf den Blogseiten.

(function(w, d, n, s, t) ( w[n] = w[n] || ; w[n].push(function() ( Ya.Context.AdvManager.render(( blockId: "R-A -292864-4", renderTo: "yandex_rtb_R-A-292864-4", async: true )); )); t = d.getElementsByTagName("script"); s = d.createElement("script"); s .type = "text/javascript"; s.src = "//an.yandex.ru/system/context.js"; s.async = true; t.parentNode.insertBefore(s, t); ))(this , this.document, "yandexContextAsyncCallbacks");

Robots.txt wurde erstellt, um das Verhalten von Suchrobotern auf Websites zu regulieren, nämlich wo sie suchen können und wo nicht. Vor etwa 10 Jahren war die Leistungsfähigkeit dieser Datei groß, alle Suchmaschinen arbeiteten nach ihren Regeln, aber heute ist sie eher eine Empfehlung als eine Regel.

Aber bis es aufgehoben wird, müssen Webmaster es tun und es basierend auf der Struktur und Hierarchie der Websites richtig konfigurieren. WordPress ist ein eigenständiges Theme, da das CMS viele Elemente enthält, die nicht gescannt und indiziert werden müssen. Lassen Sie uns herausfinden, wie man robots.txt richtig verfasst

Wo ist die Robots-Datei in WordPress?

Bei jeder Ressource sollte sich robots.txt im Stammordner befinden. Im Fall von WordPress, wo sich der wp-admin-Ordner und ähnliches befinden.

Serverstandort

Wenn es nicht vom Site-Administrator erstellt und heruntergeladen wurde, kann es standardmäßig nicht auf dem Server gefunden werden. Der Standard-Build von WordPress stellt ein solches Objekt nicht zur Verfügung.

So erstellen Sie den richtigen Robots-Text

Das Erstellen der richtigen Robots-txt-Datei ist keine schwierige Aufgabe; es ist schwieriger, die richtigen Anweisungen darin zu schreiben. Erstellen wir zunächst ein Dokument, öffnen Notepad und klicken auf Speichern unter.


Speichern Sie das Dokument

Legen Sie im nächsten Fenster den Namen Robots fest, belassen Sie die TXT-Erweiterung und die ANSI-Kodierung und klicken Sie auf Speichern. Das Objekt wird in dem Ordner angezeigt, in dem die Speicherung stattgefunden hat. Während das Dokument leer ist und nichts enthält, wollen wir genau herausfinden, welche Anweisungen es unterstützen kann.

Wenn Sie möchten, können Sie es über sofort auf den Server im Stammverzeichnis herunterladen.


Roboter retten

Befehle einrichten

Ich werde vier Hauptbefehle hervorheben:

  • Benutzeragent: Zeigt Regeln für verschiedene Suchroboter an, entweder für alle oder für einzelne
  • Disalow: verweigert den Zugriff
  • Zulassen: Zugriff erlauben
  • Sitemap: Adresse zur XML-Karte

Veraltete und unnötige Konfigurationen:

  1. Host: gibt den Hauptspiegel an, nicht mehr erforderlich, da die Suche selbst die richtige Option ermittelt
  2. Crawl-Verzögerung: Begrenzt die Verweildauer des Roboters auf der Seite; jetzt sind die Server leistungsstark und Sie müssen sich keine Sorgen um die Leistung machen
  3. Clean-param: Begrenzt das Laden von doppeltem Inhalt, Sie können ihn registrieren, aber es nützt nichts, die Suchmaschine indiziert alles, was sich auf der Website befindet, und belegt so viele Seiten wie möglich

Funktionierende Beispielanweisungen für WordPress

Tatsache ist, dass der Suchroboter keine verbietenden Anweisungen mag und trotzdem berücksichtigt, was er braucht. Es sollte ein Verbot der Indizierung von Objekten geben, die zu 100 % nicht in der Suche und in den Datenbanken von Yandex und Google enthalten sein sollten. Wir platzieren dieses funktionierende Codebeispiel in Robots txt.

Benutzeragent: * Nicht zulassen: /wp- Nicht zulassen: /tag/ Nicht zulassen: */trackback Nicht zulassen: */page Nicht zulassen: /author/* Nicht zulassen: /template.html Nicht zulassen: /readme.html Nicht zulassen: *?replytocom Erlauben: */uploads Zulassen: *.js Zulassen: *.css Zulassen: *.png Zulassen: *.gif Zulassen: *.jpg Sitemap: https://your domain/sitemap.xml

Schauen wir uns den Text an und sehen wir uns an, was wir genau erlaubt und was verboten haben:

  • Fügen Sie als Benutzeragent ein *-Zeichen ein, um anzuzeigen, dass alle Suchmaschinen die Regeln einhalten müssen
  • Ein Block mit Disallow verbietet alle technischen Seiten und Duplikate aus dem Index. Bitte beachten Sie, dass ich Ordner blockiert habe, die mit wp- beginnen.
  • Mit dem Allow-Block können Sie Skripte, Bilder und CSS-Dateien scannen. Dies ist für die korrekte Darstellung des Projekts in der Suche erforderlich, andernfalls erhalten Sie ein Fußtuch ohne Registrierung
  • : Zeigt den Pfad zur XML-Sitemap an, Sie müssen eine erstellen und auch die Aufschrift „Ihre Domain“ ersetzen.

Ich empfehle, die restlichen Anweisungen nicht hinzuzufügen; laden Sie nach dem Speichern und Vornehmen von Änderungen den Standard-Robots-Text in das WordPress-Stammverzeichnis hoch. Um die Verfügbarkeit zu prüfen, öffnen Sie die folgende Adresse https://your-domain/robots.txt, ersetzen Sie die Domain durch Ihre eigene, sie sollte so aussehen.


Adresse in der Abfragezeichenfolge

So überprüfen Sie die Funktion von robots.txt

Die Standardmethode zur Überprüfung ist der Yandex-Webmaster-Dienst. Für eine bessere Analyse müssen Sie den Dienst auf der Website registrieren und installieren. Oben sehen wir die geladenen Roboter, klicken Sie auf Überprüfen.


Überprüfen eines Dokuments in Yandex

Unten erscheint ein Block mit Fehlern; wenn keine vorhanden sind, fahren Sie mit dem nächsten Schritt fort; wenn der Befehl falsch angezeigt wird, korrigieren Sie ihn und überprüfen Sie ihn erneut.


Keine Fehler im Validator

Lassen Sie uns prüfen, ob Yandex die Befehle korrekt verarbeitet. Gehen Sie etwas tiefer, geben Sie zwei verbotene und zulässige Adressen ein und vergessen Sie nicht, auf „Überprüfen“ zu klicken. Auf dem Bild sehen wir, dass die Anweisung funktioniert hat, es ist rot markiert, dass die Eingabe verboten ist, und mit einem grünen Häkchen, dass die Indizierung von Datensätzen erlaubt ist.


Überprüfen von Ordnern und Seiten in Yandex

Wir haben überprüft, alles funktioniert. Fahren wir mit der nächsten Methode fort – dem Einrichten von Robotern mithilfe von Plugins. Wenn der Vorgang nicht klar ist, schauen Sie sich unser Video an.

Plugin-Generator Virtual Robots.txt

Wenn Sie sich nicht mit einer FTP-Verbindung befassen möchten, hilft Ihnen ein hervorragender WordPress-Plugin-Generator namens Virtual Robots.txt. Wir installieren es standardmäßig über das WordPress-Admin-Panel, indem wir das Archiv durchsuchen oder herunterladen. Es sieht so aus.


Wie Virtual Robots.txt aussieht

Unter Einstellungen > Virtual Robots.txt sehen wir eine bekannte Konfiguration, die wir jedoch durch unsere aus dem Artikel ersetzen müssen. Kopieren und einfügen, Speichern nicht vergessen.


Einrichten von Virtual Robots.txt

Die Roboter werden automatisch erstellt und sind unter derselben Adresse verfügbar. Wenn Sie überprüfen möchten, ob es sich in den WordPress-Dateien befindet, sehen wir nichts, da das Dokument virtuell ist und nur über das Plugin bearbeitet werden kann, aber Yandex und Google werden es sehen.

Fügen Sie mit Yoast SEO hinzu

Das berühmte Yoast SEO-Plugin bietet die Möglichkeit, robots.txt über das WordPress-Dashboard hinzuzufügen und zu bearbeiten. Darüber hinaus erscheint die erstellte Datei auf dem Server (und nicht virtuell) und befindet sich im Stammverzeichnis der Site, d. h. nach dem Löschen oder Deaktivieren bleiben die Roboter bestehen. Gehen Sie zu Extras > Editor.


Yoast SEO-Dateieditor

Wenn Roboter vorhanden sind, wird dies auf der Seite angezeigt. Wenn nicht, gibt es eine Schaltfläche „Erstellen“, klicken Sie darauf.


Schaltfläche „Roboter erstellen“.

Es erscheint ein Textbereich. Notieren Sie den vorhandenen Text aus der Universalkonfiguration und speichern Sie ihn. Sie können überprüfen, ob das Dokument über eine FTP-Verbindung angezeigt wird.

Bearbeiten nach Modul in All in One SEO

Das alte All-in-One-SEO-Plugin kann den Text von Robots ändern. Um die Funktion zu aktivieren, gehen Sie zum Abschnitt „Module“, suchen Sie nach dem gleichnamigen Element und klicken Sie auf „Aktivieren“.


Module in All-in-one-SEO

Im All-in-One-SEO-Menü erscheint ein neuer Abschnitt. Gehen Sie hinein und sehen Sie sich die Funktionalität des Konstruktors an.


Arbeiten im AIOS-Modul
  1. Notieren Sie den Agentennamen, in unserem Fall *, oder lassen Sie das Feld leer
  2. Indizierung zulassen oder deaktivieren
  3. Verzeichnis oder Seite, zu der Sie nicht gehen müssen
  4. Ergebnis

Das Modul ist nicht praktisch; es ist schwierig, mit diesem Prinzip eine gültige und korrekte robots.txt zu erstellen. Benutzen Sie besser andere Tools.

Korrektes Setup für das WooCommerce-Plugin

Um die richtigen Einstellungen für das WordPress-WooCommerce-Onlineshop-Plugin vorzunehmen, fügen Sie diese Zeilen zum Rest hinzu:

Nicht zulassen: /cart/ Nicht zulassen: /checkout/ Nicht zulassen: /*add-to-cart=*

Wir machen dasselbe und laden es per FTP oder Plugin auf den Server hoch.

Endeffekt

Fassen wir zusammen, was getan werden muss, um sicherzustellen, dass die WordPress-Site über die richtige Datei für Suchmaschinen verfügt:

  • Erstellen Sie eine Datei manuell oder mithilfe eines Plugins
  • Wir schreiben die Anweisungen aus dem Artikel hinein
  • Hochladen auf den Server
  • Wir checken den Yandex-Validator ein
  • Benutzen Sie keine Roboter-Textgeneratoren im Internet, sondern bewegen Sie Ihre Hände ein wenig

Verbessern Sie Ihre Blogs auf WordPress, machen Sie Werbung für sich selbst und konfigurieren Sie alle Parameter richtig. Wir helfen Ihnen dabei. Viel Glück!

Grüße Freunde! In diesem Tutorial werden wir über das Erstellen einer Datei sprechen robots.txt, das Suchmaschinen-Robots anzeigt, welche Bereiche Ihrer Website besucht werden müssen und welche nicht.

Tatsächlich können Sie mit Hilfe dieser Servicedatei festlegen, welche Abschnitte in Suchmaschinen indiziert werden und welche nicht.

Erstellen einer robots.txt-Datei

1. Erstellen Sie eine normale Textdatei mit dem Namen Roboter im Format .txt.

2. Fügen Sie die folgenden Informationen hinzu:

Benutzeragent: Yandex Nicht zulassen: /wp-admin Nicht zulassen: /wp-includes Nicht zulassen: /wp-comments Nicht zulassen: /wp-content/plugins Nicht zulassen: /wp-content/themes Nicht zulassen: /wp-content/cache Nicht zulassen: / wp-login.php Nicht zulassen: /wp-register.php Nicht zulassen: */trackback Nicht zulassen: */feed Nicht zulassen: /cgi-bin Nicht zulassen: /tmp/ Nicht zulassen: *?s= User-agent: * Nicht zulassen: /wp- admin Nicht zulassen: /wp-includes Nicht zulassen: /wp-comments Nicht zulassen: /wp-content/plugins Nicht zulassen: /wp-content/themes Nicht zulassen: /wp-content/cache Nicht zulassen: /wp-login.php Nicht zulassen: /wp- register.php Nicht zulassen: */trackback Nicht zulassen: */feed Nicht zulassen: /cgi-bin Nicht zulassen: /tmp/ Nicht zulassen: *?s= Host: site.com Sitemap: http://site.com/sitemap.xml

3. Ersetzen Sie in der Textdatei Zeile site.com mit Ihrer Website-Adresse.

4. Speichern Sie die Änderungen und laden Sie die robots.txt()-Datei in den Stammordner Ihrer Site hoch.

5. Fertig.

Um das Beispiel anzuzeigen und herunterzuladen, klicken Sie auf die Schaltfläche unten und speichern Sie die Datei (Strg + S auf Ihrer Tastatur).

Grundlegendes zur robots.txt-Datei (Anweisungen)

Schauen wir uns nun genauer an, was genau und warum wir der robots.txt-Datei hinzugefügt haben.

User-Agent— eine Direktive, die verwendet wird, um den Namen des Suchroboters anzugeben. Mit dieser Anweisung können Sie Suchroboter blockieren oder zulassen, dass sie Ihre Website besuchen. Beispiele:

Wir verbieten dem Yandex-Roboter, den Cache-Ordner anzuzeigen:

Benutzeragent: Yandex Disallow: /wp-content/cache

Erlauben Sie dem Bing-Roboter, den Themenordner (mit Site-Themen) anzuzeigen:

Benutzeragent: bingbot Zulassen: /wp-content/themes

Zulassen und nicht zulassen- permissive und prohibitive Richtlinie. Beispiele:

Lassen Sie uns eine Lösung finden Der Yandex-Bot zeigt den Ordner „wp-admin“ an:

Benutzeragent: Yandex Zulassen: /wp-admin

Lasst uns verbieten Alle Bots sehen den Ordner „wp-content“:

Benutzeragent: * Nicht zulassen: /wp-content

In unserer robots.txt verwenden wir nicht die Allow-Direktive, da alles, was dem Bot mit Disallow nicht verboten ist, standardmäßig zugelassen wird.

Gastgeber— eine Direktive, mit der Sie den Hauptspiegel der Site angeben müssen, der vom Roboter indiziert wird.

Seitenverzeichnis– Mit dieser Anweisung müssen Sie den Pfad zu angeben. Ich möchte Sie daran erinnern, dass eine Sitemap ein sehr wichtiges Instrument bei der Werbung für eine Website ist! Nehmen Sie es unbedingt in diese Richtlinie auf!

Wenn Sie Fragen haben, stellen Sie diese in den Kommentaren. Wenn Ihnen die Informationen in dieser Lektion nicht ausreichen, empfehle ich Ihnen, sich ausführlicher über alle Anweisungen und deren Verwendung zu informieren, indem Sie diesem Link folgen.

Grüße Freunde! In diesem Tutorial sprechen wir über die Erstellung einer robots.txt-Datei, die Suchmaschinen-Robots zeigt, welche Bereiche Ihrer Website besucht werden sollten und welche nicht. Tatsächlich können Sie mit Hilfe dieser Servicedatei festlegen, welche Abschnitte in Suchmaschinen indiziert werden und welche nicht. Erstellen einer robots.txt-Datei 1. Erstellen Sie eine Nur-Text-Datei mit dem Namen „robots“ im TXT-Format. 2. Fügen Sie die folgenden Informationen hinzu: Benutzeragent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-comments Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: / wp-content/cache Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */trackback Disallow: */feed Disallow: /cgi-bin Disallow: /tmp/ Disallow: *?s= Benutzer - Agent: * Nicht zulassen: /wp-admin Nicht zulassen: /wp-includes Nicht zulassen: /wp-comments Nicht zulassen: /wp-content/plugins Nicht zulassen: /wp-content/themes…

Vom Autor: Eine der Dateien, die Suchmaschinen bei der Indizierung Ihrer Website verwenden, ist die Datei robots.txt. Aus dem Dateinamen ist nicht schwer zu erkennen, dass es für Roboter verwendet wird. Tatsächlich können Sie mit dieser Datei dem Suchroboter mitteilen, was auf Ihrer Website indiziert werden kann und was nicht im Suchindex angezeigt werden soll. Sehen wir uns also an, wie man Robots TXT für eine WordPress-Site einrichtet.

Es gibt viele Artikel zu diesem Thema im Internet. In fast jedem dieser Artikel finden Sie Ihre eigene Version der Robots-TXT-Datei, die Sie praktisch ohne Änderungen auf Ihrer WordPress-Site verwenden können. Ich werde eine dieser Optionen in diesem Artikel nicht noch einmal umschreiben, da dies keinen besonderen Sinn hat – Sie können alle diese Optionen problemlos im Internet finden. In diesem Artikel schauen wir uns einfach an, wie man Robots-Text für WordPress erstellt und welche Mindestregeln es dabei geben sollte.

Beginnen wir damit, wo sich die robots.txt-Datei befinden soll und was darin geschrieben werden soll. Diese Datei sollte sich wie die Datei sitemap.xml im Stammverzeichnis Ihrer Site befinden, d. h. Es sollte unter http://site/robots.txt verfügbar sein

Versuchen Sie, diese Adresse zu kontaktieren, indem Sie das Wort „site“ durch die Adresse Ihrer Website ersetzen. Sie können so etwas sehen:

Obwohl Sie dieses Bild sehen können:

Eine seltsame Situation, sagen Sie. Die Adresse ist zwar dieselbe, aber im ersten Fall ist die Datei zugänglich, im zweiten nicht. Wenn Sie sich außerdem das Stammverzeichnis der Website ansehen, werden Sie dort keine robots.txt-Datei finden. Wie und wo befindet sich robots.txt in WordPress?

Es geht um einfache Einrichtung – es ist CNC-Tuning. Wenn CNC auf Ihrer Site aktiviert ist, wird robots.txt dynamisch von der Engine generiert. Andernfalls wird ein 404-Fehler zurückgegeben.

Lassen Sie uns die CNC im Menü „Einstellungen – Permalinks“ einschalten und die Einstellung „Beitragsname“ überprüfen. Speichern wir die Änderungen – jetzt wird die robots.txt-Datei dynamisch von der Engine generiert.

Wie Sie in der ersten Abbildung sehen können, verwendet diese Datei bestimmte Anweisungen, die bestimmte Regeln festlegen, nämlich um die Indizierung von etwas an einer bestimmten Adresse zu erlauben oder zu verbieten. Wie Sie vielleicht erraten haben, deaktiviert die Disallow-Direktive die Indizierung. In diesem Fall handelt es sich um den gesamten Inhalt des wp-admin-Ordners. Nun, die Allow-Direktive ermöglicht die Indizierung. In meinem Fall ist die oben verbotene Indizierung der Datei admin-ajax.php aus dem wp-admin-Ordner zulässig.

Im Allgemeinen benötigen Suchmaschinen diese Datei natürlich nicht; ich kann mir nicht einmal vorstellen, warum WordPress diese Regel vorgeschrieben hat. Nun ja, im Prinzip tut es mir nicht leid

Übrigens habe ich oben ausdrücklich die Formulierung „in meinem Fall“ hinzugefügt, da in Ihrem Fall der Inhalt von robots.txt möglicherweise bereits anders ist. Beispielsweise kann die Indizierung des Ordners „wp-includes“ untersagt sein.

Zusätzlich zu den Disallow- und Allow-Anweisungen sehen wir in robots.txt die User-agent-Anweisung, für die ein Sternchen als Wert angegeben ist. Ein Sternchen bedeutet, dass die folgenden Regeln für alle Suchmaschinen gelten. Anstelle eines Sternchens können Sie auch die Namen bestimmter Suchmaschinen angeben. Die robots.txt-Datei unterstützt auch andere Anweisungen. Ich werde nicht weiter darauf eingehen; alle mit Beispielen können in der Webmaster-Konsole von Google oder Yandex angezeigt werden. Sie können die Informationen auch auf dieser Website lesen.

So erstellen Sie Robots-Text für WordPress

Wir haben also eine Datei für Suchroboter, aber es ist wahrscheinlich, dass sie in ihrer aktuellen Form nicht zu Ihnen passt. So erstellen Sie Ihre eigene Datei. Hier gibt es mehrere Möglichkeiten. Beginnen wir mit dem ersten – der manuellen Dateierstellung. Erstellen Sie ein Nur-Text-Dokument in Notepad und speichern Sie es als Robots mit der Erweiterung „txt“. Notieren Sie sich in dieser Datei den erforderlichen Regelsatz und speichern Sie ihn einfach im Stammverzeichnis Ihrer WordPress-Site neben der Konfigurationsdatei wp-config.php.

Überprüfen Sie für alle Fälle, ob die Datei heruntergeladen wurde und zugänglich ist, indem Sie über Ihren Browser darauf zugreifen. Dies war der erste Weg. Die zweite Methode ist die gleiche dynamische Dateigenerierung, nur dass das Plugin dies jetzt übernimmt. Wenn Sie das beliebte All-in-One-SEO-Plugin verwenden, können Sie eines seiner Module verwenden.

Robots.txt– eine Textdatei, die Suchrobotern mitteilt, welche Dateien und Ordner gescannt (indiziert) werden sollen und welche nicht.

Suchmaschinen wie Yandex und Google überprüfen zunächst die robots.txt-Datei und beginnen dann mit dem Crawling mithilfe von Web-Robots, die Websites archivieren und kategorisieren.

Die robots.txt-Datei enthält eine Reihe von Anweisungen, die den Bot anweisen, bestimmte Dateien oder Verzeichnisse zu ignorieren. Dies kann aus Datenschutzgründen erfolgen oder weil der Websitebesitzer der Meinung ist, dass der Inhalt dieser Dateien und Verzeichnisse nicht in Suchmaschinenergebnissen erscheinen sollte.

Wenn eine Website mehr als eine Subdomain hat, muss jede Subdomain über eine eigene robots.txt-Datei verfügen. Es ist wichtig zu beachten, dass nicht alle Bots die robots.txt-Datei verwenden. Einige bösartige Bots lesen sogar die robots.txt-Datei, um herauszufinden, welche Dateien und Verzeichnisse Sie verbergen möchten. Auch wenn die robots.txt-Datei Sie anweist, bestimmte Seiten einer Website zu ignorieren, werden diese Seiten möglicherweise dennoch in den Suchergebnissen angezeigt, wenn sie von anderen gecrawlten Seiten verlinkt werden. Standard-Robots-txt für WordPress öffnet die gesamte Website für die Indizierung, daher müssen wir unnötige Abschnitte von WordPress von der Indizierung ausschließen.

Optimal robots.txt

User-Agent: * # allgemeine Regeln für Roboter, außer Yandex und Google, # weil Für sie gelten die folgenden Regeln. Disallow: /cgi-bin # Systemordner auf dem Hosting, immer geschlossen. Disallow: /? # alle Anforderungsparameter auf der Hauptseite nicht zulassen: /wp- # alle WP-Dateien: /wp-json/, /wp-includes, /wp-content/plugins nicht zulassen: /wp/ # wenn es ein Unterverzeichnis /wp/ gibt, wo das CMS ist installiert (wenn nicht, # kann die Regel gelöscht werden) Disallow: *?s= # Suchanforderung Disallow: *&s= # Suchanforderung Disallow: /search/ # Suchanforderung Disallow: /author/ # Autorenarchiv, wenn Sie haben einen Nachrichtenblog mit Autorenspalten, dann können Sie # das Archiv des Autors öffnen, wenn Sie einen Nachrichtenblog mit Autorenspalten haben, können Sie Disallow: /users/ # Autorenarchiv Disallow: */ trackback # Trackbacks, Benachrichtigungen in öffnen Kommentare zum Erscheinen eines offenen # Links zum Artikel Nicht zulassen: */ Feed # Alle Feeds Nicht zulassen: */rss # RSS-Feed Nicht zulassen: */embed # Alle Einbettungen Nicht zulassen: */wlwmanifest.xml # Windows Live Writer-Manifest-XML-Datei (Wenn Sie es nicht verwenden, # kann die Regel gelöscht werden) Nicht zulassen: /xmlrpc. php # WordPress-API-Datei Nicht zulassen: *utm*= # Links mit utm-Tags Nicht zulassen: *openstat= # Links mit Openstat-Tags Erlauben: * /uploads # Öffnen Sie den Ordner mit den Upload-Dateien. # Geben Sie eine oder mehrere Sitemap-Dateien an (ein Duplikat für jeden Benutzeragenten # ist nicht erforderlich). Google XML Sitemap erstellt zwei Sitemaps wie im folgenden Beispiel. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Sie müssen den Host nicht mehr registrieren.

Erweiterte Version (getrennte Regeln für Google und Yandex)

User-Agent: * # allgemeine Regeln für Roboter, außer Yandex und Google, # weil Für sie gelten die folgenden Regeln. Disallow: /cgi-bin # Ordner auf dem Hosting Disallow: /? # alle Anforderungsparameter auf der Hauptseite nicht zulassen: /wp- # alle WP-Dateien: /wp-json/, /wp-includes, /wp-content/plugins nicht zulassen: /wp/ # wenn es ein Unterverzeichnis /wp/ gibt, wo das CMS ist installiert (wenn nicht, # kann die Regel gelöscht werden) Nicht zulassen: *?s= # Suche nicht zulassen: *&s= # Suche nicht zulassen: /search/ # Suche nicht zulassen: /author/ # Autorenarchiv nicht zulassen: /users/ # Autorenarchiv Nicht zulassen: */ trackback # Trackbacks, Benachrichtigungen in Kommentaren über das Erscheinen eines offenen # Link zu einem Artikel Nicht zulassen: */feed # alle Feeds nicht zulassen: */rss # RSS-Feed nicht zulassen: */embed # alle Einbettungen nicht zulassen : */wlwmanifest.xml # Manifest-XML-Datei Windows Live Writer (wenn Sie es nicht verwenden, # kann die Regel gelöscht werden) Nicht zulassen: /xmlrpc.php # WordPress-API-Datei Nicht zulassen: *utm*= # Links mit utm-Tags Nicht zulassen: *openstat= # Links mit OpenStat-Tags zulassen: */uploads # Ordner mit den hochgeladenen Dateien öffnen Benutzeragent: GoogleBot # Regeln für Google (Ich dupliziere keine Kommentare) Nicht zulassen: /cgi-bin Nicht zulassen: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Disallow: */embed Disallow: */wlwmanifest.xml Disallow: /xmlrpc.php Disallow: *utm*= Disallow: *openstat= Allow: */uploads Allow: /*/*.js # открываем js-скрипты внутри / wp- (/*/ - для приоритета) Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета) Allow: /wp-*.png # картинки в плагинах, cache папке usw. Erlauben: /wp-*.jpg # Bilder in Plugins, Cache-Ordner usw. Erlauben: /wp-*.jpeg # Bilder in Plugins, Cache-Ordner usw. Erlauben: /wp-*.gif # Bilder in Plugins, Cache-Ordnern usw. Zulassen: /wp-admin/admin-ajax.php # Wird von Plugins verwendet, um JS und CSS nicht zu blockieren. Benutzeragent: Yandex # Regeln für Yandex (Ich dupliziere keine Kommentare) Nicht zulassen: /cgi-bin Nicht zulassen: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss nicht zulassen: */embed nicht zulassen: */wlwmanifest.xml nicht zulassen: /xmlrpc.php zulassen: */uploads zulassen: /*/*.js zulassen: /*/*.css zulassen: /wp-*.png zulassen: /wp-*.jpg Erlauben: /wp-*.jpeg Erlauben: /wp-*.gif Erlauben: /wp-admin/admin-ajax.php Clean-Param: utm_source&utm_medium&utm_campaign # Yandex empfiehlt, # die Indizierung nicht zu blockieren, sondern zu löschen Tag-Parameter, # Google unterstützt solche Regeln nicht. Clean-Param: openstat # ähnlich # Geben Sie eine oder mehrere Sitemap-Dateien an (kein Duplikat für jeden User-Agent # erforderlich). Google XML Sitemap erstellt zwei Sitemaps wie im folgenden Beispiel. Sitemap: http://site.ru/sitemap.xml Sitemap: http://site.ru/sitemap.xml.gz # Sie müssen den Host nicht mehr registrieren.

Optimale Robots.txt für WooCommerce

Besitzer von Online-Shops auf WordPress – WooCommerce sollten sich auch um die korrekte robots.txt kümmern. Wir blockieren die Indexierung des Warenkorbs, der Checkout-Seite und der Links zum Hinzufügen von Artikeln zum Warenkorb.

Benutzeragent: * Nicht zulassen: /cgi-bin Nicht zulassen: /? Disallow: /wp- Disallow: /wp/ Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */ rss Nicht zulassen: */embed Nicht zulassen: */wlwmanifest.xml Nicht zulassen: /xmlrpc.php Nicht zulassen: *utm*= Nicht zulassen: *openstat= Nicht zulassen: /cart/ Nicht zulassen: /checkout/ Nicht zulassen: /*add-to-cart= * Erlauben: */uploads Erlauben: /*/*.js Erlauben: /*/*.css Erlauben: /wp-*.png Erlauben: /wp-*.jpg Erlauben: /wp-*.jpeg Erlauben: /wp -*.gif Erlauben: /wp-admin/admin-ajax.php Sitemap: https://site.ru/sitemap_index.xml

Frage Antwort

Wo befindet sich die robots.txt-Datei in WordPress?

Normalerweise befindet sich robots.txt im Stammverzeichnis der Site. Wenn es nicht vorhanden ist, müssen Sie eine Textdatei erstellen und diese per FTP oder über das Control Panel Ihres Hostings auf die Site hochladen. Wenn Sie robots txt nicht im Stammverzeichnis der Website finden konnten, dieser aber beim Klicken auf den Link yoursite.ru/robots.txt geöffnet wird, generiert ihn eines der SEO-Plugins selbst.

mob_info