WordPress Feeds mit robots.txt einfach aus dem Index fernhalten

In den letzten Wochen habe ich Orts- und Zeitbedingt wenig geschrieben, aber dennoch etwas “rumgebastelt”. Mein Ziel war es, die ganzen Seiten aus dem Supplemental Index zu bekommen und die Feeds und Trackbacks aus den Google Suchergebnissen zu entfernen, um die Besucher nicht zu verwirren.

Google hat die Abfrage des Supplemental Index jetzt abgeschaltet, aber durch Eingabe von “site:www.domain.tld” kann man sich alle indexierten Seiten einer Domain anschauen. Meistens findet man auf den hinteren Seiten (bei mir 8 und 9, da insgesamt nicht so viele Seiten im Index sind) viele Ergebnisse, bei denen man den Hinweis “- Zusätzliches Ergebnis -” lesen kann.

Screenshot eines Kommentar-Feeds in den Suchergebnissen

Wer nicht weiß, was der Supplemental Index ist, findet bei Sistrix eine ausführliche Erklärung.

So wie ich den Beitrag verstanden habe, befinden sich alle Einträge mit dem Hinweis “Zusätzliches Ergebnis” im Supplemental Index und werden nur sehr schlecht oder gar nicht gerankt. Bei den Kommentar-Feeds von WordPress (Screenshot) ist das sogar gut, denn es soll ja nur der eigentliche Beitrag in den Suchergebnissen erscheinen! Ansonsten entsteht sicher Verwirrung bei den Besuchern, wenn der Feed vor dem Beitrag rankt und beim Klick auf den Eintrag nur eine leere Feed-Seite erscheint.

Leerer WordPress Kommentar-Feed Kommentar-Feed im Internet Explorer

Viele Blogger haben jedoch das größte Problem mit dem “normalen” Haupt-Feed. Dieser Feed rankt normalerweise sehr gut und oft vor den entsprechenden Beiträgen. Ein Besucher, der etwas bestimmtes sucht, kann natürlich mit dem Feed für alle Beiträge nicht viel anfangen und wird die Seite schnell wieder verlassen. Dieses Problem lässt sich beispielsweise mit dem NoIndex Feed Plugin von JoostdeValk lösen.

Inzwischen kann man auch bei FeedBurner einstellen, dass der Feed nicht von den Suchmaschinen indexiert werden soll. Die entsprechende Einstellung findet man unter dem Menüpunkt “Publicize”.

FeedBurner NoIndex Option

Wenn man jedoch das Feed-Problem ein für alle mal (und für ALLE Feeds) aus der Welt schaffen will, sollte man das am besten und einfachsten mit einer entsprechenden robots.txt Datei machen.

Vom S-O-S SEO Blog wurde das Feed-Problem ebenfalls bemerkt und ich habe mich deshalb spontan dazu entschlossen auch mal meine robots.txt-experimentier-Ergebnisse in diesem Beitrag zu veröffentlichen.

Viele Quellen empfehlen für WordPress-Blogger die folgende robots.txt:

User-agent: Googlebot
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
Disallow: /rss/
Disallow: /comments/feed/
Disallow: /page/
Disallow: /date/
Disallow: /comments/

Warum Google und andere Suchmaschinenroboter getrennt behandelt werden sollen, verstehe ich allerdings nicht wirklich. “User-agent: Googlebot” habe ich deshalb aus der robots.txt-Vorlage entfernt und zusätzlich noch die Pfadangaben überarbeitet, da mein Blog in einem Unterverzeichnis installiert ist. Nach diesen Anpassungen war die robots.txt bereit für ein paar Tests mit den Google Webmaster Tools.

Mit der robots.txt – Analyse kann man sehr schön und mit direktem Ergebnis sehen, welcher Eintrag welche Folgen hat. Man muss einfach nur den Text der robots.txt in den Webmaster-Tools ändern und ihn mit verschiedenen URLs und den verschiedenen Google-User-Agents testen, und bekommt direkt das Ergebnis angezeigt, ohne dass Schaden entstehen kann.

Google Webmaster-Tools robots.txt-Analyse

Nachdem ich eine Weile mit verschiedenen robots.txt-Varianten und URLs von meinem Blog herumgespielt habe, bin ich zu folgendem Ergebnis gekommen:

User-agent: *
Disallow: /blog/wp-
Disallow: /blog/feed/
Disallow: /blog/*/feed/
Disallow: /blog/*/trackback/
Disallow: /blog/rss/
Disallow: *.css

Das “Disallow: /blog/wp-” habe ich reingenommen, weil bei mir wegen dem neuen Theme die Login- und die Admin-Seite indexiert wurden. Im S-O-S SEO Blog wird allerdings in den Kommentaren darauf hingewiesen, dass dies eventuell auch alles unter “/wp-content/” blockiert und somit die Bilder nicht mehr in der Google Bildersuche auftauchen werden. Ich habe das gerade mal getestet und es stimmt tatsächlich, Bilder im Blog werden vom Googlebot-Image nicht mehr gecrawled!

Googlebot Image Crawl-Test für “wp-”

Also, wer Wert darauf legt, dass seine Bilder in der Google Bildersuche auftauchen, sollte die erste Zeile mit “Disallow: /blog/wp-” nicht verwenden! Nachdem ich mir das ganze nochmal überlegt und mir die indexierten Seiten bei Google und Yahoo angesehen habe, bin ich zu dem Schluss gekommen, dass man diese Zeile eigentlich generell weglassen kann. Den Beiträgen wird auch eine indexierte Login-Seite kein Ranking wegnehmen. Oder kennt jemand noch einen anderen Grund, warum man man URLs mit “wp-” für Bots blockieren sollte?

Alle anderen Einträge in der robots.txt sollten eigentlich selbsterklärend sein. “Disallow: /blog/feed/” blockiert den Hauptfeed (kein Plugin mehr nötig) und “Disallow: /blog/*/feed/” blockiert all die lästigen Kommentar-Feeds der Beiträge. Bei mir indexiert Yahoo auch wie verrückt die Trackbacks für die Beiträge deshalb die Zeile “Disallow: /blog/*/trackback/”. Für CSS-Stylesheets scheint Yahoo ebenfalls eine Vorliebe zu haben, deshalb habe ich noch “Disallow: *.css” hinzugefügt.

Diese robots.txt habe ich nun seit dem 06. Juli im Einsatz und bisher wurden dadurch 28 URLs eingeschränkt. Unter den 28 URLs sind nur Trackbacks und Feeds sowie folgende URL “http://www.compboard.de/blog/wp-includes/js/prototype.js?ver=1.5.0-0″.

Ich denke, man kann also mit Sicherheit behaupten, dass diese robots.txt bedenkenlos einsetzbar ist um die Indexierung der Feeds verlässlich zu verhindern! Wer gegenteiliger Meinung ist, kann das gerne in den Kommentaren kundtun oder auch Verbesserungsvorschläge unterbreiten. ;-)

22 Kommentare »Wordpress

22 Kommentare zu “WordPress Feeds mit robots.txt einfach aus dem Index fernhalten”

  1. Michael Karbacher 23 Jul 2007 um 11:47 1

    Danke für die Anregung, ich hab meine robots.txt jetzt auch in dieser Form laufen:

    User-agent: *
    Disallow: /blog/feed/
    Disallow: /blog/*/feed/
    Disallow: /blog/*/trackback/
    Disallow: /blog/rss/
    Disallow: *.css

    Gruß
    Michael

  2. Don’t feed the animal(s) - Bandscheiben-Blog 17 Aug 2007 um 14:12 2

    [...] Phänomen über die robots.txt verhindern kann, habe ich mir erlaubt, den Vorschlag von compoard einfach zu übernehmen (danke [...]

  3. Kommentar-Feeds entsorgen - kleine Spiele mit der robots.txt - Bandscheiben-Blog 01 Sep 2007 um 19:38 3

    [...] verwendete ich u. a. Auszüge des Vorschlags von Matthias, [...]

  4. Rosie 04 Dez 2007 um 12:02 4

    Ich wollte mich mal an dieser Stelle bedanken für die vielen wertvollen Tipps die ich hier gelesen habe. Ich bin immer wieder von neuen erstaunt, was es doch so alles gibt.

  5. SEO mit WordPress 02 Feb 2008 um 00:34 5

    [...] Jetzt sollte man noch eine robots.txt auf dem Server ablegen und über diese verschiedene Verzeichnisse für die Suchmaschinen sperren. Im Fall von diesem Blog sieht diese aktuell so aus: User-agent: * Disallow: /blog/wp-admin/ Disallow: /blog/wp-content/ Disallow: /blog/wp-includes/ Disallow: /blog/feed/ und somit sollen alle Verzeichnisse des Weblog vor den Spider der Suchmaschinen geschützt sein, um sicher zu gehen das kein Duplicated Content (besonders durch die Feeds) produziert wird. Eine ausführliche Erklärung zum Umgang mit der robots.txt bei einem WordPress Blog findet Ihr im Compboard Blog. [...]

  6. Seo Breisgau Blog 13 Mrz 2008 um 20:06 6

    Sind Feeds so schädlich? Habe noch einen jungen Blog. Wenn ja, nehme ich mir deine Anleitung zu Herzen

  7. Matthias 13 Mrz 2008 um 20:19 7

    Nein, Feeds sind natürlich nicht schädlich, aber es geht darum Duplicate Content zu vermeiden und vor Allem weniger erfahrene User nicht zu verwirren und sie nicht von Google auf eine (leere) Feed-Seite leiten zu lassen. ;-)

  8. Seo Breisgau Blog 14 Mrz 2008 um 15:55 8

    Ok, dass ist ein gutes Argument, werde das heute Abend machen. Vielen Dank für die Anleitung und schönes Wochenende

  9. dizi izle 09 Mai 2008 um 01:30 9

    Ich wollte mich mal an dieser Stelle bedanken für die vielen wertvollen Tipps die ich hier gelesen habe. Ich bin immer wieder von neuen erstaunt, was es doch so alles gibt.

  10. Matthias 11 Mai 2008 um 08:01 10

    Ist ja super ein Lob zu bekommen, aber wenn es eins zu eins kopiert ist, sieht es eher nach Kommentarspam als nach ernstgemeintem Lob aus!

  11. Sebastian 08 Jul 2008 um 00:12 11

    Hm….ich bin mir nicht sicher, ob Google Feeds und Kommentarlinks wirklich als DC ansieht. Ich werde es mal austesten, aber es wird sicher schwer das Veränderungen festzustellen.

    Auf jeden Fall gute Arbeit ;)

  12. Matthias 08 Jul 2008 um 13:59 12

    Das mit den Kommentar-Feeds ist anscheinend etwas missverständlich formuliert. ;-)
    Diese sollen nur deshalb nicht in den Suchergebnissen erscheinen, damit die Besucher nicht verwirrt werden. Das könnte passieren, wenn der Kommentar-Feed durch einen aussagekräftigen Titel auch in den Ergebnissen erscheint, und die Besucher dann aber auf eine (meist) leere Feed-Seite geleitet werden, auf der sie keinen zum Titel relevanten Inhalt vorfinden.
    Die zwei Screenshots im Beitrag sollten das eigentlich beispielhaft belegen, aber da muss ich wohl nochmal an der Formulierung feilen. :-)

    Duplicate Content bezog sich wiederum auf die Trackback-URLs, da sich über /blog/beitragsurl/trackback ja auch die Beitragsseite mit dem gleichen Inhalt aufrufen lässt! So sollen mehrere verschiedene URLs für die gleiche Seite vermieden werden.

  13. allyouseekishere 13 Jul 2008 um 19:46 13

    danke schoen

  14. Seodeluxe 12 Nov 2008 um 22:10 14

    Vielen Dank für die Mühe des Testen, werde ich auch ausprobieren. Habe mich sträflicherweise bisher kaum mit der robots.txt beschäftigt ;-)

  15. Christian 17 Nov 2008 um 09:17 15

    Danke für die einfache und anschauliche Erklärung wie man die Robots.txt in WP korrekt einrichtet.

  16. Torsten 24 Nov 2008 um 07:02 16

    Du kannst natürlich das DC-Problem auch schon dadurch einschränken, daß im RSS-Feed nicht der gesamte Artikel erscheint. Das bewirkt auch schon vieles.

  17. Eisy 25 Nov 2008 um 15:15 17

    Vielen Dank für deine geleistete Arbeit mit dem Beitrag. Das bringt einen die robots.txt in Verbindung mit WordPress gleich wieder ein Stück näher. Normal befasse ich mich mit dieser eigentlich gar nicht, da alles ohne auch super klappt.

  18. Franzi 29 Nov 2008 um 09:58 18

    Das ist ne gute Sache. Wusste ich bis jetzt nicht, dass man WP Feeds dadurch ausschließen kann. Hab schon schädliche Spider und Mail-Robots damit ausgeschlossen. Hätte auch drauf kommen können. Dankeschön.

  19. Rene 09 Dez 2008 um 10:37 19

    Hi,

    leider hilft die robots.txt nicht in alle fällen. Falls die Seiten bereits indexiert sind sollte man den Ordner verschieben und den alten Ordner als 401 ausweisen. Manche robots beachten die robots, z.B. böse bots gar nicht. da hilft nur die feeds nicht zu verlinken oder zu verstecken.

    Gruß

    Gruß

  20. do it smart 02 Jan 2009 um 13:33 20

    Sollte man bzgl. DC auch definitiv umsetzen. Schon recht schlechte Erfahrungen gemacht. (Falsche Seiten im Index / Richtige Seiten aufgrund von internem DC nicht indexiert usw…)

    Viele Grüße und ein frohes neues Jahr… :-)

  21. SEO SEM Bastler 03 Jan 2009 um 00:20 21

    Feeds sollten auf jeden Fall ausgesperrt werden, allein schon wegen dem DC-Filter. @Rene: über die Webmastertools von Google kann man schnell die falsch indizierten Feeds wieder rauskicken. Dauert in der Regel 1-3 Tage.

  22. Bernd 09 Jun 2009 um 20:35 22

    Vielen Dank für die Infos, muß mich damit auf meiner Internetseite wohl auch noch intensiver beschäftigen.

Trackback URI | Kommentare als RSS-Feed

Diesen Beitrag jetzt kommentieren!

Werbliche Einträge und Spam werden umgehend gelöscht!