Wordpress Feeds mit robots.txt einfach aus dem Index fernhalten

In der letzten Zeit habe ich Orts- und Zeitbedingt wenig geschrieben, aber dennoch etwas “rumgebastelt”. Mein Ziel war es, die ganzen Seiten aus dem Supplemental Index zu bekommen und die Feeds und Trackbacks aus den Google Suchergebnissen zu entfernen.

Google hat die Abfrage des Supplemental Index jetzt abgeschaltet, aber durch Eingabe von “site:www.domain.tld” kann man sich alle indexierten Seiten einer Domain anschauen. Meistens findet man auf den hinteren Seiten (bei mir 8 und 9, da insgesamt nicht so viele Seiten im Index sind) viele Ergebnisse, bei denen man den Hinweis “- Zusätzliches Ergebnis -” lesen kann.

Zusätzliches Ergebnis im Google Index

Wer nicht weiß, was der Supplemental Index ist, findet bei Sistrix eine ausführliche Erklärung.

So wie ich den Beitrag verstanden habe, befinden sich alle Einträge mit dem Hinweis “Zusätzliches Ergebnis” im Supplemental Index und werden nur sehr schlecht oder gar nicht gerankt. Bei den Kommentar-Feeds von Wordpress (Screenshot) ist das sogar gut, denn es soll ja nur der eigentliche Beitrag in den Suchergebnissen erscheinen! Ansonsten entsteht sicher Verwirrung bei den Besuchern, wenn der Feed vor dem Beitrag rankt und beim Klick auf den Eintrag nur eine leere Feed-Seite erscheint.

Leerer Wordpress Kommentar-Feed Kommentar-Feed im Internet Explorer

Viele Blogger haben jedoch das größte Problem mit dem “normalen” Haupt-Feed. Dieser Feed rankt normalerweise sehr gut und oft vor den entsprechenden Beiträgen. Ein Besucher, der etwas bestimmtes sucht, kann natürlich mit dem Feed für alle Beiträge nicht viel anfangen und wird die Seite schnell wieder verlassen. Dieses Problem ließ und lässt sich sehr einfach mit dem NoIndex Feed Plugin von JoostdeValk lösen.

Inzwischen kann man auch bei FeedBurner einstellen, dass der Feed nicht von den Suchmaschinen indexiert werden soll. Die entsprechende Einstellung findet man unter dem Menüpunkt “Publicize”.

FeedBurner NoIndex Option

Wenn man jedoch das Feed-Problem ein für alle mal (und für ALLE Feeds) aus der Welt schaffen will, sollte man das am besten und einfachsten mit einer entsprechenden robots.txt Datei machen.

Ich habe gerade erst bei Gerald vom S-O-S SEO Blog gelesen, dass er das übliche Problem hat und mich deshalb spontan dazu entschlossen auch mal meine robots.txt-experimentier-Ergebnisse in diesem Beitrag zu veröffentlichen.

Normalerweise wird für Wordpress-Blogger die folgende robots.txt empfohlen:

User-agent: Googlebot
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
Disallow: /rss/
Disallow: /comments/feed/
Disallow: /page/
Disallow: /date/
Disallow: /comments/

Warum Google und andere Suchmaschinenroboter allerdings getrennt behandelt werden sollen, weiß ich nicht. Außerdem bringt diese robots.txt herzlich wenig, wenn man sein Blog, so wie ich, in einem Unterverzeichnis installiert hat. Trotzdem habe ich ebenfalls mit dieser robots.txt angefangen und ein bißchen mit den Google Webmaster Tools gespielt.

Mit der robots.txt - Analyse kann man sehr schön und mit direktem Ergebnis sehen, welcher Eintrag welche Folgen hat. Man muss einfach nur den Text der robots.txt in den Webmaster-Tools ändern und ihn mit verschiedenen URLs und den verschiedenen Google-User-Agents testen, und bekommt direkt das Ergebnis angezeigt, ohne dass Schaden entstehen kann.

Google Webmaster-Tools robots.txt-Analyse

Nachdem ich eine Weile mit verschiedenen robots.txt-Varianten und URLs von meinem Blog herumgespielt habe, bin ich zu folgendem Ergebnis gekommen:

User-agent: *
Disallow: /blog/wp-
Disallow: /blog/feed/
Disallow: /blog/*/feed/
Disallow: /blog/*/trackback/
Disallow: /blog/rss/
Disallow: *.css

Das “Disallow: /blog/wp-” habe ich reingenommen, weil bei mir wegen dem neuen Template die Login- und die Admin-Seite indexiert wurden. Bei Gerald wird allerdings in den Kommentaren darauf hingewiesen, dass dies eventuell auch alles unter “/wp-content/” blockiert und somit die Bilder nicht mehr in der Google Bildersuche auftauchen werden. Ich habe das gerade mal getestet und es stimmt tatsächlich, Bilder im Blog werden vom Googlebot-Image nicht mehr gecrawled!

Googlebot Image Crawl-Test für “wp-”

Also, wer Wert darauf legt, dass seine Bilder in der Google Bildersuche auftauchen, sollte die erste Zeile mit “Disallow: /blog/wp-” nicht verwenden! Nachdem ich mir das ganze nochmal überlegt und mir die indexierten Seiten bei Google und Yahoo angesehen habe, bin ich zu dem Schluss gekommen, dass man diese Zeile eigentlich generell weglassen kann. Den Beiträgen wird auch eine indexierte Login-Seite kein Ranking wegnehmen. Oder kennt jemand noch einen anderen Grund, warum man man URLs mit “wp-” für Bots blockieren sollte?

Alle anderen Einträge in der robots.txt sollten eigentlich selbsterklärend sein. “Disallow: /blog/feed/” blockiert den Hauptfeed (kein Plugin mehr nötig) und “Disallow: /blog/*/feed/” blockiert all die lästigen Kommentar-Feeds der Beiträge. Bei mir indexiert Yahoo auch wie verrückt die Trackbacks für die Beiträge deshalb die Zeile “Disallow: /blog/*/trackback/”. Für CSS-Stylesheets scheint Yahoo ebenfalls eine Vorliebe zu haben, deshalb habe ich noch “Disallow: *.css” hinzugefügt.

Diese robots.txt habe ich nun seit dem 06. Juli im Einsatz und bisher wurden 28 URLs dadurch eingeschränkt. Unter den 28 URLs sind nur Trackbacks und Feeds sowie folgende URL “http://www.compboard.de/blog/wp-includes/js/prototype.js?ver=1.5.0-0″.

Ich denke, man kann also mit Sicherheit behaupten, dass diese robots.txt bedenkenlos einsetzbar ist um die Indexierung der Feeds verlässlich zu verhindern! Wer gegenteiliger Meinung ist, kann das gerne in den Kommentaren kundtun oder auch Verbesserungsvorschläge unterbreiten. ;-)

Lesezeichen anlegen Diese Icons verzweigen auf soziale Netzwerke bei denen Nutzer neue Inhalte finden und mit anderen teilen können.
  • Yigg
  • Webnews.de
  • MisterWong.DE
  • del.icio.us
  • LinkArena
  • Technorati
  • StumbleUpon
  • Digg
  • Google
  • Live
  • YahooMyWeb
  • Furl
  • Spurl
  • e-mail

Wordpress

Mehr zu diesem Thema:

10 Kommentare zu “Wordpress Feeds mit robots.txt einfach aus dem Index fernhalten”

  1. Michael Karbacher 23 Jul 2007 um 11:47 1

    Danke für die Anregung, ich hab meine robots.txt jetzt auch in dieser Form laufen:

    User-agent: *
    Disallow: /blog/feed/
    Disallow: /blog/*/feed/
    Disallow: /blog/*/trackback/
    Disallow: /blog/rss/
    Disallow: *.css

    Gruß
    Michael

  2. Don’t feed the animal(s) - Bandscheiben-Blog 17 Aug 2007 um 14:12 2

    [...] Phänomen über die robots.txt verhindern kann, habe ich mir erlaubt, den Vorschlag von compoard einfach zu übernehmen (danke [...]

  3. Kommentar-Feeds entsorgen - kleine Spiele mit der robots.txt - Bandscheiben-Blog 01 Sep 2007 um 19:38 3

    [...] verwendete ich u. a. Auszüge des Vorschlags von Matthias, [...]

  4. Rosie 04 Dez 2007 um 12:02 4

    Ich wollte mich mal an dieser Stelle bedanken für die vielen wertvollen Tipps die ich hier gelesen habe. Ich bin immer wieder von neuen erstaunt, was es doch so alles gibt.

  5. SEO mit WordPress 02 Feb 2008 um 00:34 5

    [...] Jetzt sollte man noch eine robots.txt auf dem Server ablegen und über diese verschiedene Verzeichnisse für die Suchmaschinen sperren. Im Fall von diesem Blog sieht diese aktuell so aus: User-agent: * Disallow: /blog/wp-admin/ Disallow: /blog/wp-content/ Disallow: /blog/wp-includes/ Disallow: /blog/feed/ und somit sollen alle Verzeichnisse des Weblog vor den Spider der Suchmaschinen geschützt sein, um sicher zu gehen das kein Duplicated Content (besonders durch die Feeds) produziert wird. Eine ausführliche Erklärung zum Umgang mit der robots.txt bei einem WordPress Blog findet Ihr im Compboard Blog. [...]

  6. Seo Breisgau Blog 13 Mrz 2008 um 20:06 6

    Sind Feeds so schädlich? Habe noch einen jungen Blog. Wenn ja, nehme ich mir deine Anleitung zu Herzen

  7. Matthias 13 Mrz 2008 um 20:19 7

    Nein, Feeds sind natürlich nicht schädlich, aber es geht darum Duplicate Content zu vermeiden und vor Allem weniger erfahrene User nicht zu verwirren und sie nicht von Google auf eine (leere) Feed-Seite leiten zu lassen. ;-)

  8. Seo Breisgau Blog 14 Mrz 2008 um 15:55 8

    Ok, dass ist ein gutes Argument, werde das heute Abend machen. Vielen Dank für die Anleitung und schönes Wochenende

  9. dizi izle 09 Mai 2008 um 01:30 9

    Ich wollte mich mal an dieser Stelle bedanken für die vielen wertvollen Tipps die ich hier gelesen habe. Ich bin immer wieder von neuen erstaunt, was es doch so alles gibt.

  10. Matthias 11 Mai 2008 um 08:01 10

    Ist ja super ein Lob zu bekommen, aber wenn es eins zu eins kopiert ist, sieht es eher nach Kommentarspam als nach ernstgemeintem Lob aus!

Trackback URI | Kommentare als RSS-Feed

Diesen Beitrag jetzt kommentieren!