robots.txt
Die robots.txt ist eine normale Textdatei, in der festgelegt wird, welche Verzeichnisse und Seiten auf einer Website von den Suchmaschinenbots indiziert werden dürfen.
Sollen alle Verzeichnisse indiziert werden, reichen die zwei folgenden Zeilen:
User-agent: *
Disallow:
Disallow:
Der Stern * ist Platzhalter für alle Bots. Wie einzelne Bots angesprochen werden ist auf wikipedia.org und auf robotstxt.org erläutert. In der "Disallow"-Zeile kann auch ein einzelnes Verzeichnis beziehungsweise eine einzelne Datei von der Indexierung ausgeschlossen werden. Mehrere Verzeichnisse müssen untereinander angegeben werden:
Soll nichts indiziert werden, sieht die robots.txt so aus:
User-agent: *
Disallow: /
Disallow: /
In diesem Beispiel ist festgelegt, dass der Suchmaschinenbot mit dem Namen "Googlebot" die angegebenen Verzeichnisse sowie die Datei "impressum.htm" nicht indizieren soll.
User-agent: Googlebot
Disallow: /verzeichnis/
Disallow: /beispiel/intern/
Disallow: /html/impressum.htm
Disallow: /verzeichnis/
Disallow: /beispiel/intern/
Disallow: /html/impressum.htm
Achtung: Die Bots müssen sich nicht zwingend an die Angaben halten, will man auf Nummer sicher gehen, sollten einzelne Verzeichnisse via .htaccess und / oder einer Passwortabfrage geschützt werden.
zuletzt geändert: 22.11.2012