Robots.txt – Anweisungen für Suchmaschinen

Mit der Datei robots.txt können Anweisungen an Suchmaschinen übermittelt werden, um diesen das Auslesen von Webverzeichnissen zu gestatten oder zu verbieten. Die Anweisungen gelten für das gesamte Webprojekt. Alternativ müsste jede HTML-Datei in den Metatags entsprechende Hinweise liefern, was jedoch nur für die jeweilige Datei und gegebenenfalls Verweise Gültigkeit hat. Die robots.txt muss im Wurzelverzeichnis der Domain abgelegt werden.

Textdatei mit Datensätzen

Als reine Textdatei kann die robots.txt mit jedem Editor erstellt und bearbeitet werden. Die Anweisungen für die Webcrawler der Suchmaschinen werden in Datensätzen definiert. Im ersten Teil eines Datensatzes erfolgt die Angabe, für welche Suchmaschine die Anweisung gilt. Die Crawler werden mit User-Agent angesprochen. Im zweiten Teil des Datensatzes kann dem angesprochenen Crawler ein Verbot ausgesprochen werden. Ein Verbot wird mit Disallow eingeleitet und gilt immer für das angegebene Verzeichnis und alle Unterverzeichnisse. Soll das Verbot für mehrere Suchmaschinen gelten, werden diese untereinander aufgeführt. Die robots.txt könnte also folgendermaßen aussehen:

User-agent: Suchmaschinen-Crawler a
User-agent: Suchmaschinen- Crawler b
Disallow: /template/
Disallow: /privat/

Jeder Einleitung folgt ein Doppelpunkt und ein Leerzeichen. Im obigen Beispiel wird den Crawlern der Suchmaschinen a und b ein Verbot für die Verzeichnisse /templates und /privat erteilt. Enthält die robots.txt mehrere Datensätze, werden diese durch eine Leerzeile voneinander getrennt. Sollen pauschal alle Robots angesprochen werden, geschieht dies mit dem Zeichen *:

User-agent: *
Disallow: /templates/
Disallow: /privat/

Alternativ zu ganzen Verzeichnissen kann auch für bestimmte Dateien in einem Verzeichnis ein Verbot erteilt werden. Zu diesem Zweck wird der Pfad inklusive der Datei angegeben. Sind alle Verzeichnisse der Domain betroffen, geschieht dies mit

User-agent: *
Disallow: /

Es wird also jeglichen Crawlern das Indizieren sämtlicher Verzeichnisse der Domain untersagt.

Sinn der robots.txt

Mit den Verboten, bestimmte Verzeichnisse auszulesen, soll in erster Linie erreicht werden, dass nur relevante Inhalte in den Suchmaschinen gelistet sind. Dies ist beispielsweise sinnvoll, wenn ein Verzeichnis ausschließlich Template-Dateien für den Internetauftritt enthält, die keinen informativen Wert haben. Auch wenn, wie in obigem Beispiel, der Inhalt des Verzeichnisses /privat nicht gelistet werden soll, kann das über die robots.txt gesteuert werden. Die Suchmaschinen werden somit nach Möglichkeit frei von irrelevanten oder unerwünschten Inhalten gehalten.

Zugriffe ausdrücklich erlauben

Für die Erlaubnis, Domaininhalte zu indizieren, gibt es keine Definition. Allerdings ist es möglich, einem bestimmten Crawler den Zugriff auf alle Verzeichnisse zu gestatten:

User-agent: Suchmaschinen-Crawler c
Disallow:

Die fehlende Angabe hinter Disallow gestattet dem Suchmaschinen-Crawler c die Indizierung aller Verzeichnisse und Unterverzeichnisse.

Grenzen der robots-txt

Seriöse Suchmaschinen halten sich an das “Robots-Exclusion-Standard-Protokoll”. Dieses regelt, dass die Crawler beim Auffinden einer Webseite zunächst die Datei robots.txt auslesen. Eine Garantie dafür gibt es allerdings nicht, auch können auf diese Weise keine Inhalte vor Zugriffen geschützt werden. Diesem Zweck dient beispielsweise der Verzeichnisschutz über die Datei .htaccess.