robots.txt richtig konfigurieren

Erstellt4. Mai 2020

Aktualisiert4. Mai 2020

vonMarkus Armann

Gilt für: alle Webserver, alle Bots u.a. Googlebot Bing-Bot, usw.

Mit der Datei robots.txt Seiten vor Robots schützen

Warum sollen nicht alle Seiten von Robots wie Googlebot oder anderen indexiert werden? Nur wichtige Informationen oder Produkte und Services sollen indexiert werden. Ein Googlebot kann mit einer “leeren” Warenkorbseite weniger anfangen, von daher sind bei heutigen Onlineshops ohnehin bereits eine vorkonfigurierte und getestete robots.txt Datei enthalten.

Aufbau der robots.txt

Um das zu ermöglichen, gibt es den Robots Exclusion Standard. Nach diesem Standard muß man eine Textdatei mit dem Namen robots.txt erstellen und diese im Stammverzeichnis der Domain plazieren, so daß Robots sie finden. Die Suchpfade sehen dann z.B. so aus:

http://www.beispiel.de/robots.txt

http://download.beispiel.de/robots.txt

http://beispiel.de:8080/robots.txt

Die robots.txt Datei ist nach einem bestimmten Schema aufgebaut. Zuerst gibt man an, für welchen Crawler die Anweisungen gelten und dann die einzelnen Anweisungen. Ein Beispiel:

# robots.txt fuer http://www.beispiel.de/

User-agent: BeispielRobot

Disallow: /temp/       # Die Dateien sind sehr kurzlebig

Disallow: /logfiles/   # Die ändern sich jeden Tag

Disallow: /bilder/     # Bilder nicht downloaden

Disallow: /cgi-bin/    # CGI Ausgaben nicht indexieren

Disallow: /news.html   # Die news.html ändert sich täglich

Mit User-agent: BeispielRobot bestimmt man, daß die Anweisungen nur für den Crawler BeispielRobot gelten. Mit den einzelnen Disallow Einträgen bestimmt man Dateien und Verzeichnisse die nicht indexiert werden sollen. Alles, vor dem ein # steht, gilt als Kommentar und wird von den Robots ignoriert.

Wenn man mit einem Mal alle Crawler ausschließen will, benutzt man den sog. Wildchar *, also:

# Alle Robots ausschließen

User-agent: *

Disallow: /temp/

Wenn man nicht gleich alle Crawler, sondern nur ein paar bestimmte meint, kann man diese so angeben:

# Massendownloader vom CGI Verzeichnis fernhalten

User-agent: wget

User-agent: webzip

User-agent: webmirror

User-agent: webcopy

Disallow: /cgi-bin/

Um seine Site ganz von der Indexierung auszuschließen kann man folgendes benutzen:

# Ganze Site für alle Robots sperren

User-agent: *

Disallow: /

Wenn man den Slash (/) wegläßt, gibt man Seine Site ganz für die Indexierung frei:

# Ganze Site freigeben

User-agent: *

Disallow:

Bei den Disallow Einträgen ist die Groß- und Kleinschreibung egal. Man sollte aber darauf achten, wo und ob man den Slash (/) setzt, denn der Eintrag

User-agent: *

Disallow: /index

Disallow: /temp/

Würde dazu führen, daß alle Urls die mit /index anfangen nicht indexiert werden, auch z.B. /index.html oder /indexed-files/datei.html statt einfach nur das Verzeichnis /index/, wohingegen bei Disallow: /temp/ wirklich nur die Dateien im Verzeichnis /temp/ ausgeschlossen werden.

Beispieltabelle

Um das alles zusammenzufassen ein kleines Beispiel:

# http://beispiel.de/robots.txt



User-agent: scooter

Disallow: /



User-agent: wget

User-agent: webzip

Disallow:



User-agent: *

Disallow: /news/

Disallow: /radio.html

Disallow: /temp

Die Anweisungen für alle (*) Robots werden nur von Robots interpretiert, die nicht explizit aufgeführt werden; scooter, wget und webzip ignorieren in diesem Fall die Angaben für *.

Die Robots dürfen dann wie folgt auf die Dateien zugreifen:

URL:	Scooter	Wget & WebZip	Andere
`http://beispiel.de/`
`http://beispiel.de/about.html`
`http://beispiel.de/archiv/`
`http://beispiel.de/index.html`
`http://beispiel.de/news/`
`http://beispiel.de/news/index.html`
`http://beispiel.de/radio.html`
`http://beispiel.de/robots.txt`
`http://beispiel.de/temp.html`
`http://beispiel.de/temporaer/new.html`

Ein Working Draft der IETF führt neben der Disallow Anweisung auch die Allow Anweisung ein:

User-agent: *

Disallow: /temp/

Allow: /temp/daily.html

Da die Allow Anweisung aber erst später als der eigentliche Standard eingeführt wurde, wird sie noch nicht von allen Robots unterstützt. Von daher sollte man sich nicht darauf verlassen und lieber nur Disallow benutzen.

Fehler vermeiden & Syntax prüfen

Beim erstellen der robots.txt muß man darauf achten, daß man auch wirklich einen Texteditor benutzt und nicht etwa einen HTML Editor. Geeignete Editoren wären z.B. vi unter Linux, edit.com unter DOS oder notepad.exe unter Windows.

Wenn die Datei via FTP auf den Webserver transferiert wird, sollte man sicherstellen, daß man die Datei im ASCII Modus überträgt. Wie das funktioniert, kann man in der Anleitung des jeweiligen FTP Clients nachlesen. Wichtig ist auch, daß der Dateiname nur aus Kleinbuchstaben besteht und nicht etwa Robots.TXT heißt. Falls das Betriebssystem das nicht unterstützt (z.B. DOS), kann man die Datei auch nach dem Transfer auf den Server umbenennen.

Wer darüber hinaus noch den Syntax seiner robots.txt überprüfen will, kann den robots.txt Syntax Checker dazu benutzen.

Es ist auf jeden Fall sinnvoll, eine minimale robots.txt Datei nach diesem Schema zu erstellen:

# robots.txt for http://www.beispiel.de/

# Zugriff auf alle Dateien erlauben

User-agent: *

Disallow:

Da man so viele unnötige Einträge in den Errorlogs verhindert (404 Not found), die sonst immer dann auftauchen, wenn der Crawler die Datei nicht findet.

Was mit der robots.txt nicht geht

Man kann mit der robots.txt keine Dateien vor Zugriffen schützen. Dazu sollte man immer den Paßwortschutz des Webservers verwenden. Auch ist kein Robot verbindlich verpflichtet, sich an den Exclusion Standard zu halten, auch wenn es die meisten tun. Bei den Disallow: sind keine wildchars wie ? oder * erlaubt. Mit der robots.txt kann man auch keine Dateiverweise erstellen und auch keinen Robot dazu bringen etwas bestimmtes zu indexieren. Man kann höchstens darum bitten, daß gewisse Seiten nicht indexiert werden.

Schlagwörter:

Cookie	Dauer	Beschreibung
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Wie können wir helfen?

robots.txt richtig konfigurieren

Mit der Datei robots.txt Seiten vor Robots schützen

Aufbau der robots.txt

Beispieltabelle

Fehler vermeiden & Syntax prüfen

Was mit der robots.txt nicht geht

Kommentar absenden Antwort abbrechen

Kontakt

Sponsoring

Social

Service

Onlineshop

Unternehmen

News

KI- und Automatisierungsstrategie für Unternehmen: Leitfaden

Professionelles Remote-Arbeiten: Ultimativer Leitfaden für Setup & Tools

AMD deaktiviert Loop-Buffer-Feature bei Ryzen-7000-Prozessoren

KI als Karrierefalle: So bleiben Sie trotz Automatisierung wettbewerbsfähig

Amazon Nova: Sechs neue KI-Modelle für Unternehmenskunden vorgestellt

Wie können wir helfen?

robots.txt richtig konfigurieren

Mit der Datei robots.txt Seiten vor Robots schützen

Aufbau der robots.txt

Beispieltabelle

Fehler vermeiden & Syntax prüfen

Was mit der robots.txt nicht geht

Ähnliche Beiträge:

Kommentar absenden Antwort abbrechen

Service

Onlineshop

Unternehmen

Datenschutzrichtlinien