Back to Basics: Robots.txt

Florian Hannemann

Junior Consultant

Die robots.txt ist wie ein Regelwerk für Crawler. Sie steuert, was Bots auf Deiner Seite crawlen und welche Inhalte sie sich ansehen dürfen.

Das Einrichten einer robots.txt ist keine Pflicht. Solltest Du keine besitzen, werden die Crawler einfach davon ausgehen, dass sie jede Deiner Seiten crawlen dürfen. Da spricht auch prinzipiell nichts gegen.

Grundsätzlich kann eine robots.txt Dir aber sehr helfen, Dein Crawling effizienter zu gestalten. Vor allem, wenn Suchmaschinen Bots wie der Google Crawler sich auf Deiner Seite gerne mal verlaufen.

Ansehen kannst Du Dir eine robots.txt indem Du einfach /robots.txt an das Ende einer Domain packst. Beispielsweise so:

wngmn.de/robots.txt

Wie richtet man eine robots.txt ein?

Du brauchst recht wenig in Deine robots.txt Datei schreiben. Für 99% der Fälle reicht das aus:

User-Agent: *

Disallow:

Sitemap: https://wngmn.de/sitemap.xml

Theoretisch kannst Du aber auch das schreiben:

User-Agent: *

Allow: /

Sitemap: https://wngmn.de/sitemap.xml

Beide Varianten erlauben es dem Crawler überall hinzugehen. Entweder indem "Disallow:" leer bleibt und so keine Verbote ausgesprochen sind, oder indem "Allow: /" Zugriff auf jedes Verzeichnis erlaubt.

Das Hinzufügen einer Sitemap ist ebenfalls nicht nötig, aber empfehlenswert. Genaueres dazu kannst Du in meinem Sitemap Artikel von vor einigen Wochen nachlesen. Achja, und "User-Agent: *" bedeutet einfach, dass die Vorgaben für jeden User-Agent, also jeden Crawlerbot gelten.

Beim Schreiben einer robots.txt kannst Du generell auf Sonderzeichen/Wildcards wie "*" zurückgreifen. Das "*"-Zeichen steht als Wildcard hierbei für jedes mögliche Zeichen. Das "$"-Zeichen beispielsweise für das Ende einer URL. Wenn Du Dich mit Regex auskennst, sollte das nicht sonderlich kompliziert für Dich sein.

Hier ein ausgeführtes Beispiel zur Veranschaulichung:

User-Agent: Googlebot

Disallow:

# erlaubt allen Googlebots auf alle Inhalte zuzugreifen

User-Agent: Googlebot-News

Disallow: /sexy-hexy-Porno-Artikel-Verzeichnis

Disallow: /satire-Artikel-Verzeichnis

# verbietet dem Newsbot den Zugriff auf Verzeichnisse mit Themen, die für News nicht zulässig sind

Folgende Anweisungen werden oft zusätzlich gerne ergänzt, werden von Google aber nicht mehr verwendet (oder wurden es noch nie):

Crawl Delay
No Index
No follow

Es gibt also keinen Grund, diese Directives in Deiner robots.txt zu verwenden.

Was gibt es noch zu beachten?

Auch wenn Du Deine robots.txt vernünftig geschrieben hast, gibt es dennoch ein paar weitere Anforderungen:

Die Datei muss immer im Root der Domain liegen.
Deine robots.txt sollte utf-8 codiert sein.
Nur die ersten 500kb werden von Google verarbeitet. Mache Deine robots.txt Datei also nicht zu groß.
Wenn Du Kommentare in Deine robots.txt packen willst, kannst Du diese mit "#" Kennzeichnen.

Was sind gängige Crawler?

Falls Du dich oben gefragt hast, was genau die User-Agents sind. Hier ist eine Liste der gängigsten Crawler:

Google: Googlebot
Google Images: Googlebot-Image
Bing: Bingbot
Yahoo: Slurp
Baidu: Baiduspider
DuckDuckGo: DuckDuckBot
Claude: Claude-web
ChatGPT: GPTBot
Bytedance (TikTok und Doubao): Bystespider

Hier findest Du auch eine ausgiebige Liste der verschiedenen Google Crawler.

Ist eine robots.txt für Crawler bindend?

Suchmaschinen-Bots sind nicht gezwungen, sich an Angaben in der robots.txt zu halten. Bei eindeutigen Angaben hält Google sich zwar immer daran, aber genau das kann auch manchmal zu Fallstricken führen. Setzt Du eine Seite auf noindex und schließt sie mit der robots.txt aus, verlinkst sie aber weiterhin intern, kann es passieren, dass Google diese im Index behält. Durch das Crawl-Verbot in der robots.txt sieht Google den noindex Tag nämlich gar nicht erst.

Nicht besonders gut gestimmte Crawler (und Perplexity) ignorieren Deine robots.txt auch gerne mal gänzlich. Nora hatte hierzu vor einer Weile ebenfalls einen Artikel über böse Bots geschrieben. Lies Dir diesen doch gerne durch, um Dir ein noch genaueres Bild zu machen.

Auch wenn robots.txt nicht zwingend bindend für jeden Crawler ist, bietet sie dennoch viele Vorteile.

Solltest Du eine große Domain haben, ist eine robots.txt wichtig zur effizienten Steuerung Deines Crawl Budgets. Vor allem, wenn Du in der GSC häufiger mal auf Crawl Probleme wie "Crawled, but not indexed." oder "Discovered, but not crawled." stößt kann eine robots.txt viel bewegen.

Falls Du noch etwas mehr über die robots.txt wissen möchtest, kannst Du dir gerne diesen robots.txt Artikel auf unserer Webseite durchlesen. Schau Dir auch gerne einfach mal die robots.txt Dateien einiger anderer Webseite an. Manchmal kann man daraus viel über eine Domain lernen.

Florian Hannemann

Junior Consultant