Nichts ändert sich, wenn sich nichts ändert - Deshalb hat Google den Crawl Stats Report überarbeitet und die Dokumentation zum Crawling und der robots.txt aktualisiert. Dieses Finding teilte unter anderem Brodie Clark auf Twitter und zeigt farblich, welche Parts jeweils hinzugekommen sind:
Das solltest Du Dir merken:
-
Ist die Antwort beim Abruf der robots.txt erfolgreich und weniger als 24 Stunden alt, dann verwendet Google die robots.txt-Datei beim Crawling. ⏱️
-
Der Status Code 404 gilt dabei als erfolgreich und der Google-Bot verhält sich, als ob es keine robots.txt gäbe. 🏎️💨
-
Ist die Abfrage der robots.txt nicht erfolgreich oder älter als 24 Stunden, fragt Google den Status erneut ab. 👋🔄
-
Bei Erfolg gilt Nummer 1. Bei Misserfolg passiert Folgendes:
-
Das Crawling wird für 12 Stunden gestoppt, Google fragt aber weiterhin die robots.txt an. 👋🔄
-
Gibt es nach 12 Stunden keine Antwort bei der Abfrage, verwendet Google die zuletzt erfolgreich abgerufene robots.txt. 💾
-
Nach 30 Tagen agiert Google so, als ob es keine robots.txt gäbe, insofern die Webseite erreichbar ist. 🏎️💨 Das ist insbesondere dann fatal, wenn Du innerhalb Deiner robots.txt-Datei viele Ausschlüsse hast. Daher solltest Du Deine robots.txt gezieltes Monitoring einrichten. Das geht zum Beispiel mit Ryte.
-
Ist die Website nicht erreichbar, stoppt Google das Crawling, fragt die robots.txt von Zeit zu Zeit aber immer wieder an. ⏹️
Wie Google mit anderen Status Codes umgeht, kannst Du im Google-Artikel zur robots.txt-Datei nachlesen. Falls Du noch mehr zum Thema robots.txt wissen möchtest, schau doch mal in unseren Wingmen-Wissensartikel "Die Robots.txt - Steuerung von Suchmaschinen". 🧠