Na, hast Du den neuen robots.txt-Report in der Google Search Console schon entdeckt? Seit letzter Woche ist dieser neue Bericht in der GSC verfügbar. Er löst den alten robots.txt-Tester ab, den Du vielleicht noch aus früheren Instanzen der GSC kennst.
Johan hat den robots.txt-Report noch vor der offiziellen Info entdeckt und freut sich:
"Hurra, ein Recrawl-Button. Jetzt muss man mit dem alten Bericht keine komischen Verrenkungen mehr machen!"
Okay, Moment, nochmal einen Schritt zurück! Falls Du Dich fragst, was das für ein Report sein soll: Mit seiner Hilfe erhältst Du Aufschluss darüber, ob Google Deine robots.txt-Dateien verarbeiten kann – und wenn nicht, wieso es Probleme gibt. Außerdem kannst Du bei Bedarf ganz unkompliziert einen Recrawl anstoßen.
Achtung! Den Report gibt es nur für Properties auf Domain-Level (also Domain-Properties oder URL-Prefix-Properties ohne Pfad). Aber logisch, die robots.txt-Datei liegt ja bekanntlich auch im Root der Domain.
Über diesen Link kannst Du ganz einfach zum robots.txt-Report in der GSC hüpfen, nachdem Du eine Property ausgewählt hast.
Du findest den Report aber auch, indem Du links unten in der GSC-Navigation auf "Settings" klickst. Da findest Du dann im Bereich "Crawling" einen "Open Report"-Button.
Bei uns sieht das Ganze überschaubar aus: Neben der URL werden der Zeitpunkt des letzten Checks sowie der Status (grüner Haken = alles paletti) und die Größe der Datei vermerkt. Wenn es Probleme gibt, werden diese hier ebenfalls aufgeführt. Am Ende der Zeile gibt es dann das Feature, das Johans Augen leuchten lässt: Hinter den drei kleinen Punkten verbirgt sich die "Request a recrawl"-Funktion.
Für den Fall, dass etwas nicht OK ist, kann der Status anstelle des grünen Hakens auch ein rotes Ausrufezeichen haben und beispielsweise so lauten:
"Not Fetched – Blocked due to unauthorized request (401)"
Es kann aber auch sein, dass es beim Fetchen keine Probleme gab, mit der robots.txt-Datei aber schon. Dann liefert Google zu jedem Punkt, mit dem es Schwierigkeiten gibt, einen Hinweis. Im Beispiel gibt es eine Reihe von Regeln, die Google ignoriert. Zu jeder Instanz findest Du auch eine Zeilenangabe und ein Highlight im Code.
In den meisten Properties, die ich mir gerade in unserer GSC angeschaut habe, gibt es nur eine robots.txt-Datei. Insbesondere natürlich bei URL-Prefix-Properties ist das nicht überraschend.
In einigen Domain-Properties gibt es pro Subdomain (www und non-www zum Beispiel) und teilweise auch für HTTP und HTTPS eine robots.txt-Datei.
Probleme scheinen eher selten zu sein. Was ich aber spannend finde, ist die große Varianz in der Größe der Datei – zweistellig, dreistellig, vierstellig – alles ist dabei. No surprise, insbesondere in den größeren Dateien gibt es tendenziell eher Fehler.
Interessante Hinweise aus der Doku zum Report:
-
Wenn Google keine robots.txt-Datei finden kann, geht Google davon aus, das alles gecrawlt werden darf ohne Einschränkungen
-
Wenn Google eine robots.txt-Datei findet, diese aber nicht abrufen kann, wird das Crawling erstmal pausiert und für 12 Stunden versucht, die robots.txt-Datei zu erreichen und ansonsten auf die zuletzt verfügbare Version zurückgegriffen
-
Das gilt aber nur für maximal 30 Tage, danach passt Google das Verhalten nochmals an
Mehr Fun Facts zur robots.txt findest Du übrigens in diesem sehr ausführlichen Wissensartikel von Johan.
Interessanterweise scheint es den früher verfügbaren robots.txt Tester nicht mehr zu geben. Stattdessen empfiehlt Google, doch einfach nach einem Third Party robots.txt-Tester zu googlen oder (in Form von einer Empfehlung von John Mu auf Linkedin) den Screaming Frog zu nutzen.