Zum Hauptinhalt springen
Consultant

Vielleicht hast Du diesen Tweet von Jens Fauldrath neulich auch entdeckt und nichts Böses ahnend drauf geklickt. Von wegen besinnliche Weihnachtszeit - da fällt einem der Lebkuchen aus Schreck doch glatt auf die Tastatur!

In der freien Wildbahn begegnen einem im SEO-Leben immer wieder Dinge, die durchaus kurios anmuten. Natürlich ist es in der Aussensicht immer einfach aufzuzählen, was da alles falsch ist. Das ist nicht immer fair, denn auf der anderen Seite sitzen womöglich Menschen, die ihr möglichstes tun - trotz teils eher widriger Voraussetzungen.

Die außergewöhnlich-abenteuerliche robots.txt aus dem Tweet möchte ich daher gerne zum Anlass nehmen, ein paar generelle Tipps und Hinweise zu diesem Thema loszuwerden und in Erinnerung zu rufen. Los geht's!

  • Keep it simple: Die Restriktionen für den Crawler sollten so gering wie möglich ausfallen. Bei allem, was nicht gecrawlt werden darf, solltest Du Dir die Frage stellen, ob Du es a) wirklich brauchst oder b) anders als auf diesem Wege regeln kannst / solltest. Erfahrungsgemäß sind umfangreiche Listen in der robots.txt ein Zeichen für andere, strukturell-technisch besser lösbare Herausforderungen. Das reduziert auch die Gefahr, Dich in widersprüchlichen Angaben zu verstricken und am Ende doch etwas zu sperren, dass Du eigentlich gar nicht sperren wolltest.

  • Zeig dem Crawler alles was er benötigt: Bei umfassenden robots.txt Dateien kommt es gerne mal vor, dass man zu restriktiv ist und teilweise auch essentielle Ressourcen, die es beispielsweise zum Rendern braucht, vor dem Zugriff der Crawler "schützt". Das solltest Du besser vermeiden.

  • Mach es nicht zu kompliziert: So lange Du anhand von Logfiles oder anderen Quellen keine expliziten Gründe hast, einzelne Crawler unterschiedlich zu behandeln und spezifische Anweisungen zu formulieren, kannst Du mit User-agent: * arbeiten. Das macht die Erstellung und Wartung und möglicherweise erforderliches Debugging deutlich leichter!

  • Keep it small: Auch wenn eine robots.txt Datei in Theorie maximal 500KB umfassen darf heißt das nicht, dass Du diese Vorgabe bis aufs letzte ausreizen musst. Oder um es deutlicher zu sagen: Deine robots.txt sollte nicht im Entferntesten an dieses Limit herankommen.

  • Steuerung des Crawlers != Steuerung der Indexierung: Man kann es nicht oft genug erwähnen - mit der robots.txt wird nur gesteuert, was der Crawler crawlen darf und was nicht. Wenn ein Inhalt, der über Verlinkungen erschließbar ist, relevant genug erscheint, wird er im Index landen - auch wenn der Crawler ihn sich nicht anschauen durfte (und eine Angabe wie "noindex" entsprechend auch nie gesehen hat). Also: Vorsicht ist geboten! Daher ist einer meiner ersten Checks beim Untersuchen einer Domain auch, die in der robots.txt gesperrten Verzeichnisse und Inhalte einmal in eine site: Abfrage zu verpacken und zu schauen, ob und was da zurück kommt.

  • Verweis auf die XML-Sitemap: Je nach Umfang Deiner Domain solltest Du eine XML-Sitemap oder gar eine XML-Index-Sitemap haben. Und damit Google - und andere Crawler - die auch garantiert sehen, gehört sie nicht nur in der GSC hinterlegt, sondern ebenfalls in der robots.txt referenziert.

  • Immer im Root: Während eine XML-Sitemap nicht zwingend im Root der Domain liegen muss, ist das bei der robots.txt zwingende Voraussetzung. Die Crawler schauen an genau einem Ort nach der robots.txt, bevor sie sich ans Werk machen. Gilt übrigens auch für Subdomains!

  • Testing Tool ist Dein Freund: Auch wenn es mittlerweile ziemlich gut versteckt ist, gibt es in der GSC ein robots.txt Testing Tool. Da kannst Du nach Lust und Laune rumspielen und schauen, ob alles so funktioniert wie Du es Dir vorgestellt hast.

Wenn Du von robots.txt Dateien nicht genug bekommen kannst, dann sei Dir an dieser Stelle die folgende sehr ausführliche Lektüre empfohlen. Wir haben da nämlich schon mal alles, was Du bezüglich robots.txt wissen und beachten solltest zusammengetragen.

Consultant

Das ist ein Artikel aus unserem Newsletter. Wenn Du jeden Dienstag Morgen schlauer werden möchtest, melde jetzt kostenfrei für den SEO-Newsletter an

Kurze, praxisnahe SEO-Tipps – maximal 1× pro Woche. Keine Werbung, kein Spam.

Deine Daten sind bei uns in guten Händen und werden ausschließlich für diesen Newsletter genutzt.