Immer wenn ich eine übereifrig gefüllte robots.txt lese, muss mein Hacker-Herz ein bisschen schmunzeln und mein SEO-Herz ein bisschen weinen.
Ja, Du hast richtig gelesen, Hacker-Herz. In der Tat beschäftige ich mich leidenschaftlich gern Web-Security-Themen und freue mich schon wie ein Kind auf den diesjährigen Advent of Cyber. Tatsächlich veranstaltet auch Google regelmäßig große Capture-the-Flag-Hacker-Events bei denen auf spielerische Art und Weise virtuelle Flaggen erobert werden können.
Eine der ersten Einstiegshürden ist da auch gern mal die robots.txt. Allerdings nicht etwa, um sich daran zu halten sondern im Gegenteil - nachzusehen, wo man am ehesten in das System einfallen kann so wie in diesem Beispiel.
Noch ein Argument mehr für SEOs sich auf den von uns häufig empfohlenen Standard-Eintrag zu beschränken:
User-agent: *
Allow: /
Sitemap: [Full-Qualified-URL-To-XML-Sitemap]
Wer wirklich seinen Server vor bösen Bots schützen möchte, der macht das am Besten auf Serverebene und da möglichst in einem Detailgrad, der einem nicht selbst ins Bein schießt. Etwa wenn man einfach nur alle User-Agents erlaubt, die sich mit "Googlebot" authentifizieren. Das kann bereits jeder, der sich 10 Minuten mit dem ScreamingFrog beschäftigt hat ganz schnell. Enterprise Crawler wie unsere Freunde von Ryte bauen ihrerseits Mechanismen ein, um fahrlässige Einstellungen auf Anwenderseite zu verhindern. Dreht man diese Schraube ohne Absprache mit dem Server-Admin zu hoch, kann das schon mal fix zu DDOS-mäßigen Timeouts führen.
Tatsächlich möchte man auch auf gar keinen Fall, dass Konkurrenten solche Features gegen einen nutzen. Da ist es super, dass man sich hier zunächst authentifizieren muss.
Google hat netterweise ein dynamisches JSON-File mit Googlebot-IPs bereitgestellt, dass uns bei dem Abgleich von echten Google-Bots hilft. Das sollte für viele Konfigurationen eine echte Erleichterung darstellen, denn wie Barry Schwarz in seinem Artikel auf Searchengineland dazu richtig aufführt, konnte man schon immer per Reverse DNS den echten Googlebot von der billigen Crawler-Kopie unterscheiden.