Crawler, Crawling & Co

Anita Böhm

Consultant

Crawler ist nicht gleich Crawler: Google hat beispielsweise verschiedene Googlebots mit unterschiedlichen Schwerpunkten und Aufgabengebieten im Einsatz. So gibt es neben Googlebot Smartphone und Googlebot Desktop auch Googlebots für Images, News und Videos.

Darüber hinaus gibt es auch den Google StoreBot, der sich vor allem auf E-Commerce-bezogene Seitentypen fokussiert:

"Google StoreBot crawls through certain types of pages, including, but not limited to, product details pages, cart pages, and checkout pages."

Auch Tools wie der Rich Results Test und das URL Inspection Tool nutzen einen eigenen Googlebot namens Google-InspectionTool.

Als wäre das nicht schon genug, gibt es noch weitere Crawler, die beispielsweise von Google APIs genutzt werden oder sich um Ads drehen. Eine umfassende Liste aller Google-Crawler hilft, den Überblick zu behalten. Neben den Googlebots gibt es selbstverständlich noch viele weitere.

Wie John Mu kürzlich auf ~~Twitter~~ X bestätigt hat, schlägt sich jegliche Bot-Aktivität im Crawl-Budget nieder. Also ein Budget-Topf für alle Google-Crawler.

"When it comes to crawl budget and Google not crawling your site too much or too little, Google takes into account all Googlebot activity across all verticals."

fasst Barry Schwartz die Situation für Search Engine Roundtable zusammen.

An der Stelle nochmal der Reminder: Crawl-Budget ist eine Sache, über die Du Dir eigentlich nur dann Gedanken machen musst, wenn Du eine wirklich große Website hast. Details dazu findest Du im "Large site owner's guide to managing your crawl budget" von Google.

Die wesentlichen Komponenten des Crawl-Budgets sind...

Crawl Capacity Limit: wie viel und wie schnell kann Google Deine Seite crawlen, ohne dass Dein Server sich verabschiedet
Crawl Demand: variiert, je nachdem wie groß Deine Seite ist, wie oft Du sie updatest, wie relevant die Seite im Vergleich zu anderen ist, etc.

Kurzum:

"Taking crawl capacity and crawl demand together, Google defines a site's crawl budget as the set of URLs that Googlebot can and wants to crawl."

Das bringt uns natürlich direkt zum Crawl Stats Report in der GSC. Dort erfährst Du, wie es aktuell um das Crawling Deiner Domain bestellt ist.

Du kannst für die letzten 90 Tage unter anderem sehen

wie viele Crawl Requests es pro Tag gab (wenn es hier plötzliche Entwicklungen in die eine oder andere Richtungen gibt, ist das womöglich einen Blick wert),
wie oft welcher Status Codes zurückgegeben wurde (im Idealfall natürlich vor allem Status Code 200, wenn andere Status Codes ohne sinnvolle/bekannte Ursache größere Anteile haben, sollte man sich das mal ansehen),
über welche File Types sich die Crawl Requests verteilen und
wie oft welcher Googlebot vorbeigekommen ist (auch hier lassen sich gelegentlich Ungereimtheiten erkennen).

Leider gibt es kein Idealbild, denn je nachdem, wie Deine Seite gestrickt ist, kann das ganz unterschiedlich aussehen. Wenn Du zum Beispiel ein News-Publisher bist, der regelmäßig und im großen Umfang neue Inhalte veröffentlicht, hast Du vermutlich einen höheren Anteil an "Discovery", als wenn Du einen Online-Shop mit relativ stabilem Inventar betreibst.

Wenn Du Dir unsicher bist, ob alles okay ist oder irgendwo was schief läuft, kann ein Blick in die Logfiles aufschlussreich sein.

Aber nochmal zurück zu den Google-Crawlern: Google hat neue IP-Adress-Ranges kommuniziert und Änderungen an Namen und Auflösungen vorgenommen. Das ist wichtig, wenn Du Whitelisting betreibst. Details findest Du im Beitrag "Mehr Infos Google Crawler Documentation Has A New IP List" von Roger Montti.

Abgesehen davon ist es sinnvoll, unabhängig von Crawl-Budget & Co pfleglich mit den Ressourcen umzugehen. Gary Illyes von Google wünscht sich zumindest, in Zukunft weniger zu crawlen:

"My mission this year is to figure out how to crawl even less, and have fewer bytes on wire."

– Gary bei LinkedIn

In den Kommentaren gibt es dazu auch schon ein paar spannende Beiträge – vielleicht hast Du ja weitere Anregungen für Gary?

Anita Böhm

Consultant