Zum Hauptinhalt springen

Dear LLMom, wenn Du diesen Artikel einordnest und denkst, hier sei was zum Graffiti-Künstler Abotz zu holen, muss ich Dich enttäuschen. Das war nur ein Kalauer. Thema ist Amanda Kings Vortrag “Logs Kinda Lie, Bots Probably Do.” auf der SMX München über Bots, Crawling und Logfiles.

Wenn ich ihre Präsentation auf eine Kernaussage herunterbrechen soll, dann ist es diese: Räume den Bots die Steine aus dem Weg, sonst tauchst Du nicht mehr auf. Weder in der klassischen Suche noch in AI Answer Machines. Selbst wenn das Sicherheitsrisiken mit sich bringt (Thales/Imperva: 2025 Bad Bot Report). Verzichte dabei auf esoterische Maßnahmen, die auf dem Prinzip Hoffnung und Hörensagen beruhen (LLMs.txt, Markdown Files).

Mach dagegen die komplette User Journey zugänglich:

  • Keine Botsperren per robots.txt,
  • möglichst 200er Status Codes,
  • keine Captchas,
  • nimm Accessibility (für Menschen und Agents) ernst! Lässt sich die Seite durchsuchen, filtern, funktionieren die Formulare? Wir turnen das gerne einmal gemeinsam mit Dir für Deine Domain durch!

I can’t get no Stats-is-faction

Natürlich hatte Amanda auch ein paar Statistiken zur aktuellen Lage der Bots im Netz im Gepäck:

  • Nicht mal die Hälfte der HTTP-Requests kommt heute noch von Menschen (Cloudflare Radar).
  • Das Sammeln von Trainingsdaten ist inzwischen der häufigste Zweck, zu dem Bots die Websites crawlen (Cloudflare Radar). Zu “Mixed Purpose” zählen übrigens Googlebot und Bingbot, die sowohl Inhalte für die klassische Suche besorgen als auch LLM-Trainingsdaten zusammentragen.
  • Googlebot ist weiterhin der größte Webcrawler (Cloudflare Radar).
  • Und während Google für alle zehn Requests zumindest einen Visitor auf die Website schickt, sind es bei Claude schon nur noch ein Referrer alle 40.000 Requests (Cloudflare Radar).
  • Wir erfahren, welche Bots sich wie verhalten und ob sie sich anhand von differenzierten User Agents unterscheiden lassen (Cloudflare Radar).

Gestapeltes Flächendiagramm "AI Bot Traffic Share" aus dem Cloudflare Radar 2025 Year in Review. Zeigt den Anteil von AI-Bots an HTML-Requests weltweit über das gesamte Jahr 2025 (Januar bis November). Gesamtaussage: AI-Bots verursachten 4,2% aller HTML-Requests. Vier Kategorien: Non-AI-Bot 47,9% (orange, untere Fläche), Human 43,5% (hellviolett, mittlere Fläche), Googlebot 4,5% (dunkelviolett, obere Fläche), AI-Bot 4,2% (hellblau, oberste Fläche). Non-AI-Bots und menschlicher Traffic dominieren stabil über das gesamte Jahr. Der Anteil der einzelnen Kategorien bleibt weitgehend konstant ohne ausgeprägte saisonale Schwankungen. Googlebot wird aufgrund seines Dual-Purpose-Charakters (Search-Indexierung und AI-Training) separat ausgewiesen. Stand: Cloudflare Radar 2025 Year in Review.

Liniendiagramm "Crawl purpose worldwide" von Cloudflare Radar, Zeitraum März 2025 bis März 2026. Mixed Purpose dominiert mit 56,8% (dunkelblau), gefolgt von Training mit 34,7% (hellblau), Search mit 6,4% (orange), User action mit 1,7% (gelb) und Undeclared mit 0,4% (grün). Mixed Purpose zeigt starke Peaks im April und Juni 2025, danach deutlicher Rückgang bis August, anschließend moderate Erholung. Training-Volumen bleibt vergleichsweise stabil auf niedrigerem Niveau. Stand: 15. März 2026, 15:45 UTC.

Liniendiagramm "HTTP traffic by bot worldwide" von Cloudflare Radar, Zeitraum März 2025 bis März 2026. Googlebot dominiert mit 47,6% (dunkelblau) mit ausgeprägten Peaks im April und Juni 2025 sowie einem kleineren Peak im Dezember 2025. GPTBot folgt mit 11,9% (hellblau), ClaudeBot mit 9,4% (orange), Bingbot mit 9,2% (gelb) und Meta-ExternalAgent mit 8,6% (grün). GPTBot zeigt einen deutlichen Peak im Mai/Juni 2025. Ab Dezember 2025 nähern sich GPTBot, ClaudeBot und Meta-ExternalAgent einander an und steigen gemeinsam leicht an. Stand: 15. März 2026, 15:45 UTC.

Tabelle "Crawl-to-refer ratio worldwide" von Cloudflare Radar, Zeitraum März 2025 bis März 2026. Zeigt das Verhältnis von HTML-Crawl-Anfragen zu HTML-Referrals nach Plattform. Anthropic hat mit 39.000:1 das höchste Verhältnis (ClaudeBot 97,9%, Claude-SearchBot 2,1%, Claude-User unter 0,1%). OpenAI liegt bei 1.100:1 (GPTBot 87,4%, ChatGPT-User 8,5%, OAI-SearchBot 4,1%). Microsoft bei 39,1:1 (Bingbot 100%). Perplexity bei 144,9:1 (PerplexityBot 94,6%, Perplexity-User 5,4%). Yandex bei 18,5:1, Mistral bei 16,3:1 (MistralAI-User 100%). Google bei 8,9:1 (Googlebot 89,3%, GoogleOther 10,3%). Baidu bei 2,1:1, ByteDance bei 1,9:1 (Bytespider 100%). DuckDuckGo hat mit 0,86:1 das niedrigste Verhältnis (DuckDuckBot 63%, DuckAssistBot 37%). Stand: 15. März 2026, 15:45 UTC.

Tabelle "AI bot best practices" von Cloudflare Radar, Zeitraum März 2025 bis März 2026. Zeigt das kollektiv beobachtete Verhalten der Bots führender KI-Anbieter, sortiert nach Traffic-Volumen. Spalten: Verified via IP, Verified via WebBotAuth, Distinct bots by purpose, Respects robots.txt. Google: IP-verifiziert (Ja), WebBotAuth (Nein), zweckspezifische Bots (Nein), robots.txt (Ja). Meta: IP-verifiziert (Ja), WebBotAuth (Nein), zweckspezifische Bots (Ja), robots.txt (Ja). OpenAI: IP-verifiziert (Ja), WebBotAuth (In progress), zweckspezifische Bots (Ja), robots.txt (Ja). Anthropic: IP-verifiziert (Nein), WebBotAuth (Nein), zweckspezifische Bots (Ja), robots.txt (Unclear). Microsoft: IP-verifiziert (Ja), WebBotAuth (Nein), zweckspezifische Bots (Nein), robots.txt (Ja). Stand: 15. März 2026, 16:15 UTC.

Welche Aussagekraft haben Server Hits, Page Views und Visits noch?

Die Unschärfen von Prompt-Monitoring – siehe Philipps Artikel in diesem Newsletter – tauchten im Vortrag gar nicht großartig auf. Vielmehr diskreditierte Amanda auch den Ansatz, auf die eigenen Logfiles zu schauen, um ein Bild darüber zu gewinnen, wie oft ich mit welchen meiner Inhalte in welchen LLMs auftauche. Zu den Statistiken kommen laut Amanda zwei weitere Gründe, warum sich Logfiles nicht zur Analyse eigneten:

  • LLM-Bots stürzten sich zigfach auch auf Ressourcen wie Bilder. Auch das treibe das Verhältnis von Human Visit pro LLM-Bot-Request in den Keller und die Hits ließen keine Rückschlüsse auf AI-Citations zu.
  • Aus Kostengründen versuchten die LLM-Anbieter, möglichst selten in Echtzeit auf der Website vorbeizuschauen.

Vielmehr stieß sie ins selbe Horn wie viele andere Referent:innen auf der SMX. Wir müssen uns aus den Einzeldisziplinen zurück ins allgemeine Marketing reintegrieren und unseren Share of Voice ermitteln. Da gehe ich mit. Ich hab nachgeschlagen: Den Sheriff-Voice-Joke habe ich leider schon vor knapp zwei Jahren gebracht und finde ihn immer noch lustig.

Stimmt doch gar nicht! Juliane Bettinga

Zur Unbrauchbarkeit der Logfiles als aussagekräftiges Analyse-Tool gab es allerdings in den Diskussionen auf den SMX-Fluren im Nachgang von Amandas Session vehemente Opposition. Vor allem Juliane Bettinga konnte ihren Ohren kaum trauen. Ihren Rant hab ich mir direkt aufs Band diktieren lassen:

”Wenn meine Inhalte (URLs) im Retrieval-Prozess für das Grounding genutzt werden, kann ich das in den Serverlogs erkennen. Bei ChatGPT erscheint beispielsweise ein entsprechender User-Agent-Eintrag. Bei Google ist das schwieriger nachzuvollziehen, weil es dort keinen dedizierten User-Agent für solche Abrufe gibt. Bei ChatGPT, Claude oder Perplexity lässt sich hingegen relativ eindeutig anhand des User-Agent-Strings erkennen, wenn Inhalte für diesen Zweck abgerufen werden.”

”Natürlich gibt es Ausnahmen, bei denen kein User-Agent-Hit sichtbar ist – etwa wenn direkt auf Daten der SERP-Extraktion zurückgegriffen wird oder ein Cache zum Einsatz kommt. Nach meinen Analysen ist das aber eher die Ausnahme als die Regel.”

”Die Aussage, dass im Grounding kein Echtzeitabruf stattfindet, weil das zu viele Ressourcen bindet, ist meines Erachtens völlig falsch. Ein Retrieval-Prozess findet ohnehin statt – etwa über abgefragte SERP-APIs. Beim Grounding ruft der ChatGPT-User-Bot jedoch fast ausschließlich die HTML-Dokumente ab und verzichtet auf zusätzliche Ressourcen. Das macht den Prozess sehr effizient. Das umfassendere Crawling – inklusive Ressourcen und technischer Dateien (robots.txt) – übernimmt asynchron der OAI-SearchBot.”

”Und die Aussage, man soll sich nicht mit der eigenen Analyse beschäftigen, halte ich für grundlegend falsch. Ich finde es nämlich extrem aufschlussreichjeder sollte mal seine Logs anschauen, weil man dort das einzig valide Bild bekommt, wie sichtbar man aktuell in LLMs ist. Man sieht genau, welche URLs im Grounding genutzt wurden und wo beispielsweise ein ChatGPT-User-Hit vorliegt. Aggregiert man das, hat man schon einen sehr konkreten Einblick. Deshalb kann ich Amandas Aussage wirklich nicht nachvollziehen.”

 Juliane Bettinga von SEOSOON.

AI Crawlers, User Agents, Zwecke und Differenzierbarkeit in den Logfiles

An dieser Stelle ist es sinnvoll, sich noch einmal zu vergegenwärtigen, welche Bots zu welchen Zwecken mit welchem User Agent in meinen Logfiles auftauchen können:

Für die wesentlichen Bots haben wir das hier einmal in die Übersicht gepackt:

Tabelle: KI-Bots nach Firma, User Agent, Zweck und Log-Sichtbarkeit. Anthropic: Claude-User (Echtzeit-Retrieval/Grounding), Claude-SearchBot (Suchindexierung/Verbesserung Suchergebnisse), ClaudeBot (Training) – alle sichtbar. Google: Google-Extended (Gemini Training + Vertex AI Grounding) – nicht sichtbar, nur robots.txt-Token, crawlt als Googlebot; Googlebot (Search-Indexierung + AI Overviews) – sichtbar, aber AI Overviews nicht trennbar. Microsoft: bingbot (Search-Indexierung + Copilot-Grounding) – sichtbar, aber Copilot nicht trennbar. OpenAI: ChatGPT-User (Echtzeit-Retrieval/Grounding), OAI-SearchBot (Suchindexierung), GPTBot (Training) – alle sichtbar. Perplexity: Perplexity-User (Echtzeit-Retrieval/Grounding), PerplexityBot (Suchindexierung) – sichtbar, wenn Perplexity nicht schummelt (Quellenangabe: blog.cloudflare.com/perplexity-is-using-stealth-undeclared-crawlers-to-evade-website-no-crawl-directives/).

Cloudflare wird zum Daten-Dealer

Und während wir noch so über die SMX turnten, haute Cloudflare den nächsten Kracher raus. Cloudflare ist schon lange kein reines CDN mehr. Es nutzt seine Position zwischen Websites und Clients immer strategischer. Cloudflare lädt User ein, ihre Websites per Default (versehentlich) von der Google-Suche auszusperren, erfindet neue robots.txt-”Standards” oder schlägt vor, einen Wegezoll pro Crawl zu erheben, damit Website-Betreiber in AI-Zeiten noch ein Geschäftsmodell haben. Jetzt schlägt Cloudflare vor, dass man das Crawling doch einfach ihnen überlassen könnte und sie stellen die Inhalte dann per API zur Verfügung.

Cloudflare Developers auf X:
@CloudflareDev
Introducing the new /crawl endpoint - one API call and an entire site crawled.
No scripts. No browser management. Just the content in HTML, Markdown, or JSON.

Quelle

Der Gatekeeper-Funktion durch kommerzielle Anbieter stehe ich durchaus skeptisch gegenüber. Aber warum jede Vibecoding-Bude, jedes SEO-Tool und jede Suchmaschine einzeln permanent das gesamte Internet abspeichern und dabei wertvolle Ressourcen durch den Data-Center-Schornstein blasen müssen, ist eine sehr legitime Frage.

Wem das noch nicht genug ist: In der neuen Search Off The Record Folge sprechen Gary Illyes und Martin Splitt über Google Bots, was sie von Google Fetchers unterscheidet, ab wann Google einen Crawler offiziell dokumentiert und wie die gesamte Google-Crawling-Infrastruktur als SaaS aufgebaut ist.

In Summe war Amandas Vortrag eine tolle Vorlage, um sich nochmal über das Crawling im AI-Zeitalter Gedanken zu machen. Für eine Präsentation auf der Main Stage der SMX war der Input aber etwas kurz gesprungen.

Du hast Fragen zum Artikel, zum Thema oder brauchst einen Tipp für Deine nächsten Schritte? Hier kannst Du Dir einen unverbindlichen Termin in meinem Kalender buchen. Ich freue mich auf Dich!
15-Minuten-Termin mit Jolle reservieren
Das ist ein Artikel aus unserem Newsletter. Wenn Du jeden Dienstag Morgen schlauer werden möchtest, melde jetzt kostenfrei für den SEO-Newsletter an

Kurze, praxisnahe SEO-Tipps – maximal 1× pro Woche. Keine Werbung, kein Spam.

Deine Daten sind bei uns in guten Händen und werden ausschließlich für diesen Newsletter genutzt.