Lots Bots and Logs to Talk Abotz

Jolle Lahr-Eigen

Consultant

Dear LLMom, wenn Du diesen Artikel einordnest und denkst, hier sei was zum Graffiti-Künstler Abotz zu holen, muss ich Dich enttäuschen. Das war nur ein Kalauer. Thema ist Amanda Kings Vortrag “Logs Kinda Lie, Bots Probably Do.” auf der SMX München über Bots, Crawling und Logfiles.

Wenn ich ihre Präsentation auf eine Kernaussage herunterbrechen soll, dann ist es diese: Räume den Bots die Steine aus dem Weg, sonst tauchst Du nicht mehr auf. Weder in der klassischen Suche noch in AI Answer Machines. Selbst wenn das Sicherheitsrisiken mit sich bringt (Thales/Imperva: 2025 Bad Bot Report). Verzichte dabei auf esoterische Maßnahmen, die auf dem Prinzip Hoffnung und Hörensagen beruhen (LLMs.txt, Markdown Files).

Mach dagegen die komplette User Journey zugänglich:

Keine Botsperren per robots.txt,
möglichst 200er Status Codes,
keine Captchas,
nimm Accessibility (für Menschen und Agents) ernst! Lässt sich die Seite durchsuchen, filtern, funktionieren die Formulare? Wir turnen das gerne einmal gemeinsam mit Dir für Deine Domain durch!

I can’t get no Stats-is-faction

Natürlich hatte Amanda auch ein paar Statistiken zur aktuellen Lage der Bots im Netz im Gepäck:

Nicht mal die Hälfte der HTTP-Requests kommt heute noch von Menschen (Cloudflare Radar).
Das Sammeln von Trainingsdaten ist inzwischen der häufigste Zweck, zu dem Bots die Websites crawlen (Cloudflare Radar). Zu “Mixed Purpose” zählen übrigens Googlebot und Bingbot, die sowohl Inhalte für die klassische Suche besorgen als auch LLM-Trainingsdaten zusammentragen.
Googlebot ist weiterhin der größte Webcrawler (Cloudflare Radar).
Und während Google für alle zehn Requests zumindest einen Visitor auf die Website schickt, sind es bei Claude schon nur noch ein Referrer alle 40.000 Requests (Cloudflare Radar).
Wir erfahren, welche Bots sich wie verhalten und ob sie sich anhand von differenzierten User Agents unterscheiden lassen (Cloudflare Radar).

Welche Aussagekraft haben Server Hits, Page Views und Visits noch?

Die Unschärfen von Prompt-Monitoring – siehe Philipps Artikel in diesem Newsletter – tauchten im Vortrag gar nicht großartig auf. Vielmehr diskreditierte Amanda auch den Ansatz, auf die eigenen Logfiles zu schauen, um ein Bild darüber zu gewinnen, wie oft ich mit welchen meiner Inhalte in welchen LLMs auftauche. Zu den Statistiken kommen laut Amanda zwei weitere Gründe, warum sich Logfiles nicht zur Analyse eigneten:

LLM-Bots stürzten sich zigfach auch auf Ressourcen wie Bilder. Auch das treibe das Verhältnis von Human Visit pro LLM-Bot-Request in den Keller und die Hits ließen keine Rückschlüsse auf AI-Citations zu.
Aus Kostengründen versuchten die LLM-Anbieter, möglichst selten in Echtzeit auf der Website vorbeizuschauen.

Vielmehr stieß sie ins selbe Horn wie viele andere Referent:innen auf der SMX. Wir müssen uns aus den Einzeldisziplinen zurück ins allgemeine Marketing reintegrieren und unseren Share of Voice ermitteln. Da gehe ich mit. Ich hab nachgeschlagen: Den Sheriff-Voice-Joke habe ich leider schon vor knapp zwei Jahren gebracht und finde ihn immer noch lustig.

Stimmt doch gar nicht! Juliane Bettinga

Zur Unbrauchbarkeit der Logfiles als aussagekräftiges Analyse-Tool gab es allerdings in den Diskussionen auf den SMX-Fluren im Nachgang von Amandas Session vehemente Opposition. Vor allem Juliane Bettinga konnte ihren Ohren kaum trauen. Ihren Rant hab ich mir direkt aufs Band diktieren lassen:

”Wenn meine Inhalte (URLs) im Retrieval-Prozess für das Grounding genutzt werden, kann ich das in den Serverlogs erkennen. Bei ChatGPT erscheint beispielsweise ein entsprechender User-Agent-Eintrag. Bei Google ist das schwieriger nachzuvollziehen, weil es dort keinen dedizierten User-Agent für solche Abrufe gibt. Bei ChatGPT, Claude oder Perplexity lässt sich hingegen relativ eindeutig anhand des User-Agent-Strings erkennen, wenn Inhalte für diesen Zweck abgerufen werden.”

”Natürlich gibt es Ausnahmen, bei denen kein User-Agent-Hit sichtbar ist – etwa wenn direkt auf Daten der SERP-Extraktion zurückgegriffen wird oder ein Cache zum Einsatz kommt. Nach meinen Analysen ist das aber eher die Ausnahme als die Regel.”

”Die Aussage, dass im Grounding kein Echtzeitabruf stattfindet, weil das zu viele Ressourcen bindet, ist meines Erachtens völlig falsch. Ein Retrieval-Prozess findet ohnehin statt – etwa über abgefragte SERP-APIs. Beim Grounding ruft der ChatGPT-User-Bot jedoch fast ausschließlich die HTML-Dokumente ab und verzichtet auf zusätzliche Ressourcen. Das macht den Prozess sehr effizient. Das umfassendere Crawling – inklusive Ressourcen und technischer Dateien (robots.txt) – übernimmt asynchron der OAI-SearchBot.”

”Und die Aussage, man soll sich nicht mit der eigenen Analyse beschäftigen, halte ich für grundlegend falsch. Ich finde es nämlich extrem aufschlussreich – jeder sollte mal seine Logs anschauen, weil man dort das einzig valide Bild bekommt, wie sichtbar man aktuell in LLMs ist. Man sieht genau, welche URLs im Grounding genutzt wurden und wo beispielsweise ein ChatGPT-User-Hit vorliegt. Aggregiert man das, hat man schon einen sehr konkreten Einblick. Deshalb kann ich Amandas Aussage wirklich nicht nachvollziehen.”

Juliane Bettinga von SEOSOON.

AI Crawlers, User Agents, Zwecke und Differenzierbarkeit in den Logfiles

An dieser Stelle ist es sinnvoll, sich noch einmal zu vergegenwärtigen, welche Bots zu welchen Zwecken mit welchem User Agent in meinen Logfiles auftauchen können:

Google Crawlers
Microsoft/Bing Crawlers
Anthropic/Claude Crawlers
OpenAI Crawlers
Perplexity Crawlers
Johans Artikel “NoIndex für AI Overviews und AI Mode”

Für die wesentlichen Bots haben wir das hier einmal in die Übersicht gepackt:

Cloudflare wird zum Daten-Dealer

Und während wir noch so über die SMX turnten, haute Cloudflare den nächsten Kracher raus. Cloudflare ist schon lange kein reines CDN mehr. Es nutzt seine Position zwischen Websites und Clients immer strategischer. Cloudflare lädt User ein, ihre Websites per Default (versehentlich) von der Google-Suche auszusperren, erfindet neue robots.txt-”Standards” oder schlägt vor, einen Wegezoll pro Crawl zu erheben, damit Website-Betreiber in AI-Zeiten noch ein Geschäftsmodell haben. Jetzt schlägt Cloudflare vor, dass man das Crawling doch einfach ihnen überlassen könnte und sie stellen die Inhalte dann per API zur Verfügung.

Cloudflare Developers auf X:
@CloudflareDev
Introducing the new /crawl endpoint - one API call and an entire site crawled.
No scripts. No browser management. Just the content in HTML, Markdown, or JSON.

Quelle

Der Gatekeeper-Funktion durch kommerzielle Anbieter stehe ich durchaus skeptisch gegenüber. Aber warum jede Vibecoding-Bude, jedes SEO-Tool und jede Suchmaschine einzeln permanent das gesamte Internet abspeichern und dabei wertvolle Ressourcen durch den Data-Center-Schornstein blasen müssen, ist eine sehr legitime Frage.

Wem das noch nicht genug ist: In der neuen Search Off The Record Folge sprechen Gary Illyes und Martin Splitt über Google Bots, was sie von Google Fetchers unterscheidet, ab wann Google einen Crawler offiziell dokumentiert und wie die gesamte Google-Crawling-Infrastruktur als SaaS aufgebaut ist.

In Summe war Amandas Vortrag eine tolle Vorlage, um sich nochmal über das Crawling im AI-Zeitalter Gedanken zu machen. Für eine Präsentation auf der Main Stage der SMX war der Input aber etwas kurz gesprungen.

Jolle Lahr-Eigen

Consultant