🥃 Schmeiß die Content-Destille an, wir brennen hochprozentig!

Florian Stelzner

Geschäftsführender Gesellschafter

Wir diskutieren ja oft darüber, wie Google und LLMs Inhalte verarbeiten. Zuletzt hat Malte hier mal wieder einen Gold-Post auf LinkedIn über all die teilweise wilden Ideen zur LLM-Hofierung und deren (Nicht-)Wirkung gepostet.

Die Frage, was wirklich beim Modell ankommt, nachdem der Crawler da war und bevor die KI die Antwort generiert, treibt mich dennoch um.

Dan Petrovic hat dazu ein extrem spannendes Experiment veröffentlicht, das ich euch nicht vorenthalten möchte. Er hat sich angeschaut, wie Googles Vertex AI Search Inhalte filtert und grounded.

Grounded? Herr Stelzner, bitte reden Sie nicht in Rätseln.

Ja, ist ja gut. Stress mal nicht so rum. Es ist bald Weihnachten.Grounding bezeichnet den Prozess, bei dem eine KI ihre Antworten in konkreten, externen Datenquellen (wie Suchergebnissen) verankert, um Faktenbasiertheit sicherzustellen und Halluzinationen zu vermeiden.

In Dans Test wird deutlich… es ist deutlich weniger als gedacht. Der Prozess dazu läuft in etwa so ab:

User gibt einen Prompt ein.
Google führt passend dazu mehrere Suchanfragen aus → Query Fan-out.
Gekürzte Versionen der gefundenen Seiten werden erstellt.
Nur diese Snippets landen als Kontext im Modell.

Wuuuuussten wir natürlich schon. Maybe… aber Dan hat mal durchgemessen. Im Schnitt schaffen es nur etwa 32 % des Inhalts bis zum Modell.

Was fliegt raus?

Navigation & Boilerplate wie Menüs, Footer, Warenkorb-Buttons
Marketing-Bla-Bla wie generische Claims à la "Schneller Versand" oder "Beste Qualität" → es sei denn sie passen zur Suchintention
Für die Suchintention irrelevante Kategorien wie beispielsweise Laufbekleidung, wenn nach Fußballtrikots gesucht wurde
Rechtliches wie Copyrights & Impressum

Das System ist dabei gnadenlos effizient. Muss es ja auch sein.

Interessant für uns SEO-Nerds ist der sogenannte Kompressions-Effekt. Dan hat herausgefunden, dass, je mehr Quellen (Snippets) das Modell heranzieht, desto kürzer werden die einzelnen Schnipsel im Durchschnitt.

Graph zur Veranschaulichung der Daten. Je mehr Quellen (Snippets) das Modell heranzieht, desto kürzer werden die einzelnen Schnipsel im Durchschnitt.

Für die Mathe-Fans unter uns, die zu Weihnachten noch ein Zimmer in Hilberts Hotel bekommen haben, ist hier noch Dans Formel:

L¯=αN−β

Das System versucht also, die Informationsdichte hochzuhalten, ohne das Kontext-Fenster zu sprengen. Mehr Beweise führen also nicht linear zu mehr Text, sondern zu präziseren Auszügen. Mein #1 Learning ist die Bestätigung, dass Informationsdichte wichtiger ist als lyrische Ausschweifungen.

Merksatz zum Ausdrucken und unter das Kopfkissen legen:

Wenn 70 % Deiner Seite gar nicht erst beim Modell ankommen, weil es Navigation oder Füllwörter sind, müssen die verbleibenden 30 % sitzen.

Wir müssen Inhalte so strukturieren, dass die Antwort auf die User-Frage klar, isolierbar und frei von Störkram ist. Die KI filtert nicht nur, sie destilliert. Sorgen wir also dafür, dass unsere Inhalte hochprozentig sind. In diesem Sinne… Prost!

Florian Stelzner

Geschäftsführender Gesellschafter