Wir diskutieren ja oft darĂźber, wie Google und LLMs Inhalte verarbeiten. Zuletzt hat Malte hier mal wieder einen Gold-Post auf LinkedIn Ăźber all die teilweise wilden Ideen zur LLM-Hofierung und deren (Nicht-)Wirkung gepostet.
Die Frage, was wirklich beim Modell ankommt, nachdem der Crawler da war und bevor die KI die Antwort generiert, treibt mich dennoch um.
Dan Petrovic hat dazu ein extrem spannendes Experiment verĂśffentlicht, das ich euch nicht vorenthalten mĂśchte. Er hat sich angeschaut, wie Googles Vertex AI Search Inhalte filtert und grounded.
Grounded? Herr Stelzner, bitte reden Sie nicht in Rätseln.
Ja, ist ja gut. Stress mal nicht so rum. Es ist bald Weihnachten.Grounding bezeichnet den Prozess, bei dem eine KI ihre Antworten in konkreten, externen Datenquellen (wie Suchergebnissen) verankert, um Faktenbasiertheit sicherzustellen und Halluzinationen zu vermeiden.
In Dans Test wird deutlich⌠es ist deutlich weniger als gedacht. Der Prozess dazu läuft in etwa so ab:
- User gibt einen Prompt ein.
- Google fĂźhrt passend dazu mehrere Suchanfragen aus â Query Fan-out.
- GekĂźrzte Versionen der gefundenen Seiten werden erstellt.
- Nur diese Snippets landen als Kontext im Modell.
Wuuuuussten wir natßrlich schon. Maybe⌠aber Dan hat mal durchgemessen. Im Schnitt schaffen es nur etwa 32 % des Inhalts bis zum Modell.
Was fliegt raus?
- Navigation & Boilerplate wie MenĂźs, Footer, Warenkorb-Buttons
- Marketing-Bla-Bla wie generische Claims Ă la "Schneller Versand" oder "Beste Qualität" â es sei denn sie passen zur Suchintention
- FĂźr die Suchintention irrelevante Kategorien wie beispielsweise Laufbekleidung, wenn nach FuĂballtrikots gesucht wurde
- Rechtliches wie Copyrights & Impressum
Das System ist dabei gnadenlos effizient. Muss es ja auch sein.
Interessant fĂźr uns SEO-Nerds ist der sogenannte Kompressions-Effekt. Dan hat herausgefunden, dass, je mehr Quellen (Snippets) das Modell heranzieht, desto kĂźrzer werden die einzelnen Schnipsel im Durchschnitt.
FĂźr die Mathe-Fans unter uns, die zu Weihnachten noch ein Zimmer in Hilberts Hotel bekommen haben, ist hier noch Dans Formel:
LÂŻ=ÎąNâβ
Das System versucht also, die Informationsdichte hochzuhalten, ohne das Kontext-Fenster zu sprengen. Mehr Beweise fßhren also nicht linear zu mehr Text, sondern zu präziseren Auszßgen. Mein #1 Learning ist die Bestätigung, dass Informationsdichte wichtiger ist als lyrische Ausschweifungen.
Merksatz zum Ausdrucken und unter das Kopfkissen legen:
Wenn 70 % Deiner Seite gar nicht erst beim Modell ankommen, weil es Navigation oder FĂźllwĂśrter sind, mĂźssen die verbleibenden 30 % sitzen.
Wir mßssen Inhalte so strukturieren, dass die Antwort auf die User-Frage klar, isolierbar und frei von StÜrkram ist. Die KI filtert nicht nur, sie destilliert. Sorgen wir also dafßr, dass unsere Inhalte hochprozentig sind. In diesem Sinne⌠Prost!