Adam Gent erklärt, “Wie Googles Such-Index funktioniert”

Jolle Lahr-Eigen

Consultant

Auf der Brighton SEO im Oktober hielt Adam Gent einen Vortrag zum Thema “How Google’s Search Index Works”. Den habe ich nur ungern verpasst. Aber zum Glück profitieren wir alle von den veröffentlichten Slides.

Mit seinem Projekt Indexing Insight nimmt Adam den Indexing-Report der Search Console und die URL Inspection API von Google genau in den Blick. Wie Johan hier und Adam dort beschreibt, kommt er zu ganz ähnlichen Erkenntnissen wie wir bei Wingmen:

Einige der für uns spannendsten Erkenntnisse der letzten Jahre:

Der Google Index ist nicht unendlich groß. Das Limit von 400 Milliarden Dokumenten ist in Relation zum “gesamten Internet” sogar recht überschaubar. Das macht Indexierung zum Nullsummenspiel.
Indexierte Dokumente können, unabhängig von Sanktionen (Penalties/Manual Actions), die Google für den Verstöße gegen seine Richtlinien verhängt, wieder aus dem Index fliegen.
Entscheidender Faktor dabei ist die Qualität. Wenn ein besseres Dokument zum Bestand dazukommt, muss ein schlechteres gehen. Wie gesagt: Nullsummenspiel…

Die zentralen Botschaften von Adam in Kürze

Slide 79 übersetzt:

Der Seiten-Indexierungsbericht zeigt alle verarbeiteten Inhalte an
„Indexiert“ bedeutet, dass die URL in der Suche erscheinen kann
Seitenqualität ist ein Hauptgrund dafür, dass Seiten entfernt werden
Google verwendet die Seitenqualität, um seinen Index zu verwalten
Qualität wird für die Crawling-Priorisierung von Seiten verwendet

Googles Indexing-Datenbanken umfassen mehr als der öffentliche Google Index

Denn Google speichert auch Informationen zu Dokumenten weg, die es mal verarbeitet, sich aber gegen eine Indexierung entschieden hat (Slide 11). Das ist das, was unsere Neologismus-Freunde drüben bei Jaeckert O’Daniel den “Grauen Index” getauft haben (Slide 13).

Nicht ohne Grund gibt der Screaming Frog in der Spalte “Indexability” an, ob eine URL indexierbar ist oder nicht. Wir erfahren aber – ohne Anschluss an die Indexing API – nichts darüber, ob die URL tatsächlich indexiert und in der Google-Suche auffindbar ist. “Eligible” vs. Not-eligible to be served on Google” ist hier die Frage.

Qualität (vs. Spam) ist der entscheidende Faktor für

die Aufnahme in den oder den Ausschluss aus dem öffentlichen Google Index
die Crawl-Rate, in der Googlebot ein Dokument besucht

Wie misst Google gute Qualität? (Slide 54)

Anhand des Inhalts selbst (Vector Embeddings)
Links
User Signals wie Clicks

“Quality and popularity signals, for instance, help Google determine how frequently to crawl web pages to ensure the index contains the freshest web content” DoJ vs Google Dokument 1436 S. 142

”So you want an index of sort of the useful parts of the web that would help users.” Ex-Google VP of Search, Gerichtsdokument 974 S. 25

“Google’s systems identify around 40 billion spam pages each day,” Google-Advokat Gary Illyes auf der Search Central Live Asia Pacific 2025

Zu wissen, welche URLs Spam sind und wie man Spam erkennt, ist ein riesiger Vorteil, den sich Google über die Jahrzehnte aufgebaut hat. LLM-Chatbots stehen im Vergleich dazu oft noch mit runtergelassenen Hosen da, wenn sie Bestenlisten blauäugig wiedergeben, bei denen sich irgendjemand praktischerweise selbst auf Platz 1 gesetzt hat.

“Insgesamt ist Google ja keine Suchmaschine, sondern eine Spamfilter-Maschine.” Cleo im Wingmen-Newsletter

Im Antitrust-Trial des DoJ entschied Richter Amit Mehta daher als eine Abhilfe zur missbrauchten Monopolstellung Googles, dass der Suchgigant einmalig Spam-Scores mit Wettbewerbern teilen muss, damit diese eine Chance haben, mit Google zu konkurrieren. Denn so können sie das Netz effizienter crawlen und sich selbst einen hochwertigen Index aufbauen:

“The spam score will allow rivals to avoid crawling web pages of low value and focus only on those with helpful content” Richter Amit Mehta im Gerichtsdokument 1436 S. 149

Unschärfen im Indexing Report der Search Console

Slide 26:

Im Indexing Report bekommen wir zwei Gründe, die auf schlechte Qualität hinweisen:

Crawled – currently not indexed
Discovered – currently not indexed

Das Inspection Tool bzw. die Inspection API gibt uns aber noch einen dritten:

URL is unknown to Google

Früher™ sind wir davon ausgegangen, dass solche URLs noch nicht indexiert sind, also von Google noch nicht entsprechend verarbeitet wurden. Heute wissen wir:

Google kann in der Vergangenheit über URLs gestolpert sein, sie aber für irrelevant halten und wieder “vergessen” – sie also nicht in den Indexing-Datenbanken abspeichern
URLs können in der Vergangenheit sogar indexiert gewesen und später im dynamischen Wettbewerb wieder aus dem auffindbaren Index aussortiert worden sein

Etwa bei 130 und 190 Tagen (lasst uns nicht zu genau sein) ändert Google den Status im Indexing Report:

Indexing Insight Screenshot mit Balkendiagrammen, die unterschiedliche Indexing Status anzeigen und den Textboxen zur Crawling-Priorität: "If a page is not crawled in 130 days, it gets actively removed. If a page is not crawled in 190 days, it gets actively forgotten."

"If a page is not crawled in 130 days, it gets actively removed. If a page is not crawled in 190 days, it gets actively forgotten." Adam Gent, Slide 77

Die Größe des Google Index ist ein atmendes System

Vor der Indexierung kommt das Crawling. Google hat eine relativ fixe Zahl an URLs, die es crawlt. Im Patent US7509315B1 beschreibt Google die soften und harten “Importance Thresholds” – also Schwellwerte eines Relevanz-Scorings, die eine URL überschreiten muss, um in den Pool der zu crawlenden Seiten aufgenommen zu werden. Temporär können dann auch zusätzliche Dokumente in den Index wandern.

Übrigens: Bei Themenrelevanz (Topicality) spielt einerseits Information Gain eine Rolle: Kann ich dem Internet neue Erkenntnisse oder eine neue Perspektive liefern, statt nur zu wiederholen, was bereits im Index ist. Andererseits ist inhaltliche Nähe wichtig. Ich darf nicht zu weit vom Kernthema entfernt sein. Sonst sind die Vector Embeddings meiner Inhalte im mathematischen Raum (Topical Map) zu weit entfernt, als dass ich den Wettbewerb aufmischen könnte.

Neben der Qualität und der Anzahl spielt auch eine Rolle, wie groß die Dokumente sind. Denn auch der Speicherplatz bei Google bestimmt, wie viele Dokumente in den Index wandern:

"If we have tons of free space available, we're more likely to index crappier content. If we don't, we might deindex stuff to make space for higher quality docs." Google-Advokat Gary Illyes

Potenzielle Missverständnisse

Ich hab bei Adam nochmal nachgefragt: Indexing Insight inspiziert 500k (fünfhunderttausend) Seiten täglich, nicht 500,00 (Folie 4).
Adam spricht von “technical errors”, also technischen Fehlern, warum URLs nicht indexiert sind. Das finde ich unglücklich. Google nennt das nicht “Fehler”, sondern “Gründe” – aus Gründen: Wenn ich URLs weiterleite, ist der Status Code 301 korrekt. Wenn ich Seiten auf noindex setze, ist der Grund für die Nichtindexierung “noindex” korrekt. Wenn ich eine URL kanonisiere und Google das Canonical akzeptiert, ist das korrekt. Das als “Fehler” zu bezeichnen, sabotiert uns auch in der Kommunikation mit unseren Kunden. Ziel ist es hier nicht, das zu reparieren und “alles auf grün” zu stellen. Ganz häufig ist hier alles OK.
Ich darf nicht immer davon ausgehen, dass es sich im Indexing Report um das identische URL-Set handelt und sich nur der Indexierungsstatus oder die Gründe für die Nicht-Indexierung ändern. Aber wenn ich meine Sitemaps sinnvoll schneide und in der Search Console eintrage, kann ich mir tatsächlich die Entwicklung und Fluktuationen für ein konstantes URL-Set anschauen – also unbedingt machen!

Ein toller Beitrag für die SEO-Branche

In der Mischung, wie Adam offizielle Quellen mit eigener Forschung zu Erkenntnissen verdichtet, ist wirklich herausragend gut. So stell ich mir den Diskurs in der SEO-Gemeinschaft idealerweise vor. Mehr davon!

Jolle Lahr-Eigen

Consultant