Wie Google News bestimmt, um welches Thema es geht

Johan von Hülsen

Geschäftsführender Gesellschafter

Vor dem großen Google-Leak von 2024 gab es einen kleineren Leak, in dem Zach Vorhies ein paar Dokumente bei Google gestohlen hat. In diesem Leak hätten wir als Branche lernen können, was Twiddler sind. Aber irgendwie haben wir es verpasst, diesen Dokumenten Aufmerksamkeit zu schenken.

In diesen Dokumenten gab es eine Sektion, in der es darum ging, wie das organische Ranking schneller auf reale Ereignisse reagieren könnte und wie dazu Google News-Index und organischer Index zusammenwirken könnten.

Das Projekt nennt sich Realtime Boost (ich hab das zentrale Dokument verlinkt, aber es gibt dazu auch noch Präsentationen). In diesen Dokumenten können News-interessierte SEOs nicht nur lernen, wie Google Nachrichtencluster und Hierarchien von Nachrichtenclustern baut, sondern auch ein bisschen etwas über den Aufbau des Google News Index erfahren und lernen, wie Google News erkennt, zu welchem Thema eine Nachricht gehört, beziehungsweise was Google über einen News-Artikel für Informationen extrahiert:

Die Grafik zeigt einen System-Überblick für Realtime Boost. Auf der linken Seite wird die Serving-Schicht dargestellt, die zeigt, wie verschiedene Systeme die Daten der Spike-Analyse aus dem RealtimeBoost-System konsumieren.
Die Linke Seite zeigt die Indexing-Schicht mit einem separaten RTBoost Indexer, der verschiedene Daten zu News-Artikeln zusammenstellen soll.

In der Grafik sehen wir als Daten für News-Artikel schon:

Time
Unigram
Location
Entity
Salient Terms
…

Diese Daten werden normalisiert in den Index geschrieben.

Extrem spannend fand ich aber diesen Abschnitt damals:

Unigrams (RTW) For each document, we use its title, anchor texts and the first 400 chars from its centerpiece text. These are split into unigrams and added to the hivemind index. The centerpiece usually correctly contains the main content of the article excluding the boilerplate.

Um die wichtigen Begriffe eines Artikels zu extrahieren zieht Google News (beziehungsweise dieses kombinierte Signal für News und organischen Index) die Informationen aus:

Title (logisch)
Anchor Texts (Linktexte im Artikel stärken also nicht nur die verlinkte Seite für den Begriff, sondern auch die verlinkende Seite.)
Die ersten 400 Zeichen des Hauptinhalts (400 Zeichen ist ein arbiträrer Cut, aber wir News-SEOs dürfen bewusster mit dem Artikelanfang umgehen.)

Später im Dokument werden ergänzt:

KG Entities (Knowledge Graph Entities (/mid) mit high topicality and high confidence. Der Name der Entität wird auch zusätzlich als Unigram ergänzt.)
S2 Cells (S2 Cells ist ein Format, um flexibel ineinander verschachtelte Locations unterschiedlicher Größe anzugeben.)
Freshbox Article Score (Handelt es sich um einen qualitativ hochwertigen Artikel?)
NSR (Qualitätsscore)
Countrycode, Language, Domain.

Aus der Präsentation können wir entnehmen, dass Salient Terms (zentrale Worte), NGrams (Mehrwortkombinationen) ebenfalls abgespeichert werden und Chrome Visits und Navboost zusätzlich genutzt werden sollen, um aktuelle Artikel zu erkennen.

Diagramme und Text zu Echtzeit-Boost-Signal, Quellen und Abfragebeispiel

Weitere spannende Infos auf dem Leak:

Ein News-Cluster wird gebildet, wenn:

In order for a query to be spiking, it needs to match at least 10 news documents published on 5 or more different domains (news outlets). The docs have to match the whole query (syns are allowed).

2018 waren Linktexte und Navboost erst nach einer halben Stunde in den Indexierungssystemen verfügbar:.

In Search, ranking is traditionally based on signals that takes time to accumulate. For example, doc-anchors and navboost clicks takes time to happen and the millwheel joiner also takes time to aggregate it in docjoins. With recent improvements from the Freshness team, instant navboost clicks are available in komodo in 10 minutes and in DocJoins in 30m. Our goal is to improve even further that latency and help in cases where the new document didn’t have impressions and clicks yet.

Auch wenn es einen Absatz später um News/Freshness geht, ist die Wahrscheinlichkeit, dass sich auch nur die Top-1000 aus dem Ascorer Ranking fürs Re-Ranking qualifizieren, finde ich recht hoch.

Freshness team in Zurich currently tackles this problem by calculating the number of high-quality news documents that comes up from Muppet in Superroot. They have their own classifier to classify documents as news / high quality. The problem with this approach is that Superroot has access to only so many documents (mostly only the top-1000 docs). If the event is really recent, the new documents most likely won't gather enough signals to be ranked in the top-1000 and for some period of time this approach can miss the opportunity to detect the breaking news.

Natürlich müssen wir das mit Vorsicht genießen:

Es handelt sich um Konzept-Dokumente.
Uns fehlen relevante Meta-Informationen und Hintergründe.
Seit die Diskussionen 2018 geführt wurden, hat sich einiges weiterentwickelt.

Trotzdem dürfen wir daraus lernen.

Johan von Hülsen

Geschäftsführender Gesellschafter