Leak mich am Arm, ist das ein geniales Google-Geschenk

Johan von Hülsen

Geschäftsführender Gesellschafter

Aaaaalso eigentlich redet gerade die ganze SEO-Welt vom GoLive der SGE in den USA (und dem Rest der Welt außerhalb der EU). Aber dann das: Mike King und Rand Fishkin veröffentlichen Posts zu einem Google-Leak.

Was ist passiert? Ein Google Code Repository hat die Dokumentation interner APIs veröffentlicht. Hier hat also niemand was rausgeschleppt, sondern Google hat selbst versehentlich die Dokumente veröffentlicht. Insgesamt handelt es sich um >2.000 Endpoints mit >14.000 Eigenschaften.

Was uns der Leak nicht verrät, ist, ob und wie diese Eigenschaften verwendet werden. Von den 14.000 müssen wir schon mal 1% abziehen, das schon in der Dokumentation als deprecated deklariert ist. Und auch nicht alles hat direkt mit dem Ranking zu tun.

Dennoch ist der Leak wahnsinnig spannend. Denn auch, wenn wir das Rezept nicht kennen: Wir haben eine lange Liste an Zutaten, die Google verwenden könnte.

Und natürlich lernen wir durch die Kommentare viel über den Aufbau der Maschine.

Angefangen mit Projektnamen:

Trawler ist der Crawler
Alexandria ist der Indexing Prozess
Superroot orchestriert die Zusammenstellung der Ergebnisse (okay, das wussten wir schon aus dem Leak von 2019)
Docjoins ist der Prozess in dem Google verschiedene URLs zu einem Dokument zusammenfasst und das Canonical bestimmt (das haben wir aus dem letzten Leak vermutet)
An 7 Stellen sind Twiddler konkret erwähnt, mit denen das initiale Ranking modifiziert wird

Ich beginne erst die Auseinandersetzung mit dem Leak. Aber erste Aha-Momente gab es schon:

An indexierten Dokumente stehen unglaublich viele Informationen und Scores im Zusammenhang mit Spam. Ein weiterer Beleg dafür, dass eine der wichtigsten Aufgaben für eine funktionierende Suche das Ausschließen der Spammer ist.
Es gibt sehr viele unterschiedliche Methoden und Ansätze, mit denen Google versucht, Sprache und Land eines Dokuments zu bestimmen.
Es gibt tatsächlich einen separaten Crawl-PageRank, der unabhängig vom PageRank funktioniert, der fürs Ranking verwendet wird. Insgesamt gibt es sehr viele PageRanks, die an Dokumente geschrieben werden.
Das Zerlegen der Domains in Seitenbereiche nimmt viel Raum ein. Für Google scheint es enorm wichtig, aus anderen URLs um ein Dokument herum Rückschlüsse auf die Qualität des einen Dokuments zu ziehen.
Freshness nimmt mehr Raum ein, als ich gedacht hätte.

In den letzten Tagen ist schon viel Unsinn in diesen Leak hineninterpretiert worden (Die Quellen verlinke ich hier aus gutem Grund nicht):

Der Leak sei ein Fake (ist er recht offensichtlich nicht).
Der Leak sei ein Fake, den Google veröffentlicht hat, um vom SGE-Disaster abzulenken (unsinniger Unsinn).
Aus dem Leak ginge hervor, dass man mehr Links brauche.
Aus dem Leak ginge hervor, dass Disavow richtig was bringe (Disavow kommt im ganzen Leak nicht vor).

Andere Dinge sind inhaltlich richtig, aber trotzdem unsinnig. Mike und Rand haben mit der Veröffentlichung leider eine ärgerliche Tonalität eingebracht: Google (und insbesondere das Search Relations Team) habe uns SEOs seit Jahren belogen (und Rand habe schon immer recht gehabt und sei dafür niedergemacht worden).

Dabei berufen sich die beiden vor allem auf darauf, dass User-Verhalten (Click-Daten) zum Ranking herangezogen werden. Das wiederum ist ja aber keine Neuigkeit mehr, denn das haben wir im Rahmen des FTC-Verfahrens gegen Google schon intensiv diskutiert.

Diese Diskussion ist aber leider ebenso unfair (John, Gary, Lizzy und Martin machen einen fantastischen Job immer wieder zu erklären, wie Google funktioniert. Wer erwartet hat, dass sie dabei nicht auch gelegentlich ein wenig Wortakrobatik betreiben müssen, um eine Antwort zu geben, ohne zu viel preiszugeben, was Menschen motiviert die falschen Abkürzungen zu nehmen, der muss unter einem wirklich beachtlichen Stein der Naivität geschlafen haben), wie brotlos und lenkt von den wirklich spannenden Erkenntnissen, die wir gewinnen können ab:

Wie ist der Index aufgebaut?
Es gibt keinen E-E-A-T-Score: Aber welche Informationen stehen Google zur Verfügung, um E-E-A-T zu ermitteln?
Welche Informationen werden zu Autoren gespeichert und wie könnte Google die verwenden?
Welche Informationen zieht Google aus Bildern und Videos?
...

Für mich ist es noch zu früh für Substanzielles. Gerade stelle ich mir noch mehr Fragen, als das ich Antworten habe. Sei Dir aber sicher, dass ich mich in den nächsten Wochen und Monaten gelegentlich mit Erkenntnissen aus dem Leak melden werde.

Falls Du einen komprimierten Überblick über den Leak möchtest: Mike Kings zweiter Artikel für Search Engine Land ist meine Empfehlung für einen Einstieg.

Falls Du an den ersten Eindrücken interessiert bist: Heute um 12 Uhr bin ich bei Marcus Tandler und Alexander Breitenbach in der täglichen Dosis SEO, um unsere Gespräche über „How Google Works" auf Basis des Leaks fortzusetzen. Folge 1 und 2 kannst Du natürlich nachschauen.

Ein Punkt ist mir aber vorab schon wichtig: Dieser Leak wird (und sollte) Dein SEO nicht verändern. Wahrscheinlich hast Du vorher schon auf die richtigen Maßnahmen gesetzt. Aber das tiefere Verständnis, wie Google funktioniert, wird Dir helfen, besser zu priorisieren und zu belegen, wieso bestimmte Maßnahmen funktionieren.

Johan von Hülsen

Geschäftsführender Gesellschafter