Zum Hauptinhalt springen

Eine neue Folge von Search Off The Record (Trankskript) ist live und sie verdient Deine Aufmerksamkeit! Allan Scott aus Googles Dupes Team ist zugast bei Martin und John. Die Drei beugen sich intensiv über Indexierungs- und Retrieval-Werkzeuge wie Canonicalization, Deduping, Document Clustering oder HREFLANG.

Wir lernen (erneut), dass “Mixed Signals” wirklich ein Problem sind, Soft 404s intern “Crypto 404s” heißen und Fehlerseiten ganze Domains in “marauding black holes” ziehen können, wo sie vom Crawler geghostet werden. 👻 Eine großartige SOTR-Folge, die Dein Verständnis von Suchmaschinen – oder den Problemen, die sie zu lösen haben – schärfen wird.

Von Dupes, Document Clusters und Canonicals

Einmal Punkt für Punkt zum Mitdenken:

  • In Googles Index stehen nicht einzelne URLs, sondern Dokumente.
  • Verschiedene URLs werden zu einem Document Cluster zusammengefasst.
  • Die URLs heißen in diesem Kontext “Dupes” (= Duplicates).
  • Dupes innerhalb eines Document Clusters teilen sich Signale (zum Beispiel Backlinks).
  • Randnotiz: Das kann schon mal dazu führen, dass fremde Domains, die Deinen Content hijacken, von Deinem Backlinkprofil profitieren. Autsch.
  • Innerhalb des Clusters bemüht sich Google, die beste, originäre URL als Canonical zu identifizieren.
  • Es gibt dutzende (Schätzwert: 40) Signale, die helfen sollen, das korrekte Canonical zu finden.
  • Der Canonical-Link ist eins davon.
  • Die Relevanz von x-default wird hier mehrfach betont. Was Du im HREFLANG-Kontext als übergreifende URL angibst für User, die Du nicht mit konkreten Sprach-Land-Anweisungen versorgst, ist also auch ein wichtiges Signal dafür, welches Canonical sich Google greift.
  • Viele der Signale werden in Googles Dokumentation “How to specify a canonical URL with rel="canonical" and other methods” explizit genannt. x-default fehlt hier (noch). Der URL-Slug der Doku ist spannenderweise: “consolidate-duplicate-urls”.
  • Website-Betreibende können sich selbst einen riesigen Gefallen tun und dafür sorgen, dass sämtliche Signale eindeutig sind, damit Google das korrekte Canonical wählt.
  • Also bitte nicht die http-Version statt https in den Canonical-Link schreiben. Und natürlich nur URLs mit Status Code 200 und keine wilde Redirect-Rutsche.
  • Wenn Google Dein Canonical nicht übernimmt, hat es die URL vermutlich nicht mal in dasselbe Document Cluster geschafft.

Von Localization und HREFLANG

Die Frage, welche URL an welchem Ort der Erde bzw. für welchen User mit welcher Sprache ausgespielt werden soll, behandelt Google unter dem Begriff “Localization”. SEOs denken hier direkt an HREFLANG. Auch dazu hat Google in diesem Jahr eine gute Podcast-Folge veröffentlicht, in der ebenfalls das Konzept der “Dupes” angerissen wird.

“Boilerplate Translations" vs.”Full Translations”

Seiten wie Social-Media-Feeds, die vielleicht eine Übersetzung von Header und Footer haben, dann im Main Content aber die identischen Inhalte einbetten, können getrost in ein Cluster wandern.

The boilerplate translations, we want to put into the same cluster. That means that they'll consolidate signals, but it also means that we don't have to crawl every single localization variant[,] because [...] we're wasting your bandwidth, and we're wasting our space by doing that.”

Allan Scott vom Google Dupes Team

Dagegen werden tatsächliche, komplette Übersetzungen in verschiedene Cluster gepackt. Das ist auch der Grund dafür, warum Du zwischen unterschiedlichen Sprachen gar kein HREFLANG brauchst. Ein deutsches Dokument rankt in der Regel für deutsche Suchanfragen und ein englisches für englische.

”[T]he full translation pages should not cluster because they have different tokens they're going to retrieve for different queries, so we don't want them in the same cluster. We want to have all those pages available for retrieval.”

Allan Scott vom Google Dupes Team

Wenn bei den Boilerplate-Übersetzungen HREFLANG korrekt verwendet wird, ist Google laut Allan dennoch in der Lage, die passende URL aus dem zusammengeworfenen Cluster im passenden Land anzuzeigen. Es könnte also sein, dass Google nur einmal prüft, ob es sich um Dupes handelt und der HREFLANG-Block passt. Anschließend werden die Seiten dann entweder gar nicht mehr gecrawlt oder vielleicht nur der HTTP-Header geprüft, nicht aber der komplette Inhalt.

Ein Mechanismus des Vertrauens?

Allan deutet an, dass sich Website-Betreibende künftig durch zutreffende Signale Vertrauen erarbeiten könnten, so dass Google mit weniger Kontroll-Crawls die Signale einer Domain für bare Münze nimmt.

”We want to serve more hreflang variants. We want to utilize that more, but we need to put in place mechanisms that will determine basically how much we can trust it on a given site. We're doing some crawl and verification, basically, to determine, you know, is this site serving its map correctly, and if so, then we're going to try to serve that more often without necessarily having to verify it as much as we currently do.”

Allan Scott vom Google Dupes Team, eigene Hervorhebung

Near Duplicates: Same, same, but different

Anstrengend, aber es geht noch weiter 😬.

Manchmal ist es notwendig, dass minimale inhaltliche Unterschiede zweier sonst identischer Seiten dazu führen, dass sie nicht in ein Document Cluster gepackt werden. Zum Beispiel, wenn auf einer Produktseite für die Schweiz der Preis in Schweizer Franken steht, während für Deutschland als Währung der Euro geführt wird.

“Those ones become more complicated because it's basically the same content, but for one token. But that one token really matters. And then that one token case, we still want to have them in different clusters.”

Allan Scott vom Google Dupes Team, eigene Hervorhebung

Denn zur Erinnerung: Dupes eines Clusters werden nicht separat gecrawlt. Um Content für “Franken” bzw. “Euro” während des Retrieval-Prozesses in die passenden Posting Lists zu schreiben, muss Google den jeweiligen Content aber kennen.

Die Krux? Wir wollen also, dass Google diese Seiten in verschiedene Cluster packt und trotzdem als “gleiche” Variante in einem HREFLANG-Block respektiert.

HREFLange Nase

Umgekehrt sind Website-Betreibende oft irritiert, wenn ihr österreichischer Content in Deutschland rankt, obwohl der HREFLANG-Block korrekt gesetzt ist. Das passiert gerne, wenn unterschiedliche Teams die Inhalte ausdifferenzieren. Zum Beispiel wenn eine Shop-Kategorie in Deutschland die blanke Produktliste abbildet, während das AT-Team darüber hinaus nützliche Produkttipps in den Content integriert, für die sich auch Menschen in Deutschland interessieren.

Unterschiedliche Inhalte → unterschiedliche Document Cluster → unterschiedliche Tokens für unterschiedliche Posting Lists → unterschiedliche Rankings

Wenn Du diese Mehrfachrankings willst, kannst Du Dir HREFLANG sparen. Ansonsten musst Du den Content vereinheitlichen.

Die Sache mit den schwarzen Löchern 🕳️

Fehlerseiten mit Inhalten wie “Dieses Produkt gibt es aktuell nicht”, werden zusammengeclustert. Google denkt sich: “Das ist alles derselbe Käse, warum sollte ich mich damit weiter beschäftigen?” Ein Indikator dafür ist, wenn Google laut Search Console ein abweichendes Canonical gewählt hat, das zu einer inhaltlich völlig anderen Seite gehört.

Das ist OK, wenn zum Beispiel ein Produkt ausverkauft ist und es das nie wieder geben wird. Blöd ist es, wenn das Produkt zurückkehrt. Denn die Seiten im Fehlercluster werden (fast) nie wieder gecrawlt. Google bemerkt also nicht, dass sich der Inhalt auf der Seite wieder geändert hat und es das Produkt wieder zu kaufen gibt.

Wir können natürlich mit Verlinkung, Sitemaps und Pings in der Search Console oder der Indexing API versuchen, Google zum Crawling zu überreden. Aber das funktioniert nicht stabil.

Abhilfe schafft ein passender Status Code für Fehlerseiten, der nicht 200 ist.

”Only 200s go into black holes.”

Allan Scott vom Google Dupes Team

Du siehst: In der Podcast-Folge steckt jede Menge Wissen, über das wir als SEOs gerne mehrfach und intensiv nachdenken können. Denn all der ungelenke Tech-Sprech hat massive Konsequenzen für Deine Content-Strategie.

Welcher Aspekt bringt Dich ins Grübeln? Hast Du Fragen? Meld Dich gerne bei uns oder bei mir auf Linkedin und wir diskutieren darüber.

Das ist ein Artikel aus unserem Newsletter. Wenn Du jeden Dienstag Morgen schlauer werden möchtest, melde jetzt kostenfrei für den SEO-Newsletter an

Kurze, praxisnahe SEO-Tipps – maximal 1× pro Woche. Keine Werbung, kein Spam.

Deine Daten sind bei uns in guten Händen und werden ausschließlich für diesen Newsletter genutzt.