Was heißt hier indexiert?

Behrend von Hülsen

Consultant

Beim Konferenz-Smalltalk, wenn ein abstrakter SEO-Sachverhalt heiß diskutiert wird, heißt es am Ende oft:

Frag 2 SEOs, bekomm 3 Meinungen.

Meistens erklärt die unterschiedliche Gewichtung einzelner Aspekte, wie es zu verschiedenen Meinungen kommen kann, ein klarer Fall von "it depends".

Aber auch wenn Du konkrete Fragen stellst, bei denen die Antwort vermeintlich ein eindeutiges "Ja" oder "Nein" ist, können geübte SEO-Experten problemlos mehrere Meinungen pro Faktenlage generieren.

Hier praktische und hoffentlich lehrreiche Beispiele:

Du fragst 2 SEO-Experten Deinen Vertrauens (nennen wir sie mal Johan und Behrend, Disclaimer: Ähnlichkeiten mit real existierenden Wingmenschen sind rein zufällig):

Wie viele URLs habe ich im Index?

Die Frage klingt erstmal so, als gäbe es dafür eine korrekte Antwort, oder?

Beispiel-Behrend antwortet: Du hast 6 indexiert
Beispiel-Johan antwortet: ne das sind 9 im index

Das sieht dann ungefähr so aus wie dieses Meme (kennt jemand die Originalquelle dazu?):

Wer hat jetzt recht? Beide natürlich. Beispiel-Johan und Beispiel-Behrend legen hier den Indexierungsbegriff unterschiedlich aus.

(Das wissen sie auch beide, aber beide widersprechen gerne, insbesondere für fiktive Newsletterbeispieldiskussionen).

Würdest Du jetzt noch ein wenig nachbohren oder gar einen Dritten Fragen, bekämst Du sicherlich auch noch ne Dritte und vierte Zahl genannt, die, technisch gesehen, auch korrekt sind.

Unterschiedliche Indexierungsdefinitionen?

Behrend, als alter GSC Fan, folgt für dieses Beispiel dem Indexierungsbegriff, den die GSC angibt.

Nach dieser Definition ist nur die kanonische URL indexiert:

Weiterleitungen, HREFLANG-, oder AMP/Mobile-Versionen oder Ähnliches sind nicht indexiert.

Wenn Du so eine Beispiel-URL in der URL Inspection testest, sagt Google, sie ist nicht indexiert, sondern eine andere URL ist das Canonical.

Johan nutzt für seine Antwort als Indexierungsdefinition, ob Google diese in der SERP ausspielen könnte. Denn auch wenn die URL laut GSC nicht die kanonische URL ist, könnte sie ausgespielt werden.

Was ist denn nun wirklich indexiert?

Google hat keine Lust auf Duplicate Content.

Damit der Index möglichst wenig unnötig doppelte Inhalte enthält, indexiert Google genau genommen keine einzelnen URLs, sondern Dokumente.

Und diese Dokumente können dann jeweils eine unendliche Anzahl an URLs haben, auf denen sie zu finden sind. Canonicalization heißt das Zauberwort. Daher werden URLs zu einem Dokument auch häufig als "Canonical Gruppe" bezeichnet, Google spricht meist von "Duplicate URLs" und "Alternate URLs".

Es sind übrigens ca 400 Milliarden Dokumente in Googles Index. Und die meisten davon werden mehrere URLs haben. Die URLs zu einem Dokument können beispielsweise Weiterleitungs-URLs sein, Sortier- oder Trackingvarianten.

Die URLs eines Dokuments müssen dazu auch nicht unbedingt alle auf einer Domain liegen oder auch nur eine ähnliche URL sein (Stichwort Syndizierung von News-Artikeln).

Der Inhalt der URLs kann auch optisch recht unterschiedlich sein, solange sie den gleichen Inhalt haben, kann Google entscheiden URLs als das gleiche Dokument zu sehen. Soweit wir wissen, wird dafür der Simhash eingesetzt.

Aus den URLs zu jedem Dokument wählt Google eine URL als "Canonical" aus, die dann auch in der GSC als indexiert auftaucht. Das ist häufig, aber nicht immer die, die im rel="canonical" angegeben ist. Google spricht von einem Machine Learning aus 20 (gewichteten) Faktoren, die Canonical-URL bestimmen.

Die anderen URLs zu einem Dokument, die Google kennt, werden nicht vergessen. Alle gemeinsam sind relevant für die Indexierung des Dokuments. Sonst könnte eine Weiterleitung beispielsweise auch keine Linkpower vererben. Daher stehen sie ebenfalls als Alias im Index und tauchen in verschiedenen Pages-Berichten der GSC auf (Page with redirect, Alternate page with proper canonical tag, Duplicate without user-selected canonical und der "All time Favorite" Duplicate, Google chose different canonical than user). Wenn eine Canonical-Gruppe über Domain- und Property Grenzen hinweg besteht, hat die GSC übrigens einige Unwägbarkeiten und die in der GSC kommunizierte Indexierung ist nicht immer eindeutig.

Sicher gehen, dass Dir bei abweichender Domain das abweichende Canonical angezeigt wird, kannst Du eigentlich nur bei Domains, die für denselben User in der GSC freigeschaltet sind.

Gelegentlich wird Dir aber auch das abweichende Canonical für fremde Domains angezeigt. Insbesondere bei PDF-Dateien sieht man das vergleichsweise oft.

Aber dazu könnte man einen eigenen Newsletterartikel schreiben.

Zumal die Informationen des Pages-Berichts immer ein paar Tage hinterher hinken, während URL Inspection die Live-Information angibt.

Lass Dich davon nicht verwirren.

Und nur weil die URL nicht das Canonical ist, heißt es nicht, dass sie nicht auch in der SERP auftaucht. Google zeigt sogar recht häufig andere URLs als das Canonical an.

Beispielsweise:

wenn ein Alias als mobile geführt wird und die Suchanfrage von mobile kommt.
Oder HREFLANG.
Oder weil die Canonical URL nicht verfügbar ist.
Oder weil gerade Wochenende ist.
Oder die Weiterleitung noch frisch ist und Google ihr noch nicht traut.
Vielleicht auch, weil irgendwo, irgendwann ein kleiner Schmetterling mit dem Flügel schlug...

Machine Learning at it's best also.

Das Problem ist besonders bei HREFLANG, dass es halt so aussieht, als hätte die URL keinen Traffic. Dabei wird der komplette Traffic nur auf die Canonical URL getracked.

Die real dem User angezeigte URL kannst Du nicht in der GSC sehen.

Einige der ca. 20 Faktoren, die dem Machine Learning zur Verfügung stehen und in die Canonical Auswahl gehen:

Canonical (Canonical Ziel wird bevorzugt)
Status Code (200er werden bevorzugt)
HTTP vs. HTTPS (https wird bevorzugt)
Länge der URL (kurze URL wird bevorzugt)
Eingehende Links (intern und extern) (mehr und besser wird bevorzugt)
Referenzierung in Sitemaps (mehr wird bevorzugt)
Datum des letzten Crawls (aktueller wird bevorzugt)

Und all das führt dazu, dass unsere (natürlich nur in der Fiktion diskussions- und widerspruchsfreudigen) Beispiel-Wingmenschen stundenlang über 6 und 9 als korrekte Zahl streiten können.

Behrend von Hülsen

Consultant