128 days later…

Johan von Hülsen

Geschäftsführender Gesellschafter

Ich bin jetzt noch mal alle Newsletterausgaben durch. Es ist unfassbar, aber wir haben über eines unserer spannendsten Findings noch nicht im tollsten Newsletter geschrieben:

Inhalte werden 128 Tage nach dem letzten Crawl de-indexiert

Wir haben intern und in Projekten, sogar auf Konferenzen, so oft darüber gesprochen, dass es völlig unrealistisch ist, dass wir das hier noch nicht hatten.

Nachdem Alexis Rylko aber dazu gepostet hat und unabhängig auf das gleiche Ergebnis gekommen ist und verschiedene Menschen in den Kommentaren auf LinkedIn schrieben, dass ich der (Er)finder sei, müssen wir etwas klarstellen:

Ich hab das gar nicht gefunden, sondern Behrend und Jolle. Ich hab es nur noch mal validiert und auf Konferenzen (mit Namensnennung der beiden) verbreitet. Zum Beispiel auf der SEOkomm und in der täglichen Dosis SEO, oder auf der SMX-Advanced.
Wir freuen uns total, dass andere jetzt auch darüber schreiben und reden. Denn wir sind weiter auf der Suche nach Gegenbeispielen.
Dass wir das nicht weiter verbreitet haben, hat wahrscheinlich auch Gründe. Denn je mehr man weiß, desto mehr Fragen stellt man sich.

Doch der Reihe nach

Behrend und Jolle haben Ende 2023 bei großflächiger Untersuchung von Hunderttausenden URLs via URL Inspection API festgestellt, dass sie keine einzige (!) URL finden, die noch indexiert ist, wenn das Crawling länger als 129 Tage her ist.

In der Analyse im Team haben wir festgestellt, dass:

wir das großflächig bei anderen Kunden reproduzieren können.
wir von 128 Tagen und nicht von 129 Tagen sprechen müssen. Der Tag Differenz erklärt sich durch die Zeitzonendifferenz zwischen der lokalen Zeit des Rechners / unseres Servers und den Google-Servern, die nach Pacific Time rechnen. Unser Server war Google also 9h Stunden voraus (immerhin).
wir keine Gegenbeispiele finden.

Daher haben wir das linke Chart auf der SMX 2024 präsentiert und um Gegenbeispiele gebeten.

![Bild eines Konferenz Slides. Überschrift: Lange nicht gecrawlt führt oft zu Deindexierung Wingmen Online Marketing Zu sehen ist ein Graph der die Anzahl der URLs in den Gruppen

Crawled - currently not indexed
Excluded by 'noindex' tag
Submitted and Indexed in abhängig zu den "Days Since Last Crawl" zeit. Die Grüne Linie für "Submitted and Indexed" nimmt fast Linear ab und endet bei ca 129 Tagen. Dieser Punkt ist markiert und mit folgender Beschreibung versehen: Bei 129 Tagen finden wir keine URLs mehr in der URL Inspection API. Gleichzeitig steigt "Crawled - currently not indexed" an.](https://lh7-qw.googleusercontent.com/docsz/AD_4nXfqYM-yPtFXCugp0aR0qxhVcVisg4whFeHvIlVjXmXZuDm5E5a5OFzpd0X8FAn2_GSLPa3mRIzEGvsj3jtsMO65lZDEno7uoUK2kn1ElhuXzCdvOIoM_MM8XUvNUJyEUMbONpGp?key=RglLlDRD1h-_X9alPBifhg)

Tatsächlich kamen Vanessa Wurster und ein anderer SEO auf mich zu und hatten Beispiele. Allerdings haben wir dabei jeweils ein anderes Dokument aus der Canonical-Gruppe gefunden, das innerhalb der letzten 128 Tage gecrawlt wurde.

Unsere Schlüsse aus dem Scheduler-Schleudertrauma

Wir wissen, dass Google Inhalte auch aussortiert, wenn sie nicht auf noindex stehen. Wir haben uns nur vorher nie intensiver Gedanken darüber gemacht, wie Google das systematisch umsetzen könnte.

Die Umsetzung über den Scheduler, der das Backlog des Crawlers/Trawlers steuert, ist aber sinnvoll. Denn der Scheduler ist der Teil der Google-Infrastruktur, der ohnehin bewertet, welche URL wertvoll zu sein scheint und welche nicht. Diesen Prozess doppelt zu pflegen, ist bei der Skalierung, auf der Google operiert, nicht wirtschaftlich.

Wir wissen: URLs, die nicht mehr indexiert sind, sondern nach zu langem Nicht-Crawlen de-indexiert werden, werden als „Crawled – currently not indexed“ in der Search Console (und der URL Inspection API) geführt. Bei “Crawled – currently not indexed” handelt sich also nicht (mehrheitlich) um URLs, die erstmalig gecrawlt und nocht nicht indexiert worden sind, sondern um URLs, die indexiert waren, aber nicht bestanden haben.

Wir wissen also, dass ein großer Anteil an “Crawled – currently not indexed” kein Beleg für ein zu geringes Indexing-Budget (und schon gar nicht für ein zu geringes Crawl-Budget) ist. Sondern ein Indiz für mangelnde Wertigkeit für Google. Die Wahrscheinlichkeit, dass URLs aus diesem Segment einen Mehrwert für den Index bieten, ist Google zu gering.

Wir wissen auch, dass die Grenze nicht an der URL hängt, sondern am indexierten Dokument. Auch das ist logisch. Denn Google indexiert keine URLs, sondern Dokumente.

Wir wissen auch, dass wir den Scheduler unabhängig von der internen PageRank-Verteilung beeinflussen können. Durch Sitemaps, aber auch durch Verlinkung von 404- und Noindex-Seiten beispielsweise.

Wir wissen aber auch: Inhalte künstlich im Index zu halten, die Google aussortiert, ist nicht ratsam.

Was machen wir also mit dem Wissen?

Wir können unsere Einstellung gegenüber nicht indexierten Inhalten ändern. Inhalte, die nicht mehr indexiert sind, sind ein Warnsignal von Google an uns, das wir ernst nehmen dürfen. Viel ernster, als eine hohe Anzahl an neu entdeckten URLs, die nicht gecrawlt werden.

Wir können mehr Wert auf eine Analyse des Indexierungsverhaltens und des Monitorings legen.

Früher habe ich gesagt: Inhalte in den Index zu bekommen ist einfach. Vertipper? Einfach Google entgegenwerfen.
Dann habe ich gesagt: Inhalte in den Index zu bekommen ist schwer geworden. Google hat die Anforderungen deutlich angezogen.
Jetzt wissen wir: Inhalte in den Index zu bekommen ist nicht so schwer, wie sie im Index zu halten – wenn der Wert der Inhalte nicht stimmt.

Indexmanagement ist proaktives Gestalten und Kuratieren. Sei also selbst Dein härtester Türsteher.

Johan von Hülsen

Geschäftsführender Gesellschafter