Vor ein paar Wochen hatte ich bereits über den Status "Crawled - currently not indexed" im Coverage Report der Google Search Console geschrieben.
Eine super Ergänzung dazu ist dieser Artikel – ebenfalls von Tomek Rudzki von Onely – zu sämtlichen mal mehr mal weniger hilfreichen Status, die der Index Coverage Report so ausspuckt. Mir hat er tatsächlich dabei sehr geholfen, die Meldungen noch einmal strukturiert zu verstehen.
Dass die Google-Doku leider nicht immer aufschlussreich ist (vor allem, wenn man eine übersetzte Variante wie die deutsche nutzt) wissen wir ja. Tomek beleuchtet daher auch, was mögliche Auslöser und Lösungen sind. Teilweise gibt es ein Issue, das in verschiedenen Kategorien aufschlagen kann.
Grundsätzlich lassen sich die Status in folgende Gruppen clustern:
-
"Submitted" URLs, also die URLs, die via XML-Sitemap von Dir mehr oder weniger bewusst und beabsichtigt an Google übermittelt wurden
-
Crawled oder Discovered – currently not indexed, also alle URLs, die Google zwar irgendwie kennt, aber aus Gründen nicht frisst
-
Duplicate Content umfasst unterschiedlich behandelte Fälle nicht uniquer Inhalte
-
Bitte nicht indexieren, also URLs, die wir mit harten (noindex) oder soften (canonical) Verweisen versehen, um Google davon abzuhalten, sie in den Index zu packen
-
Kann nicht gecrawlt werden, also alles, was aufgrund der robots.txt oder von 200 abweichenden Status Codes nicht crawlbar ist
-
Soft 404, also URLs, deren Inhalte auf Google so wirken, als ob diese Seite wohl eher einen Status Code 404 haben sollte
Unerwähnt bleiben die URLs, die indexiert sind, aber nicht über die XML-Sitemap übermittelt werden. Die solltest Du aber auch im Auge haben. Daher habe ich sie auch in die kleine Übersicht, die ich inspiriert von Tomeks Artikel gebastelt habe, aufgenommen.
Eigentlich reicht das schon für den Überblick. Wenn Du tiefer ins Detail einsteigen magst, dann lies einfach weiter. Und wenn das noch nicht tief genug ging, dann wirf am besten noch einen Blick in den Artikel von Tomek, der oben verlinkt ist!
"Submitted" URLs
Einen Aspekt, den Tomek herausstellt, sind jene Sub-Reports, die "Submitted" URLs beinhalten. Also solche URLs, die in einer XML-Sitemap gelistet werden. Das sind die URLs, die wir – im Idealfall beabsichtigt und aus guten Gründen – an Google und andere Suchmaschinen übermitteln wollen, weil sie uns wichtig sind.
If your page reports a status with the word "Submitted", you have two options: resolve the issue or remove the URL from your sitemap.
Denn je nachdem, wie groß Deine Seite ist, musst Du möglicherweise mit dem Crawl Budget haushalten. Und es wäre schade, Google mittels XML-Sitemap auf URLs zu schicken, die da vielleicht mangels Relevanz doch nicht reingehören.
Crawled oder Discovered – currently not indexed
Was genau hinter dem Status "Crawled – currently not indexed" steckt, hatten wir ja bereits Anfang März thematisiert.
Ähnlich dazu gibt es den Status "Discovered – currently not indexed". Der Effekt ist derselbe: Die betroffenen URLs sind nicht indexiert. Die Auslöser unterscheiden sich jedoch. Während bei den "Crawled" URLs Google schon mal vorbeigeschaut hat, ist dies bei den "Discovered" URLs nicht der Fall.
Wenn Google sich also die Seite angeschaut hat, sich aber dazu entscheidet, sie nicht zu indexieren, kann das mit der Qualität der Inhalte oder Seitenstruktur zusammenhängen. Details hatte Tomek ja bereits in seinem Guide beschrieben.
Wenn Google sich die Seite allerdings noch nicht angeschaut hat, hat das andere Gründe. Zum Beispiel das Crawl Budget oder eine unzureichende interne Verlinkung.
Duplicate Content
Auch für diesen Fall gibt es 2 Status:
-
Duplicate without user-selected canonical
-
Duplicate, Google chose different canonical than user
Hier packt die URL es jeweils nicht in den Index, da es noch weitere Varianten gibt. Einmal ohne dass es Canonicals gibt, einmal obwohl die Seite als Original referenziert wurde.
Das Canonical ist ja im Grunde nur ein Hinweis, für Google aber nicht verbindlich. Wenn sich die Suchmaschine also für eine andere Variante entscheidet, dann liegt das oft an mehrdeutigen Signalen – Canonical sagt so, interne Verlinkung und XML-Sitemap sagen so.
Umso spannender, wenn es vermeintliche Duplikate ohne Canonical gibt. Da hat man dann wohl grob was übersehen oder vergessen.
So oder so: Im Best Case kommst Du gar nicht erst in Verlegenheit, da Deine Struktur so sauber und konsistent ist, dass es gar nicht erst zu Duplicate Content kommt.
Bitte nicht indexieren
Die Status "Excluded by 'noindex' tag" und "Alternate page with proper canonical tag" beziehen sich auf alles, was intentional nicht indexiert wird. Daher gibt es hier auch nicht viel zu tun, außer sicherzustellen, dass hier wirklich nur URLs dabei sind, die dabei sein sollen.
Im Idealfall sollte hier keine enorme Masse anfallen, da der überwiegende Teil der URLs ja für Google und den Index relevant sein sollten. Denn je weniger sinnlose bzw. nicht indexierbare URLs Google crawlen muss, umso mehr Zeit und Aufmerksamkeit kann auf relevante Inhalte entfallen.
Kann nicht gecrawlt werden
Es gibt viele Gründe, weswegen Google eine URL nicht crawlen kann. Zum einen kann es simpel an der robots.txt liegen, die den Zugriff verwehrt. Oder daran, dass die betroffene URL einen anderen Status Code als 200 hat, sei es durch Weiterleitungen, 401, 403, 404 oder andere 4xx-Fehler oder einen 5xx-Server-Error.
Diese ganzen Probleme werden sowohl für URLs allgemein gelistet, als auch für solche, die über die XML-Sitemap eingereicht werden.
Dass es Weiterleitungen gibt, wirst Du nicht verhindern können. Google folgt ihnen im Normalfall auch und wird die Zielseite indexieren. Du musst nur sicherstellen, dass Du diese URLs möglichst aus Deiner internen Verlinkung und Deinen XML-Sitemaps rauswirfst.
Soft 404
Um Inhalte aufzuspüren, die vielleicht eigentlich eher einen Status Code 404 verdient hätten, hat Google seinen Soft 404 Detektor im Einsatz. Der ist aber nicht unfehlbar und mäkelt gerne auch mal Dinge an, die eigentlich komplett in Ordnung sind. Ein Klassiker: Der Blogpost mit den 397 lustigsten 404-Seiten ever, der dann aufgrund des Wordings so wirkt, als ob es sich um eine 404-Seite handelt. Schon eher ein passendes Problem: Weiterleitungen auf Zielseiten, die eigentlich nicht relevant sind oder Seiten, die mit dem Rendering Probleme haben.