🥇🥈🥉 Hast Du ein Prioritäten-Problem auf dem Index?

Johan von Hülsen

Geschäftsführender Gesellschafter

Wenn man ~~so alt aussieht wie ich~~ schon lange professionell SEO betreibt, dann wundert man sich manchmal, was für einen selbst selbstverständlich ist und für andere große Neuigkeiten.

Ammon Jones (~~der sieht noch älter aus als ich~~, gegen den bin ich ein Frischling in der Branche, hat daher einen kleinen Thread gemacht zu Priorisierungssystemen für Crawling und Indexierung.

Der Thread ist aus meiner Sicht recht vollständig und beschreibt, wie Googles System zur Priorisierung des Crawling-Backlogs und des Indexierungs-Backlogs funktioniert.

Was aus meiner Sicht noch deutlicher herausgestellt werden darf:

Es handelt sich nicht um ein Backlog, sondern um zwei voneinander unabhängige Priorisierungssysteme: Natürlich muss eine URL erst gecrawlt werden, damit sie indexiert werden kann. Aber das Indexierungsbacklog hat eine eigene Priorisierung:

Weil es ganz andere Wettbewerber gibt. Die ganzen Noindex-URLs spielen jetzt beispielsweise keine Rolle mehr.
Weil es mehr Signale gibt, die auswertbar sind. Eine Weiterleitung ist beispielsweise weniger Aufwand für die Indexierung, als ein PDF-Dokument mit 15MB, da sie „nur" als alternative URL in die Canonical-Gruppe mit eingetragen werden muss.
Ein 404 oder 410 Status Code lässt sich auch schneller prozessieren, als das Parsen einer vollständigen 200er URL. Wenn 404/410 Status Codes nicht ohnehin in ein unabhängiges (de-)-Indexierungsbacklog wandern.

Googles Kostenrechnung hat sich verändert

Außerdem schreibt Ammon zu Recht, dass sich um das Crawling reichlich gekümmert wurde in der Vergangenheit (nicht, dass viele Leute wirklich wüssten, wie das Crawling optimiert wird, aber immerhin). Was aber deutlicher sein könnte, ist, dass Googles Kosten sich geändert haben. Früher war das Crawling im Verhältnis ähnlich teuer wie die Indexierung. Heute ist der Indexierungsprozess deutlich teurer und der Wettbewerb um die Indexierungs-Pipeline viel größer als um Crawling Ressourcen. (Und das, obwohl durch JS-Crawl die Crawling-Kosten sich verzehnfacht haben dürften).

Wie sieht's mit Qualität aus?

Was ich außerdem noch ergänzen würde: Als wesentliche Priorisierungs-Faktoren nennt Ammon Links, Demand, Volume.

Was fehlt ist Qualität: Qualität der anderen URLs, die in der jüngeren Vergangenheit gecrawlt (und indexiert) worden sind. Und leider fehlt auch der Hinweis, dass diese Qualität nicht nur global für eine Domain, sondern auch für Seitenbereiche/ URL-Muster separat bestimmt werden kann.

Und wo ich das zusammenschreibe, habe ich noch einen weiteren Gedanken unter meiner ergrauten Kopfhautbedeckung: SPAM-Signale. Wenn Deine URLs aussehen, wie Paginierungs-URLs, dann wird es schwieriger sie crawlen zu lassen. Wenn Deine URLs auf einem SPAM-Host liegen, dann wird Google weniger crawlen.

Und wenn Deine URL-Muster aussehen wie SPAM-URLs, dann wird es schwieriger, Deine URLs mit hoher Priorität zu crawlen. Von Indexierung brauchen wir da gar nicht erst sprechen.

Trotzdem: Der Reminder, dass Google priorisieren muss und wie Google priorisieren könnte, ist enorm wichtig für Dein SEO 2024.

(Deshalb spreche ich auch auf der SMX 2024 über dieses Thema. Anmelden lohnt sich. Auch für den Tech-SEO-Workshop, wo wir uns ebenfalls mit solchen und vielen anderen Themen in der Tiefe beschäftigen werden.)

Johan von Hülsen

Geschäftsführender Gesellschafter