Der Collapsor braucht ne softe Cola-Bier-Mische mit 4,04%

Johan von Hülsen

Geschäftsführender Gesellschafter

Die letzten Jahre habe ich mich intensiv mit Indexierung auseinandergesetzt. Ich finde das faszinierend: Wie speichere ich einmal Internet so, dass es in Bruchteilen von Sekunden durchsuchbar ist.

Die Mengen und Dimensionen, in denen hier gearbeitet werden muss, sind einfach Mindblowing. Kein Wunder, dass das Indexing-System bei Google nach der Bibliothek von Alexandria benannt wurde.

Aber darum soll es gar nicht gehen.

Im Indexierungsprozess werden Dokumente nicht berücksichtigt, die nicht indexierungswürdig sind. 404-Seiten oder Dokumente, die als Noindex gekennzeichnet sind beispielsweise. Es gibt aber viele Seiten, die liefern ein sinnloses Ergebnis, das eigentlich nicht verfügbar sein sollte, als indexierbare Seite mit dem Status Code 200 aus. Ein Beispiel wären leere Suchergebnisseiten.

Das sieht dann etwa so aus:

Screenshot der Developer-Console für die URL https://it-jobs.aldi-sued.de/suche/keine-ergebnisse-gefunden zeigt, dass die URL den Status Code 200 hat.

Relativ leerer Screenshot der Seite. Zentral sichtbar: „Leider keine Inhalte gefunden". Oben allerdings wirbt ein orangenes Banner dafür im Live-Stream die potenziellen Kolleg:innen kennenzulernen.

Während eines Routine-Rundgangs durch die Search Console kann man jetzt gut sehen, wie ein Teil der Heuristik zur Erkennung und Aussortierung solcher Seiten aussieht. Denn logischerweise möchte Google solche Seiten eigentlich nicht indexieren. Sie lassen Google schlecht dastehen, denn ein Klick aus den Google-Suchergebnissen auf ein Ergebnis sollte mich immer näher an das Ziel führen.

Im Screenshot aus der GSC ist gut zu erkennen, dass Google die Fehler vor allem auch an URL und Überschrift fest macht. Bei den Seiten handelt es sich um Nachrichten-Artikel:

Keine bessere[sic!] Ergebnisse an der Gesamtschule
Keine Heuschrecken-Gefahr
Nach der Pause nicht mehr ins Spiel gefunden
Variante die keine Mehrheit gefunden hat

Gut zu sehen, wie der Collapsor (so heißt der Prozess / das System bei Google, das die Analyse auf Soft-404 vornimmt) arbeitet. Gary hat das System vor ein paar Jahren im Search Off the Record-Podcast vorgestellt.

Vor allem auf die Worte „Keine" und „Nicht" reagiert das System sehr deutlich. Wenn Du also sichergehen willst, dass Google Deine Inhalte indexiert und nicht als Soft-404 behandelt. Dann solltest Du gelegentlich schauen, dass Du Verneinungen in den Headlines vermeidest. Meistens funktioniert die Indexierung trotzdem. Aber hier ist Machine Learning am Werk und das kann dann auch mal schief gehen.

Screenshot aus dem Soft-404-Bericht der Google Search Console. Hier zu sehen die in der obigen Liste beschriebenen URLs

Johan von Hülsen

Geschäftsführender Gesellschafter

Du hast Fragen zum Artikel, zum Thema oder brauchst einen Tipp für Deine nächsten Schritte? Hier kannst Du Dir einen unverbindlichen Termin in meinem Kalender buchen. Ich freue mich auf Dich!
15-Minuten-Termin mit Johan reservieren