Barry Adams hat im aktuellen News-SEO-Newsletter darüber berichtet, wie Publisher das Crawling optimieren können, hier eine kleine Zusammenfassung und Wiederholung für Dich:
Wie entscheidet Google, was gecrawlt wird? Hierbei spielt die Relevanz der Seite eine große Rolle. Diese ergibt sich daraus, wie viele Links auf die URL zeigen, wie oft die URL aktualisiert wird und neue Links dazu kommen.
-
Wichtige URLs, zB. Evergreens, also regelmäßig aktualisieren und gut verlinken.
-
Aber auch Hub- und Themenseiten fallen hierunter - nutze diese um das Crawling zu optimieren.
Ein weiteres wichtiges Thema (vor allem für News) ist, dass die Artikel nicht regelmäßig gerecrawled werden. Barry betont, dass SEO bereits beim ersten Publishen mitgedacht sein muss, denn ein eventuelles Recrawling findet erst Stunden oder sogar Tage später statt.
"This is why it's so incredibly important to make SEO part of your editorial workflow and ensure articles are optimised before they are published."
"Any improvements made to an article after its publication is unlikely to have any impact on the article's visibility. Unless, of course, you change the URL - because then Googlebot will treat it as an entirely new article."
Die wichtigste Ableitung also: Nimm SEO in den Publishing-Prozess mit auf.
Barry erwähnt auch noch einmal, dass die Robots.txt genutzt werden kann, um bestimmte Seitenbereiche vom Crawling auszuschließen. Hierbei betont er auch, dass seit 2011 nicht mehr mit dem Googlebot News gecrawlt wird, sondern mit dem Smartphone Bot. Wenn Du also in deiner robots.txt Angaben zum User-agent: Googlebot-News machst, wirkt sich das nicht auf das Crawling, sondern auf die Möglichkeit in Google News zu ranken.
Wie Du mit Large Language Models und deren Crawling umgehen kannst
Möchtest du künstliche Intelligenzen davon abhalten, mit den Daten Deiner Seite trainiert zu werden, dann kannst Du
"User-agent: GoogleOther
Disallow: /
User-agent: CCBot
Disallow: / "
in der robots.txt aufnehmen, denn Google crawlt dafür wohl mit dem GoogleOther Bot und OpenAI nutzt wohl den Common Crawl Bot. Möchtest Du mehr über das Sperren Deiner Inhalte vor LLMs erfahren, empfehle ich Dir den Artikel von Roger Montti.
Ein weiterer Tipp von Barry ist zu prüfen, ob Du wirklich die ganze Domain in der GSC angemeldet hast, oder nur einzelne Subdomains. Wenn Du die gesamte Domain angibst, siehst Du in den Crawl Stats, welche Subdomains Google wie crawlt und kannst so auch prüfen, dass beispielsweise keine Testumgebung aus Versehen gecrawlt wird. ;)
Interne Verlinkungstipps
Ein paar gute Hinweise für die interne Verlinkung hat Barry auch parat:
-
Keine Tracking-Parameter nutzen – solche URLs erzeugen unnötiges Crawling → nutze lieber andere TrackingSetups, die nicht für zusätzliche URLs sorgen.
-
Lösche keine Artikel – vor allem nicht zu Themen, die Dir wichtig sind!
Alte Artikel sind mitunter oft nicht mehr der Traffic-Bringer. Sie spielen aber eine wichtige Rolle im Bereich Topical Authority. Sei also achtsam, wenn Du Inhalte löschen möchtest. Eine Themenseite mit wenig Artikeln schneidet im Vergleich zu einer Themenseite Deiner Konkurrenz mit mehr Artikeln schlechter ab.