Crawl-Setup-Hygiene spart Zeit und Serverressourcen

Jolle Lahr-Eigen

Consultant

Wenn Du eine Website mit 200 HTML-Dokumenten hast, mag Dich das nicht betreffen, aber bei Wingmen kommt es regelmäßig vor, dass wir riesige Websites mit dem Screaming Frog crawlen, um uns einen Überblick über das URL-Inventar zu verschaffen, Status Codes, Indexierbarkeit, Canonicals zu checken oder anhand der internen Verlinkung zu berechnen, auf welchen Seiten PageRank gehortet und wo er verschwendet wird.

Besonders relevant bei Mammut-Websites

Bei zwanzig Jahre lang gewachsenen Foren mit User Generated Content, großen Ecommerce- oder Publishing-Websites geht die Anzahl der zu crawlenden URLs ratzfatz in die Millionen. Um die Server der Seiten nicht direkt in die Knie zu zwingen oder blockiert zu werden, gehört es sich, das Crawling mit der Anzahl der parallelen Threads sowie der URLs pro Sekunde gemäßigt anzugehen. Und dann kann so ein Crawl schon mal mehrere Tage oder sogar Wochen laufen.

Deshalb gilt: Jede Minute, die Du in die Optimierung des Crawl-Setups steckst, zahlt sich nicht nur doppelt und dreifach, sondern eher hundertfach aus. Oder um es mit Johans Worten zu sagen:

"Wer einen Crawl ohne individuelle Settings startet, ist ein Amateur." Johan von Hülsen, ziemlich guter SEO, der angeblich ein "Faible für Datenaggregation und Effizienz" hat.

Das Schöne ist: Du kannst den Crawl zwischendurch stoppen und die Konfiguration anpassen, die dann für alle noch folgenden URLs greift.

Ein paar Wingmen-Tipps zur Crawl-Setup-Optimierung

Schaue schon vor dem Crawl auf die Seite. Fast immer stechen direkt Aspekte ins Auge, die Du ignorieren oder auf jeden Fall per Custom Extraction abholen willst
Hake in der Konfiguration möglichst viele Optionen ab und nimm nur mit, womit Du später wirklich arbeiten willst. "Aber ich weiß doch noch gar nicht, was mir auffallen wird und wichtig sein könnte?" Dann lies einfach weiter... Achtung: Für Deine Zwecke können die Haken natürlich anders aussehen:
Übrigens: externe URLs kannst Du fast immer abwählen - und falls das nicht geht, lassen sich via Excludes zumindest die Klassiker Google Maps, Facebook, Twitter, Linkedin, Pinterest usw. aussparen
Erstmal ancrawlen und dann nachjustieren: Oft kannst Du Dir mit einem schlanken Crawl das URL-Inventar holen und dann mit gezielten Listcrawls tiefer einsteigen
Der Screaming Frog zeigt Dir an, wieviele URLs er schon entdeckt hat und als nächstes analysieren wird. Diese Crawl-Queue kannst Du exportieren und dann ziemlich zügig Muster erkennen: Der Crawler beißt sich in der Paginierung fest? Es sind zig Marketing-Parameter intern verlinkt, die nach ein paar Stichproben aber scheinbar immer auf die Original-URL kanonisiert sind? Dann kommt folgender Tipp ins Spiel
Mit Excludes und Rewrites kannst Du ganze Verzeichnisse oder URLs mit bestimmten Zeichenfolgen ausklammern oder bestimmte Parameter in URLs ignorieren. Vorsicht: Mach das erst, wenn Du das strukturelle Problem erkannt und dokumentiert hast. Wir wollen den Crawl optimieren, nicht die Augen vor den Problemen verschließen...
Bei Custom Extractions arbeiten wir lieber mit Xpath als mit RegEx. Das geht in der Regel schneller und trifft genauer. In beiden Fällen versuchen wir, so spezifisch wie möglich zu definieren, damit sich nicht ungewollter Beifang im Netz verheddert

Es gibt natürlich noch zig andere Tipps und Settings für den Screaming Frog, aber wenn Du die oben beschriebenen berücksichtigst, bist Du schon mal gut aufgestellt.

Nutzt Du andere Settings? Dann teil sie mit uns! Wir können Dir natürlich auch bei Deinem Setup unter die Arme greifen, falls Du bislang noch die Standardsettings nutzt. Gib einfach Bescheid, wenn Du uns brauchst!

Jolle Lahr-Eigen

Consultant