In meinen ersten Monaten als Trainee habe ich das Anlegen und Durchführen von Crawls mit dem Screaming Frog gelernt (übrigens von Hannah und mir stets liebevoll Froggy genannt) und Gefallen daran gefunden.
Eins steht fest: Site Audits ohne eigenen Crawl = ohne eigene Datengrundlage.
Aber wie gestaltest Du Deinen Crawl für einen Site Audit am besten? Passend dazu gab es während meines Urlaubes hilfreiche Tipps zu den besten Froggy-Einstellungen für Site Audits, die ich jetzt frisch erholt gerne mit Dir teile. Die aufgeführten Aspekte beziehen sich auf Einstellungen, die nicht bereits per Default im Froggy vorhanden sind.
Denk daran, dass es nie die eine perfekte Einstellung für jeden Crawl geben wird. Es kommt ganz darauf an, welche Website Du crawlen möchtest. Macht es Sinn, bestimmte Daten für den Audit Deiner Website zu sammeln oder handelt es sich vielleicht auch um unnötige Datenlast?
Ein paar Beispiele direkt zur Hand:
-
Geht es um eine internationale Website? Dann crawle besser mit Hreflang, um sicherzustellen, dass Du alle URLs aller Sprachversionen entdeckst und somit in den Audit mit einbeziehen kannst. Wenn nicht - eher unnötig.
-
Wird AMP für die Website genutzt? Crawle dies ebenfalls mit ab. Wenn nicht - auch eher unnötig.
-
Inwieweit besteht die Website aus JavaScript? Bei einer Website basierend auf JavaScript solltest Du auch mit JS crawlen. Falls Server Side Rendering genutzt wird, kann es sinnvoller sein, Text only zu crawlen, um zu sehen was der Googlebot schon vor dem eigenen Rendering sieht. Oder man möchte vielleicht zwei Crawls (Text only vs JS) miteinander vergleichen, um mögliche fehlende Elemente in der JS-Version aufzudecken.
Um weiter sicherzustellen, so viele Daten wie möglich zu sammeln, kann Pagination mit gecrawlt werden - nur für den Fall, dass paginierte Seiten ansonsten im HTML Body nicht verlinkt sind. Gerne crawle ich auch immer außerhalb der Start Folders sowie auch alle Subdomains, um wirklich alle Folder und Subdomains entdecken und prüfen zu können (wobei natürlich meistens sowieso bereits die Root für Site Audits gecrawlt wird und daher automatisch alle darunter liegenden Folder inkludiert sind). Das gleiche gilt für Sitemaps - crawlst Du diese mit, kannst Du die Sitemap direkt mit überprüfen und zum Beispiel auch Seiten entdecken, die vielleicht ansonsten nicht weiter intern verlinkt sind. Weitere zu überprüfende Dinge, die bei Site Audits Crawls mit berücksichtigt werden können, sind HTTP Headers und Structured Data.
Das Crawling von nofollow-Seiten wird im Guide zwar empfohlen, um noch mehr Seiten zu entdecken, nofollow-Links zu crawlen, beansprucht bei großen Seiten jedoch sehr viele Ressourcen. Da kann es auch helfen, einmal in den All-Outlinks-Report zu schauen und die Ressourcen zu sparen.
Etwas, was ich bisher nicht auf dem Schirm hatte: Im Guide wird empfohlen, die maximal zu folgenden Redirects von 5 auf das Maximum (20) zu setzen, um auch sehr lange Redirect-Ketten zu erfassen. Kann nicht schaden, sollte aber (hoffentlich) selten der Fall sein (oder auch nicht? Was sind Deine Erfahrungen?).
In dem Guide befinden sich noch viele weitere Empfehlungen für den optimalen Crawl bei einem Site Audit, die unseren Newsletter jetzt leider sprengen würden. Aber wie sieht es bei Dir aus? Hast du eine Standardeinstellung für Site Audit Crawls oder variierst Du je nach Website? Welche Einstellungsoptionen passt Du am häufigsten individuell an?