Im WUX-Discord gab es die Frage: Gibt es eigentlich Shops, die ihre Paginierung per Robots.txt sperren, anstatt sie zu noindexen.
Ich musste direkt an diese wunderschöne Robots.txt-Studie denken, hatte aber nicht ganz so viel Zeit, aber Interesse war geweckt.
Aus einer anderen Analyse hatte ich noch eine Liste mit 500 Shop-Domains herumliegen. Mit einem einfachen Terminal-Befehl habe ich mir dann die Robots.txt der 500 Domains geholt. Eventuelle Weiterleitungen haben wir dabei ignoriert:
for i in `cat ../shops.txt`; do curl https://www.${i}/robots.txt > $i;done
Danach haben wir 500 Robots.txt in einem Ordner liegen. Diese Dateien können wir jetzt mit grep nach einfachen Paginierungsmustern untersuchen:
grep -E \"page|p=|pnum|seite\" *
Natürlich durchsuchen wir so nicht nur Anweisungen mit User-Agent: Googlebot, sondern alle Anweisungen, aber eine kurze Liste, welche Robots.txt einen zweiten Blick bekommen könnten, erhalten wir sofort in unserem 500 Shops Sample:
-
Gruppe 1: Verbot spezieller Paginierungen, beispielsweise bei Tagseiten: jjshouse.de
-
Gruppe 2: Verbot aller Paginierungen, beispielsweise westwing.de
-
Gruppe 3: Shops, die alle Paginierungsseiten sperren und dann aber die ersten 5 Seiten wieder erlauben: valmano.de, jochen-schweizer.de, christ.de, aboutyou.de und galeria.de
Dazu kommen noch besonders schöne Einträge von conrad.de (Verbot doppelter Paginierungsparameter) und geschenkidee.de (haben die Sperrung aller Parameter auskommentiert).
Inwieweit die Muster in den einzelnen Fällen tatsächlich zur Problemlösung geeignet sind, lässt sich von außen natürlich schwer sagen, weil wir weder bei der Problemdefinition, noch bei der Abwägung der Lösungsoptionen dabei waren. Außerdem haben wir nicht geprüft, ob die Muster tatsächlich die Paginierungsmuster im Shop sind.
Dennoch fällt auf, dass
-
nur wenige Shops die Paginierungsmuster ausschließen
-
viele zwar alle Paginierungen sperren, die ersten 5 Seiten aber wieder ausnehmen.
Mit letzterer Idee hab' ich meine Probleme, insbesondere weil sie recht pauschal angewandt zu werden scheint.
Wenn wir uns die Funktion der Paginierung für SEO anschauen, dann dient die Paginierung:
-
der internen Verlinkung
-
der Discovery neuer Seiten
Für die Discovery brauchen wir die Paginierung nicht (sofern wir vernünftige Sitemaps und wertvolle Produktseiten haben).
Und für interne Verlinkung ist die Paginierung ungeeignet, weil die verlinkende Seite wenig Wert hat.
Idealerweise ist die Paginierung für die Stärkung der Seiten nicht notwendig, sondern über entsprechend detaillierte Übersichtsseiten gewährleistet. Spannend aber zu sehen, wie unterschiedlich die Paginierung schon in der Robots.txt gelöst ist.
Die Robots.txt-Anweisungen unterscheiden sich massiv. Was würdest Du gern über die Robots.txt der größten deutschen Shops wissen?