Crawzall: One Leak to crawl them all

Johan von Hülsen

Geschäftsführender Gesellschafter

„Was ist crawzall?"

Als wir beim Offsite vor ein paar Wochen den Google Leak durchgegangen sind und uns das docJoiner-Modul angesehen haben, hat sich diese Frage jeder gestellt. Ist das ein Typo? Oder heißt das wirklich so? Vor allem aber: Was macht es?

Das DocJoiner-Modul (genauer IndexingDocjoinerDataVersion) finde ich extrem spannend. Obwohl es eigentlich total langweilig ist.

Es ist nämlich nur ein Verzeichnis der Versionsinformationen der Attribute des DocJoiners. Aber: Dadurch gibt es eine (möglicherweise) vollständige Liste der Daten, die dem DocJoiner zur Verfügung stehen. Und DocJoiner ist spannend. Denn der DocJoiner führt die unterschiedlichen URLs zu einem Dokument zusammen und schickt das Dokument an den Index. Wir lernen also viel über die Metadaten eines Dokuments, wenn wir uns hiermit beschäftigen.

Zurück zur Frage: Was ist Crawzall?

Crawzall kommt im Leak nur im DocJoiner-Modul und in 2 Attributen vor:

crawzallSignal
repositoryAnnotationsCrawzallAnnotations

Weitere Informationen dazu gibt es im Leak nicht.

Was aber ist Crawzall?

Eine Server-Infrastruktur?
Ein URL-Finder, der sicherstellt, dass auch wirklich alle URLs crawlbar sind?
Ist es ein Universal-Crawler, der alle Verticals bedient?

Innerhalb des Leaks können wir das nicht wissen.

Also müssen wir nach der Information suchen. Eine Suchanfrage und ein paar Ausschlüsse von Angelzubehör später können wir ein Bild aus Lebensläufen und Projektbeschreibungen einiger Entwickler auf LinkedIn malen:

Crawzall ist ein Crawler.
Der Crawler wird individuell auf E-Commerce-Seiten zugeschnitten und konfiguriert.
Dabei scheint vor allem auf RegEx zur Extraction von Elementen aus dem HTML gesetzt zu werden.
Unter Umständen wird der Crawler auch zur Anreicherung des Knowledge Graphs genutzt.
Auf jeden Fall aber zur Validierung von Merchant Feed Daten von Top-Merchants.

Wir lernen also:

Für große Merchants gibt es manuell konfigurierte Crawls, um die Daten im Merchant Feed zu validieren.
Die RegEx-basierten Extractions müssen immer wieder angepasst werden.
Seite 2020 gibt es keine neuen Referenzen. Das kann (muss aber nicht!) heißen, dass das Tool nicht mehr (in der Form) genutzt wird.
Wie schon bei NavBoost oder Twiddler reicht die Kenntnis eines Begriffs aus, um mehr Informationen zu finden
Externe Firmen benutzen interne Projektbeschreibungen als Referenz und durchbrechen damit die Informationssicherheitsmauern, die Google eigentlich errichtet.

Johan von Hülsen

Geschäftsführender Gesellschafter

Du hast Fragen zum Artikel, zum Thema oder brauchst einen Tipp für Deine nächsten Schritte? Hier kannst Du Dir einen unverbindlichen Termin in meinem Kalender buchen. Ich freue mich auf Dich!
15-Minuten-Termin mit Johan reservieren