Ich weiß. Seit Covid finden wir alle Verschwörungstheorien weniger lustig. Ist ja auch erschreckend.
Aber das hier ist nicht lustig, sondern beruflich.
Cindy Krum hat vor 2 Wochen ein Video rausgehauen. Nutzt Google unsere Browser, um das Rendering der Seiten für den Index durchzuführen?
Ich habe den Talk live auf dem G50 Summit gesehen. Und ich war beeindruckt. Cindy hat das fantastisch vorgetragen und das Kopfkino in Gang gesetzt. Das ist es, was ich mir von einem Vortrag erhoffe. Impulse, die das eigene Denken anregen.
Trotzdem war ich nicht überzeugt. Für mich war das am Ende zu viel Alufolie und zu wenig Beweis. Die meisten Anwesenden waren aber überzeugt.
Daher habe ich meine Gedanken noch mal sortiert und für Cindy aufgeschrieben (und ihr geschickt, bevor sie das Video veröffentlicht hat). Bevor Du jetzt aber meine Anmerkungen liest, solltest Du das Video sehen, oder zumindest die Zusammenfassung lesen. Denn Cindy macht ihren Case sehr schön und mitreißend deutlich.
Der Vollständigkeit halber solltest Du Dir auch noch mal die Punkte von Valentin Pletzer ansehen, vor allem aber die Kritik von Pedro Dias und Cindys Replik. Letzteres allein schon, weil das genau in Ton und Wertschätzung die Art ist, wie solche Diskussionen geführt werden sollten. Vorbildlich.
Ab hier bitte erst weiter, wenn Du mindestens die Zusammenfassung von Cindys Video gelesen hast.
(Ich danke ChatGPT für die Übersetzung meiner Mail an Cindy)
Hi Cindy
Wie versprochen, hier meine Hauptgedanken, warum ich nicht überzeugt bin, dass Google Dokumente unter Verwendung von nutzerseitig gerenderten HTML-Daten indexiert. Auch wenn ich die Theorie interessant finde und gerne daran glauben würde, denke ich, dass es komplexer ist. Ich stimme vollkommen zu, dass Google mehr als nur Klicks und Core Web Vitals Daten sammelt, und dein Punkt über Kreditkartendaten erinnert mich an den Panda-Fragebogen. Trotzdem bleibe ich skeptisch, was die Nutzung von nutzerseitig gerenderten Daten für Indexierungszwecke angeht.
- "Der Leak": Ich habe dieses Jahr mehrere Stunden damit verbracht, die Crawling- und Rendering-Module zu untersuchen, die durch den Leak aufgedeckt wurden. Obwohl verschiedene Crawler erwähnt werden, gibt es keinen Hinweis darauf, dass alternative Datenquellen wie nutzerseitig gerendertes HTML in den Prozess einbezogen werden.
- "Die Honigtöpfe": Ich habe die Daten meiner Honeypots überprüft und festgestellt, dass bei jeder Anfrage an das HTML sofort eine Folgeanfrage an das timestamped JSON-Objekt gestellt wird, das nur verfügbar ist, wenn JavaScript ausgeführt wird. Diese Anfrage kommt immer von einer Googlebot-IP-Adresse. Nach meinen Beobachtungen rendert Googlebot jede indexierbare URL sofort, nachdem das HTML gecrawlt wurde.
- "Der Payload": Während COVID habe ich die Datenströme von Chrome zu Google genau untersucht und festgestellt, dass die Payloads zu klein sind, um ein vollständig gerendertes HTML zu transportieren. Zwar ist es technisch möglich, die Daten in kleine Pakete aufzuteilen und von verschiedenen Nutzern wieder zusammenzusetzen, aber das scheint unnötig kompliziert. Außerdem hätten datenschutzorientierte Plattformen wie Brave oder andere Aufpasser solche Praktiken wahrscheinlich aufgedeckt und offengelegt.
- "Die Gerätevielfalt": Kürzlich hat Audisto einen Test durchgeführt, um die Bildschirmgrößen bei Googles Rendering zu untersuchen. Sie stellten fest, dass die Höhe zwar fast unbegrenzt ist, es aber nur zwei Hauptbreiten-Einstellungen gibt, die es Google ermöglichen, das mobile Rendering auch für Desktop-Ergebnisse zu nutzen. Wenn Google Daten von Nutzergeräten verwenden würde, wäre eine viel größere Bandbreite an Bildschirmgrößen zu erwarten, nicht nur beim Crawlen, sondern auch in den Daten, die in der Search Console angezeigt werden.
- "Das PII-Risiko": Wenn Google gerenderte Daten von Nutzergeräten zurücksenden würde, bestünde ein ernstes Risiko, dass persönliche Informationen (PII) versehentlich indexiert werden. Wenn ich zum Beispiel bei der New York Times eingeloggt bin, könnte Google versehentlich den spezifischen Artikel indexieren, den ich gerade lese, und dieser würde dann in den SERPs erscheinen. Das Problem wird noch besorgniserregender bei sensiblen Daten wie Bankinformationen oder Informationen aus Foren für Arztbesuche. Es gibt keine zuverlässige Möglichkeit, dies zu verhindern, ohne potenziell wertvolle Inhalte während der Indexierung zu entfernen. Unter der DSGVO könnte eine solche Panne zu Geldstrafen von bis zu 2 % des globalen Umsatzes von Google führen. Noch schlimmer: Wenn ein solcher Prozess tief in die Infrastruktur von Google eingebettet wäre, wäre es schwer, ihn schnell zu entfernen, was zu jahrelangen Strafen führen könnte. Dies würde die ohnehin schon bestehenden regulatorischen Herausforderungen für Google weiter verschärfen.
- "Das Update-Paradox": Bisher habe ich noch nie beobachtet, dass ein Dokument indexiert wurde, ohne dass ein Besuch von Googlebot stattfand. Ebenso habe ich noch keine Aktualisierungen von Artikeln in den SERPs gesehen, ohne dass Googlebot (User-Agent + IP) die Seite nach den Änderungen gecrawlt hat.
- "Der ROI": Daten von 65 % des Internetverkehrs an Google-Server zurückzusenden, würde enorme Datenmengen erzeugen, selbst mit Sampling. Die Kosten für die Verarbeitung solcher Daten – noch bevor man PII, Normalisierung der Bildschirmgrößen usw. anspricht – wären astronomisch. Es gibt auch ein erhebliches Entdeckungsrisiko, insbesondere bei privaten Browsing-Sitzungen und ausgeloggten Nutzern. Die potenziellen Gewinne, wie die Erkennung von Cloaking (was nur wenige Webmaster verwenden) oder das Verständnis von Anzeigenplatzierungen, scheinen den enormen Aufwand nicht wert zu sein. Ich glaube auch, dass wir oft Googles Fähigkeiten überschätzen – eine Suchmaschine zu bauen ist unglaublich komplex, und einfachere Lösungen sind oft praktischer. Außerdem: Crawling mit Rendering ist teuer. Aber Google tut viel, um es machbarer zu machen: Das Weglassen des Paintings, nicht jedes mögliche File zu laden usw.
Deshalb sehe ich keinen Hinweis darauf, dass Google nicht regelmäßig indexierbare Seiten rendert. Aus diesem Grund bin ich nicht überzeugt, dass die potenziellen Vorteile der Nutzung nutzerseitig gerenderter Daten den enormen Aufwand rechtfertigen würden. Ich neige auch dazu zu glauben, dass wir oft Googles Fähigkeiten überschätzen. Eine Suchmaschine zu bauen ist unglaublich komplex, und in der Realität sind die Dinge oft einfacher, als wir annehmen.
Allerdings haben meine "Fakten" Schwächen:
- Google könnte all diese Informationen sammeln und sie einfach nicht in den SERPs und der Search Console anzeigen.
- Google könnte die Anfragen der Nutzer irgendwie über ihre IPs weiterleiten (und die Auswirkungen auf Geschwindigkeit, Privatsphäre usw. umgehen), sodass es wie Googlebot aussieht, obwohl es das nicht ist.
- Google könnte eine völlig andere Einstellung zu den Risiken haben.
- Mir fehlen wesentliche Elemente des Nutzens.
Aber ich würde mich sehr freuen, meinen Aluhut aus dem Schrank zu holen. Denn ich mag die Theorie sehr. Ich brauche nur mehr Beweise, um diese Fakten loszuwerden, die mich im Moment noch zurückhalten.
Viele Grüße
Johan