Letzte Woche gab es spannende Neuigkeiten zum Thema "OpenAI Bot kann ausgesperrt werden". Da musste ich an Gandalf aus Herr der Ringe denken, wie er den Balrog auf der Brücke davon abhalten möchte, diese zu passieren.

Bereits zuvor wurde von verschiedenen Möglichkeiten berichtet, um die Schranke für diverse Crawler zu schließen. 🙅 Neben dem GPTBot gibt es ja auch noch diverse andere Maschinen, die Inhalte unserer Websites herunterladen, speichern und möglicherweise damit andere Sprachmodelle trainieren oder trainiert haben.
Vielleicht hast Du auch mitbekommen, dass es bei Zoom Diskussionen gab, inwieweit mit Nutzerdaten KI trainiert wird beziehungsweise trainiert werden darf:
"Zoom's [terms of service] now demand that they use AI to train on audio, face and facial movements, even private conversations without recourse, unconditionally and irrevocably."
Es kommen immer wieder – berechtigterweise – Fragen zum Thema Urheberrecht sowie Persönlichkeitsrechten und KI auf (Behrend hat sich dazu auch schon geäußert in Newsletter #156 und #157). Aber was solltest Du jetzt tun? Den GPTBot aussperren, oder lieber "passieren lassen"?
Unterschiedliche Meinungen
Auch die LinkedIn- und SEO-Welt tauscht sich aus und berichtet. 📰 So haben Andé Goldmann und Christoph Burseg beispielsweise versucht zu analysieren, welche der großen (und/oder im SEO erfolgreichen) Websites die Anweisung in der robots.txt gegeben haben, den GPTBot nicht crawlen zu lassen.
André Goldmann verweist zusätzlich darauf, dass man nicht nur den GPTBot für Trainingsdaten aussperren kann, sondern auch eine Schranke für Plugins setzen kann, wenn diese Inhalte der Website in ChatGPT abrufen wollen (Beispiel Linkreader). Der User-Agent dafür heißt ChatGPT-User.
Auch unter einem Post von Johannes Theberath wird diskutiert. Die beiden Lager – GPTBot aussperren vs. GPTBot nicht aussperren – argumentieren in der Regel mit folgenden Begründungen:
✅ ChatGPT darf rein: ChatGPT (und andere Sprachmodelle) sollte ich nicht ausgrenzen, damit meine Inhalte und meine Website hier bei Anfragen relevant sein können. Sperre ich beispielsweise den GPTBot aus, könnte ich in Zukunft, einen Nachteil haben.
versus
⛔ ChatGPT darf nicht rein: Wenn ich ChatGPT (und anderen Sprachmodellen) die Erlaubnis gebe, mit meinen Inhalten und Daten zu trainieren, wird sich an meinem Inventar bereichert ohne dafür eine Gegenleistung zu liefern. Das könnte in Zukunft zu einem Nachteil werden, wenn potenzielle Nutzer\*innen meine Website nicht mehr ansteuern, weil Antworten direkt aus der Such- beziehungsweise Antwortmaschine kommen. Zusätzlich können sich Dritte langfristig womöglich an meinen Inhalten bereichern, wenn ChatGPT mit diesen Daten trainiert wurde.
Mein Take
Ich kann beide Seiten gut verstehen. Das Argument, dass solange Tools wie ChatGPT nicht vollständig von der Masse adaptiert werden, keine großen Vorteile existieren, finde ich dabei sehr wichtig. Vor allem in Bezug auf ChatGPT.
Bei anderen Tools wie Bard, dem Bing Chat Bot & Co. gibt es einen gesünderen Werteaustausch.🤝 OpenAI trainiert mit Daten von Websites (bekommt also Wert), gibt im Umkehrschluss aber keinen Wert zurück. Das stößt einigen logischerweise übel auf.
Klar, in der SGE rappelte es auch zum Start, weil hier keine Quellen an den Textbausteinen aufgetaucht sind. Das wurde als Feature in der SGE getestet (Anita hat darüber berichtet) und wird vermutlich auch zum offiziellen Start als Feature notwendig sein, damit die Unternehmen/Websites nicht auf die Barrikaden gehen. Aktuell tauchen im Text allerdings keine Quellen mehr auf.
Ich hatte vor kurzem über die tolle Auffindbarkeit sämtlicher New York Times Artikel berichtet und die Tage gab es zur New York Times eine Meldung, dass möglicherweise eine große Klage im Raum steht. Die New York Times ist nicht damit einverstanden, dass OpenAI einfach massig Inhalte "nimmt" und diese monetarisiert, ohne einen Gegenwert zu liefern.
Dabei stechen folgende Aussagen besonders heraus:
"If judges believe that the materials A.I. spits out are new creations, or that they significantly transform the works they're based on, they're likely to see its treatment of copyrighted works as fair use.
If, on the other hand, they believe the A.I. is simply copying and regurgitating others' works, they could find its use illegal, and force OpenAI to destroy all copies of those works in its dataset."
Wenn Fall 2 eintritt, würde das wohl eine Welle auslösen.
Gerade vor wenigen Tagen gab es zwei spannende Berichte (von The Atlantic und Gizmodo) zum Books3 Datensatz, mit dem einige Sprachmodelle trainiert wurden. Dabei geht es mehr oder weniger um die gleichen Probleme.
Die großen Konzerne bereichern sich an Inhalten Dritter. Je mehr über die Daten, mit denen trainiert wurde, bekannt ist, desto größer ist die Chance, dass eine Klage droht oder andere ähnliche KI-Modelle bauen. Genau dafür war Books3 ursprünglich mal gedacht: Eine große Datenbasis Open Source bereitstellen, damit alle eine Chance haben, gleichwertige KI-Modelle zu bauen.
Die Idee hinter Books3 ist natürlich interessant und mag von der Absicht her gut sein. Aber der Zweck heiligt nicht die Mittel – wir können nicht einfach ohne die Berechtigung Inhalte anderer nehmen und uns daran bereichern. Weder im Open Source-Bereich, noch auf Ebene großer Unternehmen.
Leider ist es wie so oft bei neuen Technologien ein Fall, bei dem die Gesetzgebung (weltweit) nicht hinterherkommt. Ich hoffe, dass hier möglichst schnell mehr Klarheit besteht, was geht und was nicht geht. Ansonsten befinden wir uns im Wilden Westen 🤠, in dem es keine Spielregeln gibt. Und das funktioniert einfach nicht.