ChatGPT, quo vadis!

Behrend von Hülsen

Consultant

Ja ChatGPT, wohin gehst Du? Erstmal nicht nach Italien, egal wie viele Wege nach Rom führen... Die Italienische Datenschutzbehörde hat ChatGPT offiziell ausgesperrt und begründet das mit der Verarbeitung personenbezogener Daten in den Trainingsdatensätzen des Large Language Models (LLMs).

Schauen wir also gen Italien, denn das war kein Aprilscherz, sondern der volle Ernst. OpenAI hat entsprechend italienische Konten bis auf weiteres gesperrt. Ob weitere europäische Datenschutzbehörden der "Garante" folgen und ob das auch für Bing Chat Service oder gar Bard und Co. ausgeweitet wird, ist noch nicht klar. Beides wäre aber folgerichtig, wenn man sich die Begründung anschaut.

Was wird an ChatGPT konkret bemängelt?

Es fehlt die rechtliche Grundlage für das massive Verarbeiten der personenbezogenen Daten
Die Verarbeitung der Daten ist ungenau
Kinder werden nicht ausreichend vor nicht altersgerechten Inhalten geschützt

Ob und wie OpenAI eine Altersverifikation vornimmt, habe ich bislang tatsächlich nicht beachtet. Aber der Versuch, eine altersgerechte KI bereitzustellen, wurde, soweit ich weiß, noch nicht unternommen, und wenn, wäre es wohl ein sprichwörtliches Kinderspiel, der KI unangebrachte Äußerungen zu entlocken.

Die anderen Punkte finde ich aber interessanter. Alle LLMs benötigen Trainingsdaten wie z.B. den CommonCrawl-Datensatz. Diese Trainingsdaten sind aus dem Internet gescraped und enthalten ohne Zweifel Daten, die als personenbezogen definiert werden könnten. Frag so einen ChatBot doch einfach mal über Dich aus.

Daraus ergeben sich einige moralisch-ethische und natürlich auch rechtliche Fragestellungen

Hat OpenAI personenenbezogene Daten verarbeitet? Oder commoncrawl? Oder beide?
Haben sie das absichtlich gemacht?
Ist eine Einwilligung notwendig, wenn Daten von uns selbst veröffentlicht wurden? Z.B. auf unserer Teamseite?

Die Idee, einfach das Internet zu scrapen, um an einen passenden Datensatz zu kommen, ist für Suchmaschinen das normale Vorgehen. Wenn die Daten im Trainingsdatensatz das Problem sind, dann wäre auch Googles Suchindex ein Datenschutzproblem und müsste genauso behandelt werden.

Insofern ist eher die Verarbeitung in einem Sprachmodell das Problem, dass Informationen wiedergeben kann, ohne dabei den direkten Quellbezug herzustellen, wie es Suchmaschinen tun, wenn Sie uns Suchergebnisse anzeigen (und auch das haben Verlage schon urheberrechtlich kritisch gesehen, Stichwort "Leistungsschutzrecht").

Um rechtlich auf der sicheren Seite zu sein, müssten die personenbezogenen Daten aus den Datensätzen gefiltert werden. Das ist aber technisch kaum machbar.

Was wollen wir als globale Gesellschaft?

Was passiert, wenn die Daten verarbeitet werden, dabei aber fehlerhafte Ergebnisse rauskommen?

ChatGPT behauptet, dass ich aus Berlin komme. Wenn ChatGPT einen falschen Wohnort von mir halluziniert, ist das dann überhaupt personenbezogen?
Habe ich ein Recht darauf, das ich korrekt wiedergegeben werde?

Diese Fragen sind aus meiner Sicht alle nicht schlüssig beantwortet und das müssen wir als Gesellschaft klären. Da es um Dinge im Internet geht, wird das global geschehen müssen... Was hilft es, ChatGPT in Italien zu verbieten, wenn die Daten über Italiener in Amerika fleißig weiter verarbeitet werden?

Und was auch immer am Ende der Konsens ist, es wird sicher technische und rechtliche Mittel benötigen, dass dieser Konsens auch eingehalten wird. Da wird ein halbes Jahr Moratorium nicht viel ausrichten. Das ist eine Mammutaufgabe, die von der Zivilgesellschaft (das sind Du und ich und wir) begleitet und diskutiert werden muss. Wir wollen schließlich, dass die Chancen und Gefahren, die künstliche Intelligenz bietet, zu unseren Gunsten bestmöglich abgewogen werden.

Behrend von Hülsen

Consultant