Apprentice Bard hat noch lange nicht ausgelernt und wir müssen lernen damit umzugehen

Behrend von Hülsen

Consultant

Google hat schon vor 2 Jahren mit Lambda eine AI auf ähnlichem Niveau vorgestellt wie ChatGPT. Sie haben daraus aber kein Produkt gemacht, sondern erst unter dem Konkurrenzdruck durch OpenAI, Bing und Co mit Apprentice Bard angefangen solche AI Funktionen in die Suche aufzunehmen.

Warum hat Google so lange gezögert? Ein Grund war vielleicht der hohe CO2 Footprint. Wahrscheinlicher eher die damit verbundenen hohen Energiekosten. Wahrscheinlich haben sie sich auch Gedanken über die Monetarisierung gemacht, die schwieriger ist, wenn Nutzer ihre Antwort bekommen, anstatt auf Suchergebnisse zu klicken. Außerdem muss Google in seiner marktbeherrschenden Stellung einen anderen Qualitätsanspruch erfüllen als ein Startup Underdog.

Und obwohl Google daher besonders kritisch beobachtet wird haben sie sich jetzt von Bing und OpenAI treiben lassen und in aller Eile ein neues Feature präsentiert gestellt. Dabei hat Google in seiner Vorstellung des neuen Barden einen subtilen Fehler gehabt. Dieser war zwar weit weniger offensichtlich als die offensichtlichsten Logikfehler von ChatGPT, wurde aber eben in der Pressekonferenz aller Öffentlichkeit vorgestellt. Während Nutzer bei ChatGPT diverse Fehler gefunden haben, die auch viel diskutiert wurden, wurde ChatGPT trotzdem gehyped und das Potenzial gesehen. Für den so in Szene gesetzten Fehler des Barden hingegen gab es gefühlt mehr Häme als die Top 1000 ChatGPT Fails zusammengenommen. Google muss eben seiner Stellung gerecht werden, während openAI "fail fast, fail often" spielen darf. Auch dann noch, wenn es bei Bing eingesetzt wird.

Und während auf der einen Seite die Faktensicherheit der diversen AIs ein großes Problem ist, dürfen wir nicht vergessen, dass es nicht das einzige große Problem ist, die AIs haben.

Es gibt eine Reihe von gesellschaftlichen, moralischen und ethischen Fragen, die in Bezug auf AI nicht geklärt sind:

Was ist mit den personenbezogenen Daten in den Datensätzen?
Was ist mit den Urheberrechten und dem Copyright?

Ich halte es für möglich, dass in den Datensätzen auf Copyright und Lizenzkennzeichnungen geachtet und entsprechend gefiltert wurde, sofern sie maschinenlesbar verfügbar waren. Aber es ist wahrscheinlich, dass das nicht passiert ist, wie es bei dem GitHub Copilot und Stable Diffusion vermutlich auch nicht der Fall war. Ganz zu schweigen von eher unstrukturierten Willensbekundungen, die Autor*innen in ihren Texten platzieren könnten, die rechtlich sicherlich wirksam, aber technisch schwer zu erkennen sind...

Wenn das beachtet wurde: Wann erreicht ein AI-Ergebnis auf eine Query eine ausreichende Schöpfungshöhe, um als eigenständiges Werk zu gelten? Und wem gehört das Werk dann? Können/Dürfen AI Anbieter das dann eventuell sogar monetarisieren? Wird die VG-Wort vielleicht etwas wie METIS anbieten und in die AIs ein Tracking verbaut, wenn bestimmte Werke verwendet werden? Geht das technisch überhaupt?

Und, wenn wir bei der Frage sind, müssen wir auch klären, was mit den Informationen, die wir den AIs über unsere Queries zur Verfügung stellen. Denn was Dir vielleicht noch nicht bewusst war:

Die Modelle lernen auch aus unseren Eingaben. Ein Professor der Universität Sidney schreibt in einem Artikel über chatGPT und data privacy dazu:

For instance, an attorney may prompt the tool to review a draft divorce agreement, or a programmer may ask it to check a piece of code. The agreement and code, in addition to the outputted essays, are now part of ChatGPT's database. This means they can be used to further train the tool, and be included in responses to other people's prompts.

Randnotiz: Überleg Dir, welche Queries Du im ChatGPT und Co wirfst, denn Deine Fragen können vielleicht Teile der Antworten an andere werden.

Insgesamt war unser traditionelles Urheberrecht schon mit dem Internet, wie wir es gestern und heute kannten, nicht mehr wirklich kompatibel. Wer welche Rechte an den aus dem Internet gescrapten Daten hat, die die diversen AI Modelle trainieren ist eine wichtige Frage. Und wem dann die Ergebnisse gehören, die die AI daraus macht, eine andere. Wir brauchen ein Urheberrecht, das online funktioniert und dabei fair und durchsetzbar ist. Und nicht eines aus der Zeit, als der Buchdruck eine bahnbrechende Erfindung war. Außerdem muss geklärt sein, wie AIs mit personenbezogenen Daten oder dem Recht auf Vergessen umgehen.

Da kommt noch einiges auf uns zu. Und Google wird vorne mit dabei sein, auch wenn sie gerade in Zugzwang sind. Was das dann auch noch mit SEO zu tun hat, erklärt Dir gleich Jolle.

Fun fact zum Schluss: Wie leicht Nutzer den "confidently incorrect" Angaben der Chatbots auf den Leim gehen, auch wenn sie sensibilisiert dafür sind, zeigt sich in der Korrektur des oben verlinkten Artikels:

Correction: in regards to ChatGPT's potential to generate copyrighted texts, this article previously referenced Peter Carey's novel True History of the Kelly Gang, with a ChatGPT screenshot that was not an actual excerpt from the book. This has been changed to an accurate example referencing Joseph Heller's book Catch-22.

Behrend von Hülsen

Consultant