Wasserzeichen haben als Token Ähnlichkeit mit Rauchzeichen. Die übersetzt man als Smoke Signal und haben wiederum als Token Ähnlichkeit mit Smoke Screen. Das wiederum übersetzt man als Nebelkerze.
Vielleicht musste ich aufgrund dieser Assoziationskette direkt an Nebelkerze denken, als mir der The Verge Artikel zu Googles Watermarking von AI-generated Text untergekommen ist. Vielleicht war es aber auch eine direktere Assoziation: Billiges Ablenkungsmanöver → Nebelkerze.
Vielleicht bin ich voreingenommen, aber es fällt mir schwer einen Weg zu sehen, wie Text-Content effektiv mit einer Art Wasserzeichen versehen werden kann. Entweder wird es nicht akkurat, oder es wird leicht zu umgehen.
Warum sind Wasserzeichen so schwer?
Bei Bildern, Audio oder Video haben wir unheimlich viel Informationsraum, der von Menschen nicht wahrgenommen wird, in dem wir Wasserzeichen unterbringen können. Analog zu Tracking Dots bei Druckern (für jeden Aluhut-Träger übrigens die wahre Antwort auf die Frage, warum Dein Drucker nicht Schwarz-Weiß drucken will, wenn das Gelb alle ist), kann man in irgendwelchen Bild- oder Video-Pixeln subtile Muster verstecken. Ähnliches ist im Rauschen von Audio vorstellbar.
Text hat aber kein technisches Rauschen, keinen informationsfreien Raum für subtile Muster. Die Informationsdichte von Text ist 100 % (auch wenn sich das bei manchen Autoren nicht so anfühlt).
Versuche, Text mit Wasserzeichen zu versehen, hat es schon vor AI-Content gegeben.
Zum Beispiel, als Lyrics Webseiten beweisen wollten, dass Google unrechtmäßig ihren Content scraped. Den Beweis konnten sie damals zwar erbringen, aber nur, weil Google keine Wasserzeichen erwartet hat. Muster aus Apostroph und Leerzeichen sind mit einfachsten Mitteln zu entfernen. Aber das hat den Klägern damals auch nichts genützt. Das Scrapen können sie zwar nachweisen, aber die Unrechtmäßigkeit wohl nicht.
Was macht Google jetzt anders?
Um einen Text wirklich robust mit einem Wasserzeichen zu versehen, muss man an den Kern des Inhalts heran. Mit SynthID will Google jetzt einen passablen Weg gefunden haben, der die Qualität der Antworten dabei nicht negativ beeinflusst. Das hat Deepmind schon im Mai angekündigt und jetzt wurde ein wissenschaftliches Paper dazu veröffentlicht.
Ich bin ehrlich, ich hab's nicht ganz durchgelesen, geschweige denn im Detail verstanden. Ich glaube aber genug, um das Prinzip verstanden zu haben:
LLMs machen ja nichts anderes, als die wahrscheinlichste Antwort auf einen Prompt zu generieren. SynthID beeinflusst den Output, um minimal weniger wahrscheinlichen Output zu generieren. Es werden also einige Tokens (aka Worte) im Text ausgetauscht, um ein Muster zu erzeugen, das wiedererkennbar ist.
Im Paper wird das Beispiel genannt, dass bei einem Prompt "What's your favorite fruit?" "Mango" die wahrscheinlichste Antwort, aber "Lychee" auch sehr wahrscheinlich ist. Der SynthID tauscht also in der Antwort "Mango" gegen "Lychee" aus. Und macht man das bei genügend Tokens, kann man ein Muster scheinbar wiedererkennen.
Aber wie The Verge schreib:
"But it struggles with short text, content that's been rewritten or translated, and even responses to factual questions."
- Klar, bei kurzen Texten ist nicht genug Platz für ein Muster. Das macht Sinn und und außerhalb von Twitter sind kurze Texte sind nicht das AI-Problem Nummer 1.
- Und durch Umschreiben oder Übersetzen wird so ein Muster einfach ausgehebelt. Aber eine umschreibende/übersetzende AI hätte ja potenziell auch SynthID im Algorithmus, und AI Content nochmal von Hand umzuschreiben... klarer Fall von "defeats the purpose".
- Und der letzte Punkt: Wenn der Prompt spezifisch ist, dann ist in der Antwort nicht genug Variabilität, um ein Muster zu erzeugen. Wenn ich nach dem Lieblingstier von Olaf Scholz frage, dann war das der schwarze Kater Morle und nicht die getigerte Katze Mauzi. Fakten darf SynthID nicht ändern, das ist sowieso schon ein AI-Problem.
Und warum bin ich sicher, dass so ein Algorithmus unsere AI-Probleme nicht löst?
Nehmen wir mal an, meine Skepsis ist ein schlimmer Fall vom Dunning-Kruger-Effekt (schließlich habe ich ja schon zugegeben, dass ich es im Detail nicht verstanden habe) und SynthID funktioniert. Wofür würde man Wasserzeichen zur AI-Erkennung einsetzen?
Ich sehe zwei grundlegende Probleme die man versucht zu zu lösen:
1. Schummeln bei Prüfungen mit AI erkennen
Lehrer wollen sicherstellen, dass Schüler nicht mit AI ihre Hausaufgaben schreiben (oder analoge prüfungsähnliche Situationen, wo man mit AI schummeln könnte).
Da wird SynthID aus meiner Sicht nicht helfen. Bei den meisten Dingen, die überprüft werden, kommt es auf fachliche Korrektheit an. Da ist der Algorithmus weniger zuverlässig. Und wie hoch darf die Fehlerquote sein?
Wie viele Schüler, die nicht mit AI geschummelt haben, lassen wir durchfallen, weil der Algorithmus daneben lag und Handarbeit zu AI-Ergebnissen erklärt hat?
In der Schule mag das ja noch verkraftbar sein, aber für Abschlussarbeiten an Unis? Doktorarbeit? Da wäre jeder Fehler fatal für ein ganzes Leben.
Ich denke, wir müssen damit leben, dass AI existiert, und das Prüfungsdesign muss sich anpassen. Viel Text zu verlangen, den ein Prüfer dann auch gewissenhaft durcharbeiten muss, ist keine Zukunftsfähige Prüfung mehr, wenn das Produzieren von Text um Größenordnungen schneller geht als das Lesen.
Aufsätze als Hausaufgaben sind nicht mehr Zeitgemäß, und wenn ein Student so gute Prompts schreibt, dass er eine fachlich korrekte Abschlussarbeit aus dem LLM quetscht, ohne das dem Prof LLM-Halluzinationen auffallen, dann kann man davon ausgehen, dass der Student das Thema seiner Arbeit verstanden hat (oder der Prüfer nicht sauber prüft war, aber das wäre auch ohne AI ein Problem).
2. Fake News, Trolle und Spam erkennen
Trolle, die das Internet mit Unwahrheiten und Hetze überschwemmen, sind durch AI-Texte ein größeres Problem als je zuvor. Aber wer die Ressourcen hat, das Internet mit AI zu trollen, der hat auch die Ressourcen, sein eigenes LLM zu erstellen, ohne Wasserzeichen.
Davon, dass "die Guten" ihre AI-Inhalte mit Wasserzeichen versehen, wird das Problem schlicht nicht gelöst.
Selbst wenn Wasserzeichen so in der Technologie verankert werden, dass böse Menschen sich nicht mehr einfach ein SynthID-freies LLM bauen können, wird es Gegenmaßnahmen geben und im Zweifel zu einem algorithmisches Wettrüsten kommen, wo diejenigen, die kriminelle Energie haben auch die Initiative haben und diejenigen, die Fake Inhalte enttarnen, strukturell immer in der Defensive sind.
AI-Wasserzeichen sind daher aus meiner Sicht Rohrkrepierer, egal ob sie funktionieren oder nicht.
Warum macht sich Google dann die Mühe?
Ich glaube Google will uns vormachen, dass sie die gesellschaftlichen Probleme, die AI aufwirft, auch mit AI wieder lösen können.
Das ganze ist aus meiner Sicht eine Nebelkerze, die beruhigen soll, und Googles AI-Kompetenz darstellen/simulieren soll. Schön... wir brauchen aber keine Nebelkerze, keinen Zauberstab, der AI-Probleme wegwischt.
Die Büchse der Pandora steht sperrangelweit offen und mit irgendwelchen Wasserzeichen kriegen wir sie nicht wieder zu. Stattdessen müssen wir uns Gedanken machen, welche Auswirkungen AI konkret hat, und echte Strategien entwickeln, wie wir negative Effekte ausgleichen.