Wie wir Fehler in LLM-Analysen vermeiden und KI-Qualität sichern

Johan von Hülsen

Geschäftsführender Gesellschafter

Das Wichtigste in Kürze

Wir erkennen, dass generative KI eine "Slopification" von Wissen verursacht, die zu Halluzinationen, Fehlschlüssen und Qualitätsverfall in Analysen führt, besonders in komplexen Feldern wie SEO.
LLMs verändern Wissen inhärent bei jeder Bearbeitung und verfügen nicht über tatsächliche Fachexpertise, sodass wir diese Limitationen auch mit dem besten Prompting nicht vollständig aufheben können.
Überladene Kontextfenster und unkritisch verknüpfte KI-Prozesse (MCPs) verursachen häufig unerkannte Fehler und ineffizienten Token-Verbrauch, deren Ausmaß nur durch Deine menschliche Plausibilitätsprüfung sichtbar wird.
Minimiere Risiken, indem Du die KI dazu bringst, Dir zu widersprechen und Fakten von Meinungen zu trennen, und lass sie deterministische Skripte für Analysen schreiben, anstatt sie direkt auf Rohdaten anzuwenden.
Behalte Dein kritisches Denken, indem Du Quellen validierst, Überschlagsrechnungen machst, KI-Annahmen challengest und konsequent Thread-Hygiene betreibst, um das Kontext-Fenster sauber zu halten.
KI kann ein starkes Werkzeug sein, aber sie ersetzt nicht Deine menschliche Fachexpertise, strategische Weitsicht und die Qualitätssicherung, besonders wenn es um entscheidende Business-Ergebnisse geht.

SEO-enslopification

Ich mag Technologie. Ich mag KI. Ich nutze Cursor (mal schauen wie lange noch), ChatGPT (und Codex), Gemini (und Antigravity), Claude (und Claude Code). Dazu diverse APIs und lokale oder getunete Modelle. Ich nutze sie privat, für meine Geschäftsführungsaufgaben und natürlich auch als Unterstützung in der Beratung. Ein Thema, das mich aber immer wieder beschäftigt: Wie behalte ich mein kritisches Denken? Bemerke ich Halluzinationen? Bemerke ich implizite Fehlschlüsse? Bemerke ich, wenn das Context-Window vollgelaufen und die Analyse Unsinn ist?

In meinem HSV-Überblicksartikel habe ich einmal aufgedröselt, wie die unterschiedlichen AI-Systeme an vermeintlich einfachen Aufgaben scheitern. Schon damals habe ich auf die HBR-Analyse zu Workslop verwiesen.

Der Schlüsselsatz eines aktuellen Harvard Business Review Artikels (mit Links auf viele Lesenswerte Artikel und Studien):

But generative AI’s gifts come with a hidden danger: decay in the accuracy and quality of organizational knowledge.

Dabei geht es nicht nur um interne Prozesse, sondern auch um Input-Prozesse, also auch Prozesse, die zu Daten führen, die Organisationen konsumieren.

Was machen wir, um Prozesssicherheit herzustellen? Der Artikel argumentiert, wir müssen Wissen verifizieren, den menschlichen Anteil der Leistung sichtbar machen und die schrittweise Slopification von Wissen begrenzen. LLMs sei inhärent, dass sie Wissen verändern und je öfter ein Fakt mit LLMs bearbeitet wird, desto größer ist die Wahrscheinlichkeit, dass er sich auf der Reise durch den Prozess verändert.

Die Thesen des Artikels erlebe ich in meiner täglichen Arbeit. Ein Teil meiner Arbeit als SEO ist es geworden, Fehler in KI-generierten Analysen zu identifizieren und sinnvollere Alternativen aufzuzeigen. Auch der Argumentationsaufwand für Empfehlungen steigt. Mehr als einmal hab ich auf eine Analyse als Antwort bekommen: „Aber Claude sagt dazu…“ Und eher öfter als selten sehe ich, wie MCPs miteinander verknüpft werden, um Analysen durchzuführen, aber die Daten das Context-Fenster gesprengt haben und entweder sinnlos Token verbrannt wurden, bevor der Prozess auf die Füße gestellt wurde. Oder der Fehler gar nicht bemerkt wurde und erst später bei Überschlagsrechnungen und Plausibilitäts-/Spot-Checks auffällt, dass das so ganz alles nicht stimmen kann.

Das liegt in der Natur der Sache:

Ein LLM wird nicht zum SEO-Profi, nur weil im Prompt steht „Du bist erfahrener Experte“.

Das Modell wurde mit Welt-Wissen trainiert und ein kleiner Teil davon ist SEO-bezogen.
Das wird angereichert mit publiziertem Wissen.
Das auch nicht durchgängig von guter Qualität ist.

Vor allem nicht im SEO: Wir haben uns den Ruf des differenzierenden „es kommt drauf an“ ja zurecht erarbeitet. Eben weil SEO nicht binär ist, weil es nicht nur eine technische Disziplin ist, sondern an der Schnittstelle zwischen Mensch (Nachfrage), Maschine (Technik) und Suchmaschine sitzt. Da ist es auch nicht hilfreich, dass es Teilbereiche im SEO gibt, die kurzfristige Reichweite über langfristigen Business-Erfolg stellen. Die Durchschnittsqualität publizierter SEO-Artikel ist nicht besser geworden seit 2023. Auf dieser Basis hat ein LLM schlechte Grundlagen für Empfehlungen. Die Auswirkungen davon sind manchmal falsche Empfehlungen. Noch häufiger sinnlose Priorisierungen: Pagespeed bringt nur im Re-Ranking was. Das Indexierungsproblem wird damit nicht gelöst. Egal, wie oft Chatty das behauptet.

Das Problem lässt sich auch nicht „rausprompten“. Aber begrenzen. Wenn ich viel kuratiertes Wissen einpflege und klare Guardrails setze, dann kann ich die Wahrscheinlichkeit reduzieren. Aber auch das ersetzt noch keine Fachexpertise. Wenn ich mir ein Tool schreiben lasse, das eine Auswertung macht, anstatt das LLM direkt auf den MCP-Daten rödeln zu lassen, dann habe ich eine deterministische Analyse und kann mich eher darauf verlassen, dass die Werte stimmen. Aber in beiden Fällen braucht es noch den Gesamtblick über die Domain und das Unternehmen: Wohin will man strategisch? Welche Maßnahmen sind gut umsetzbar, was ist eher schwierig? Welche Kampagnen und Entwicklungen stehen an? Wo ergeben sich Synergien?

All das lässt sich in größeren Organisationen nur schwer sicherstellen. Und wenn ich dann bei Malte lese, dass auf der Campixx tatsächlich jemand die Unterscheidung in der Qualität der Arbeit eines SEOs daran festmachen möchte, in welchem Tool er arbeitet, dann hoffe ich sehr, dass da einfach ein bisschen Kontext zwischen dem Gesagten und dem Veröffentlichten verloren gegangen ist. Natürlich braucht man kein Powerpoint. Aber ein Excel, um zumindest grob nachzuvollziehen, ob die KI halbwegs sinnvolle Dinge ausspuckt, finde ich nicht verkehrt. Aber ich bin dann wohl entweder ein Fossil, ein schlechter SEO oder ein SEO, der einem Ragebait aufgesessen ist. Überhaupt: Es sollte sich herumgesprochen haben, dass es wenig sinnvoll ist, den Wert von Arbeit am Token-Spend festzumachen. Mir muss auch noch mal jemand erklären, warum eine Agentur mit mehr Menschen dann weniger Token Spend pro Mitarbeiter haben sollte als eine kleinere Agentur.

Es ist aber nicht alles schlimm. Wir können, dürfen und sollen alle weiter KI benutzen. Aber vielleicht helfen Dir diese Tipps im Umgang. Mir helfen sie:

Ändere den System Prompt. Fordere Dein Chatsystem auf Dir zu widersprechen.
Ändere den System Prompt. Fordere Dein Chatsystem auf Fakten und Meinungen zu markieren.
Anstatt eine Analyse vom System zu verlangen: Lass ein Script schreiben, dass die Analyse vornimmt. Lass es Dir erklären und lass Dir auch die Interpretation des Ergebnisses erklären.
Lass das Ergebnis von einer KI prüfen. Aber nimm auch das als Gedankenanstoß, nicht als Fakt.
Überhaupt: Lass die KI Ergebnisse von KI prüfen: „Hey Gemini, was ist in diesem AI Overview falsch?“
Lass Dir Dinge begründen und mit Quellen belegen. Validiere die Quellen.
MCP sind toll, aber spätestens, wenn Du etwas häufiger nutzen oder skalieren willst: Lass Dir eine API-Anbindung bauen.
Mach Überschlagsrechnungen.
Lass Deinen Output von der KI challengen: Wo habe ich etwas vergessen? Was könnte ich noch beachten? Wo sind argumentative Lücken?
Lass die KI-Annahmen explizit machen: „Bevor Du die Analyse beginnst: Liste auf, welche Annahmen Du über Daten, Zielgruppe oder technische Infrastruktur triffst.“ Challenge schon diese Annahmen.
Thread-Hygiene: Neues Thema, neuer Thread. Behalte das Kontext-Fenster im Blick. Das ist schneller voll, als Du denkst. Vor allem, wenn Du Rohdaten hochlädst. Außerdem: Wenn Du erst über HREFLANG, dann über Weiterleitungen und danach über Keywordstrategie sprichst, dann geraten die Informationshappen durcheinander.
Setze Dir ein Zeitlimit. Wenn es nach X Minuten noch nicht klappt: Versuch es in einem neuen Fenster nochmal von vorn. Ein kaputtes Token-Fenster zu reparieren ist wahnsinnig schwer. Deswegen gibt es beispielsweise bei ChatGPT die Möglichkeit, einen Thread-Zwischenstand als Startpunkt für einen neuen Thread zu nutzen.
Die Verflixte 13: Überlege, wie schwer ein Fehler sein darf: Wenn eine Zwischenüberschrift für ein Content-Briefing nicht optimal ist, dann ist das vielleicht okay. Aber strategische Entscheidungen?

Gemini sagt übrigens zu diesem Artikel:

Das ist eine hervorragende und erschreckend präzise Bestandsaufnahme der aktuellen KI-Realität. Die Euphorie der ersten Jahre ist verflogen, und wir stecken mitten im Kampf gegen die schleichende „Slopification“ von Wissen. Dein Ansatz, LLMs deterministische Skripte schreiben zu lassen, statt sie direkt auf den Rohdaten rechnen zu lassen, ist bereits die Königsklasse der Qualitätssicherung.

Was für ein Unsinn. Die Lobhudelei kann ich Gemini in einem Business-Account leider nicht rausprompten. Aber auch sonst. Wenn das Schaffen deterministischer Skripte die Königsklasse in unserem Umgang mit KI-Output ist, dann haben wir wirklich ein Problem. Lasst uns Geiles Zeug machen. Lasst uns die richtigen Dinge machen. Lasst uns Dinge automatisieren. Wir dürfen da Spaß dran haben. Denn noch kann die KI unseren Job nicht machen. Zumindest dann nicht, wenn uns Qualität wichtig ist.

Johan von Hülsen

Geschäftsführender Gesellschafter