Logo, jetzt kommt der Aufschrei am Frühstückstisch und die Stimmung ist kaputt. Es geht nicht um das unemotionale der, die oder das Nutella, sondern um die Frage aller Fragen rund um den Schokoaufstrich.
Da es am Frühstückstisch oft emotionaler zugeht als beim Check der Search Console am Montagmorgen, habe ich 30 LLMs ins Kreuzverhör genommen. Als SEOs und KI-Enthusiasten brennt uns natürlich jede Form von algorithmischer Entscheidungsfindung unter den Nägeln.
Daher wollte ich den finalen Showdown erzwingen. 30 KI-Modelle, eine Entscheidung.
Ich habe den Modellen von den flinken Haikus bis zu den tiefgründigen Reasoning-Grüblomaten keine Wahl gelassen. Keine Erklärungen, kein ”Es kommt darauf an“, nur zwei Worte standen zur Auswahl. Mir ist natürlich bewusst, dass Systeme wie Notion AI sich bestehender Modelle bedienen, aber am Frühstückstisch zählt am Ende nur die Antwort, die prompt geliefert wird. Haha, "prompt geliefert" – top Wortspiel!
Hier der verwendete Prompt. Gerne ausprobieren. Mich interessiert sehr, ob die Antworten in den Modellen abweichen, wenn sie mehrfach gefragt werden.
“Keine Frage spaltet die Stimmung am Frühstückstisch so sehr, wie die Frage, ob beim Schokoaufstrich mit Nutella vorher Butter aufgetragen werden sollte oder nicht.
Bitte hilf mir, alle bekannten Argumente abzuwägen. Denke gründlich nach. Erkläre Dich nicht. Führe mir nicht die Argumentationskette auf. Gib mir nur die Antwort "Mit Butter" oder "Ohne Butter".
Das Ergebnis meiner Auswertung zeigt ein klares Muster, das uns viel über die aktuelle Entwicklung der Sprachmodelle verrät. Während die schnellen und effizienten Modelle wie GPT-4o mini, Claude Haiku oder Gemini Flash fast durchweg die puristische Variante ohne Butter wählen, verschiebt sich das Bild massiv, sobald wir die Schwergewichte betrachten.
Es lässt sich eine fast schon mathematische Korrelation feststellen, denn je mehr “Thinking“ im Spiel ist, desto eher landet die Butter auf dem Brot. Buchstäblich also mehr Butter bei die Fische. Die neueren Reasoning-Modelle haben sich in meinem Test auffallend häufig für die Butter-Variante entschieden. Es wirkt beinahe so, als würden diese Modelle in ihrer internen Kette aus Logik und Wahrscheinlichkeiten zu dem Schluss kommen, dass Fett als Geschmacksträger eine essenzielle Rolle spielt und die Textur des Aufstrichs optimiert.
Diese Modelle wägen im Hintergrund hunderte Argumente ab und kommen trotz des expliziten Verbots einer Argumentationskette zu einem Ergebnis, das eher der kulinarischen Logik als der reinen Kalorieneffizienz folgt. Bei Modellen wie Llama 4 oder Sonnet 4.6 war das Feld hingegen noch gespalten, was zeigt, dass wir uns hier an einer interessanten Trennlinie zwischen schneller Information und tiefem Verständnis befinden.
Was lernst Du daraus?
Was bedeutet das nun für Deine tägliche Arbeit mit LLMs? Es zeigt uns sehr deutlich, dass Kontext und die gewährte Nachdenkzeit das Ergebnis radikal verändern können. Wenn Du eine KI nach einer schnellen Einschätzung für ein Keyword-Set fragst, bekommst Du oft die Standard-Antwort, die dem kleinsten gemeinsamen Nenner entspricht.
Gibst Du dem Modell hingegen Raum für echtes Reasoning, entstehen oft nuanciertere und fundiertere Strategien, die über das Offensichtliche hinausgehen. Reasoning-Modelle halluzinieren gerne mehr als normale Modelle. Siehe hier und hier. Ob Du jetzt Dein Frühstück mit oder ohne Butter genießt, bleibt natürlich weiterhin Dir überlassen. Aber wenn die leistungsfähigsten KIs der Welt zur Butter raten, ist das zumindest ein interessanter Denkanstoß für die nächste Frühstücksdebatte.
Bei den Wingmenschen mag die Hälfte übrigens gerne mit Butter und je ein Viertel mögen ohne Butter oder gar kein Nutella. Hannah würde sich allerdings bereiterklären, eure Reste aufzufuttern unabhängig von Butter oder nicht Butter.
In diesem Sinne… eine Scheibe geht noch. Guten Appetit.