Die neuesten KI-Modelle o3 und o4-mini von OpenAI zeigen beeindruckende Fortschritte im logischen Denken, leiden jedoch unter einem überraschenden Problem: Sie halluzinieren deutlich häufiger als ihre Vorgänger.
In der Welt der künstlichen Intelligenz war der Trend bisher klar: Neuere Modelle halluzinieren weniger, liefern also weniger falsche Informationen als ältere Versionen. Doch OpenAI's neueste Reasoning-Modelle durchbrechen diesen Trend auf unerwartete Weise. Die speziell für komplexe Denk- und Problemlösungsaufgaben entwickelten Modelle o3 und o4-mini übertreffen ihre Vorgänger zwar deutlich in Bereichen wie Programmierung und Mathematik, zeigen aber gleichzeitig eine besorgniserregende Zunahme bei der Halluzinationsrate.
Interne Bewertungen belegen, dass o3 bei 33% der Antworten im PersonQA-Benchmark falsche Informationen generiert, während o4-mini sogar in 48% der Fälle halluziniert. Im Vergleich dazu liegt die Halluzinationsrate bei GPT-4o bei nur 12%. Diese Entwicklung steht im Widerspruch zur allgemeinen Branchenentwicklung, wo führende Modelle wie Google's Gemini-2.0-Flash-001 Halluzinationsraten von nur 0,7% erreichen.
Ursachen für das Halluzinationsproblem
Das Phänomen lässt sich auf mehrere technische Faktoren zurückführen. Die Reinforcement-Learning-Methoden, die bei o3 und o4-mini eingesetzt werden, belohnen logische Kohärenz stärker als faktische Genauigkeit. Dies führt dazu, dass die Modelle plausibel klingende, aber nicht faktenbasierte Erklärungen liefern. Zudem konzentrieren sich diese Reasoning-Modelle stärker auf Mustererkennung in strukturierten Problemen als auf die breite Datenaufnahme, was zu Lücken im Allgemeinwissen führt.
Besonders problematisch: Die Modelle zeigen oft eine hohe Selbstsicherheit beim Präsentieren falscher Informationen. In einigen Fällen erfinden sie detaillierte, aber völlig fiktive Biographien historischer Persönlichkeiten oder schlagen in medizinischen Anwendungen plausibel erscheinende, aber potenziell gefährliche Medikamentenkombinationen vor.
Werbung
E-Book: ChatGPT für Job & Alltag – Dein praktischer Einstieg
Unser neues E-Book bietet eine leicht verständliche und strukturierte Einführung in die Nutzung von ChatGPT – sowohl im Beruf als auch im Privatleben.
- ✔ Mit zahlreichen Beispielen und direkt anwendbaren Prompts
- ✔ 8 spannende Anwendungsfälle, darunter als Übersetzer, Lernassistent oder Finanzrechner
- ✔ Kompakt auf 40 Seiten, klar und auf das Wesentliche fokussiert
Branchenweite Lösungsansätze
Verschiedene Unternehmen verfolgen unterschiedliche Strategien, um das Halluzinationsproblem zu bewältigen. Google's Gemini-2.0 kombiniert Retrieval-Augmented Generation (RAG) mit Echtzeit-Faktenprüfung, während Anthropic's Constitutional AI ethische Richtlinien direkt in den Denkprozess einbettet und dadurch schädliche Halluzinationen um 58% reduziert – allerdings auf Kosten analytischer Flexibilität.
Zu den vielversprechendsten Lösungsansätzen gehören Multi-Agenten-Systeme, bei denen spezialisierte "Kritiker"-Modelle die Gedankenkette analysieren, bevor eine endgültige Ausgabe erfolgt. Ebenso interessant sind dynamische Konfidenzwerte, bei denen die Modelle die Sicherheit jeder Behauptung automatisch einschätzen und bei unsicheren Aussagen entsprechende Hinweise anfügen.
Die Situation von OpenAI verkörpert ein grundlegendes Dilemma der KI-Entwicklung: Systeme werden leistungsfähiger, während ihre Fehler subtiler und folgenschwerer werden. Die Lösung des Halluzinationsparadoxons könnte eine Neuausrichtung der grundlegenden Ziele maschinellen Denkens erfordern – nicht nur, zu welchen Schlussfolgerungen Modelle kommen können, sondern wie sie in einer unsicheren Welt zu Schlussfolgerungen gelangen sollten.
Werbung
Zusammenfassung
- OpenAI's neue Reasoning-Modelle o3 und o4-mini zeigen deutlich höhere Halluzinationsraten (33% bzw. 48%) als ältere Modelle (GPT-4o: 12%)
- Die Modelle bieten gleichzeitig deutlich verbesserte Problemlösungsfähigkeiten in Bereichen wie Programmierung und Mathematik
- Das Phänomen steht im Widerspruch zum Branchentrend sinkender Halluzinationsraten
- Ursachen sind unter anderem Reinforcement-Learning-Methoden, die logische Kohärenz gegenüber faktischer Genauigkeit bevorzugen
- Multi-Agenten-Systeme und dynamische Konfidenzwerte gelten als vielversprechende Lösungsansätze für das Problem
Quelle: TechChrunch

Florian Schröder ist Experte im Online-Marketing mit Schwerpunkt PPC (Pay-Per-Click) Kampagnen. Die revolutionären Möglichkeiten der KI erkennt er nicht nur, sondern hat sie bereits fest in seine tägliche Arbeit integriert, um innovative und effektive Marketingstrategien zu entwickeln.
Er ist überzeugt davon, dass die Zukunft des Marketings untrennbar mit der Weiterentwicklung und Nutzung von künstlicher Intelligenz verbunden ist und setzt sich dafür ein, stets am Puls dieser technologischen Entwicklungen zu bleiben.