Phare-Benchmark enthüllt: Führende KI-Modelle liefern in 30% der Fälle falsche Informationen

Good answers are not necessarily factual answers - an analysis of hallucination in leading LLMs

Die neueste Studie von Giskard in Zusammenarbeit mit Google DeepMind zeigt, dass führende Sprachmodelle wie GPT-4, Claude und Llama in bis zu 30% der Fälle Fakten erfinden, die überzeugend klingen, aber nicht der Wahrheit entsprechen. Diese KI-Halluzinationen stellen ein wachsendes Risiko für Unternehmen und Endnutzer dar, insbesondere wenn die Modelle zu kurzen, prägnanten Antworten angewiesen werden.

Weiterlesen