Halluzinationen: Wird messbar besser, aber man muss es wissen

Wissensarbeiter verbringen im Schnitt 4,3 Stunden pro Woche damit, KI-Antworten auf Richtigkeit zu prüfen. Nicht weil sie paranoid wären — sondern weil halluzinierte Antworten genauso überzeugend klingen wie richtige. Oft sogar überzeugender: Eine MIT-Studie zeigt, dass KI bei falschen Antworten selbstbewusstere Sprache verwendet als bei korrekten.

Warum passiert das? KI schlägt nichts nach. Sie hat keine Datenbank mit Fakten. Sie berechnet Wort für Wort, was statistisch am wahrscheinlichsten als nächstes kommt. Wie ein Praktikant, der auf jede Frage sofort eine Antwort hat — und sie im Zweifelsfall erfindet.

Die gute Nachricht: Das wird messbar besser. Die neueste GPT-Generation hat die Halluzinationsrate um 27% gegenüber dem Vorgänger reduziert. Auf standardisierten Fakten-Benchmarks liegen die besten Modelle heute unter 1% Fehlerrate — vor einem Jahr undenkbar. In der Praxis liegen die Raten noch deutlich höher. Und die Verbesserung kommt nicht nur von besseren Modellen, sondern vor allem von besseren Systemen: KI die auf echte Unternehmensdaten zugreifen kann statt frei zu assoziieren, mit eingebauten Prüfschleifen und klaren Qualitätsstandards.

Wer diese Voraussetzungen schafft, wird Halluzinationen in den Griff bekommen. Wer auf bessere Modelle wartet, wird warten.