SOOHAK + Use-Case-Filter: Wann ist KI reif?

Wie reif ist ein KI-Modell für offene Wissensarbeit? Ein guter Test: Wie oft erkennt es, dass eine Aufgabe gar nicht lösbar ist? Kein getestetes Frontier-Modell schafft 50%.

SOOHAK hat 64 Mathematiker 99 absichtlich unlösbare Aufgaben bauen lassen. Qwen3 verweigert in weniger als 3% der Fälle, Gemini 3 Pro hält mit knapp der Hälfte den Bestwert. Terence Tao prüfte parallel offene Erdős-Probleme und sah Frontier-Modelle in 1 bis 2% der Fälle Erfolg haben. Caveat zur Studie: getestet wurde Opus 4.5, nicht 4.7. Die neueste Generation würde besser abschneiden, aber das Grundmuster verschiebt sich nicht.

Ich habe es schon mehrfach artikuliert, aber die neueste Studie bestätigt diese notwendige realistische Einschätzung erneut. Wo man das Ergebnis schnell verifizieren kann (Code kompiliert und kann getestet werden, Tabelle stimmt, Formel rechnet richtig), funktioniert KI, meist deutlich besser als ein Mensch im gleichen Zeitfenster. Da ist KI eine echte Super-Power. Wo das Ergebnis offen ist (Markt-Analyse, Risikoeinschätzung, strategische Empfehlung, Projektmanagement), finde ich in der überwiegenden Mehrheit der KI-Antworten weiterhin substanzielle Mängel.

Bei offener Wissensarbeit braucht es Stand heute aus meiner Sicht die realistische Einschätzung, dass aktuelle KI-Modelle hier schlichtweg noch nicht so weit sind, um wirklich belastbare Ergebnisse zu produzieren. Wer KI in solchen Bereichen produktiv nutzen will, muss die menschliche Validierung als Pflichtteil mitplanen oder den Use Case überhaupt zurückstellen, weil die selbstbewusst formulierten falschen Antworten der KI zu riskanten Fehlern in Prozessen führen können.

Wir sind nicht dort, wo manche Schlagzeilen suggerieren. Wir sind in einer Phase, in der repetitive Aufgaben mit klarer Ergebnisüberprüfung das eigentliche, sehr große Potenzial sind, während viele andere Bereiche entweder noch gar nicht funktionieren oder zu komplett falschen Ergebnissen führen. Wer mehr erwartet und KI zu rasch in solchen Bereichen einführt, kann sehr teure Fehler produzieren.

Hintergrund: https://the-decoder.com/new-math-benchmark-reveals-ai-models-confidently-solve-problems-that-have-no-solution/