Ein Modell allein ist ein Risikoträger, kein Kontrollinstrument
Faktisch jede komplexe Aufgabe, die ich bisher einem KI-Modell gegeben habe, hat Mängel enthalten, in der überwiegenden Mehrheit substanzielle. Ich weiß das, weil ich das Ergebnis jeweils von einem zweiten Modell prüfen lasse.
Das ist gegenwärtig noch ein strukturelles Problem. Aktuelle Studien zeigen: Frontier-Modelle stimmen der Annahme ihres Nutzers in 50–70% der Fälle zu, unabhängig davon, ob sie stimmt. Selbstsichere Sprache der KI ist kein verlässliches Qualitätssignal.
Für Wissensarbeit, an der Geld oder Reputation hängt: Ein Modell allein ist ein Risikoträger, kein Kontrollinstrument.
Deshalb: unabhängige Gegenprüfung durch eine andere KI. Bei mir konkret:
Phase 1: Planung. Claude entwirft den Plan. Codex (ChatGPT) prüft den Plan auf Schwachstellen und Logiklücken. (Expertentipp: Codex lässt sich direkt in Claude Code einbinden.)
Phase 2: Execution. Nach Planfreigabe übernimmt Codex die Ausführung, weil Codex deutlich weniger Token verbraucht. Claude prüft das Ergebnis auf Abweichungen und Vollständigkeit.
Wer bei Wissensarbeit mit Geld- oder Reputationsfolgen ein einzelnes Modell blind übernimmt, baut eine Sollbruchstelle ein, die er nicht sieht. Zwei Subscriptions sind die Minimum-Absicherung dagegen.