Agents raten lieber als zu fragen — ProactiveBench + Frontier-Differenzierung

Ihr KI-Agent liefert lieber ein falsches Ergebnis als zuzugeben, dass ihm Daten fehlen. Für die meisten Modelle in freier Wildbahn stimmt das — auch wenn sich das Bild an der Spitze gerade verschiebt.

ProactiveBench hat 22 multimodale Modelle systematisch getestet. Bei vollständigem Kontext liegen die besten Modelle bei rund 80% Trefferquote. Sobald relevante Information fehlt, bricht dieses Bild: Die Modelle fragen in der Regel nicht nach — sie raten weiter. Kein Modellfehler im engeren Sinn, sondern ein Trainings-Artefakt. Antworten wird belohnt, "Ich weiß es nicht" nicht.

An der Frontier-Spitze adressieren das inzwischen alle großen Labs, aber unterschiedlich:

Gemini 3 hat dafür ein explizites Werkzeug (ask_user), Googles Agent-Leitfaden schreibt vor: bei fehlenden Informationen nachfragen, nicht raten. Claude Opus 4.6 und 4.7 fragt bei unterspezifizierten Aufgaben als Default-Verhalten nach und nennt Annahmen explizit. GPT-5.4 kann bis zu drei Klärungsfragen stellen. OpenAIs eigene Agent-Guidance empfiehlt allerdings oft das Gegenteil: nicht unterbrechen, nicht zurückfragen, eigenständig weitermachen.

Wer einen Agent in verifikationskritische Prozesse einbaut und denselben Prompt-Rahmen verwendet, den der Vendor für "produktive Assistenten" empfiehlt, bekommt möglicherweise genau das Verhalten, das bei Compliance-Prüfungen oder Financial Workflows nicht tragbar ist.

Vor jedem Agent-Rollout lohnt deshalb ein Blick in die Default-Prompts des Vendors. Dort steht, ob der Agent bei fehlenden Daten nachfragt oder ob er eigenständig weitermacht.

Hintergrund: https://openreview.net/forum?id=e5a1ZlVcjN