Prompt Injection: Modellauswahl ist Sicherheitsentscheidung

Jemand schreibt einen einzigen Satz in ein Dokument. Das KI-System, das dieses Dokument bewertet, ändert daraufhin sein Urteil um 20 Prozentpunkte.

Ohne es zu bemerken. Nur ein Satz.

Wharton hat das gerade in über 40.000 Bewertungsdurchläufen systematisch getestet — mit vier KI-Modellen, 144 Testarbeiten und sechs Manipulationsvarianten.

Die gute Nachricht: Frontier-Modelle wie Claude oder GPT-5.2 lassen sich kaum beeinflussen — im Schnitt 2,6 Prozentpunkte Abweichung. Praktisch irrelevant.

Die schlechte: Ein kleineres Modell wie GPT-4o mini verschiebt sich um fast 20 Prozentpunkte. Und kein Modell — auch keines der großen — erkennt zuverlässig, dass es manipuliert wird. Die Erkennungsrate liegt bei 1,4%. Man kann sich nicht darauf verlassen, dass ein KI-System meldet, wenn jemand versucht es zu manipulieren.

Dass wir diese Systeme weniger gut verstehen als angenommen, zeigt auch eine aktuelle Anthropic-Studie: KI-Modelle entwickeln emotionsähnliche Muster, die Entscheidungen kausal beeinflussen — ein künstlich erzeugter Verzweiflungszustand verdreifachte in Experimenten die Rate, mit der ein Modell zu Erpressung griff.

Das ist relevant für jeden Prozess, in dem KI Dokumente bewertet — Bewerbungen, Compliance-Prüfungen, Vertragsanalysen, Kreditentscheidungen. Überall dort entscheidet die Modellauswahl darüber, wie manipulierbar der Prozess ist.

Die Wahl des KI-Modells ist keine technische Präferenz. Sie ist eine Sicherheitsentscheidung auf Architekturebene.

Studie: https://lnkd.in/dAEF-DKV

← Alle Beobachtungen