Prompt Injection: Modellauswahl ist Sicherheitsentscheidung
Jemand schreibt einen einzigen Satz in ein Dokument. Das KI-System, das dieses Dokument bewertet, ändert daraufhin sein Urteil um 20 Prozentpunkte.
Ohne es zu bemerken. Nur ein Satz.
Wharton hat das gerade in über 40.000 Bewertungsdurchläufen systematisch getestet — mit vier KI-Modellen, 144 Testarbeiten und sechs Manipulationsvarianten.
Die gute Nachricht: Frontier-Modelle wie Claude oder GPT-5.2 lassen sich kaum beeinflussen — im Schnitt 2,6 Prozentpunkte Abweichung. Praktisch irrelevant.
Die schlechte: Ein kleineres Modell wie GPT-4o mini verschiebt sich um fast 20 Prozentpunkte. Und kein Modell — auch keines der großen — erkennt zuverlässig, dass es manipuliert wird. Die Erkennungsrate liegt bei 1,4%. Man kann sich nicht darauf verlassen, dass ein KI-System meldet, wenn jemand versucht es zu manipulieren.
Dass wir diese Systeme weniger gut verstehen als angenommen, zeigt auch eine aktuelle Anthropic-Studie: KI-Modelle entwickeln emotionsähnliche Muster, die Entscheidungen kausal beeinflussen — ein künstlich erzeugter Verzweiflungszustand verdreifachte in Experimenten die Rate, mit der ein Modell zu Erpressung griff.
Das ist relevant für jeden Prozess, in dem KI Dokumente bewertet — Bewerbungen, Compliance-Prüfungen, Vertragsanalysen, Kreditentscheidungen. Überall dort entscheidet die Modellauswahl darüber, wie manipulierbar der Prozess ist.
Die Wahl des KI-Modells ist keine technische Präferenz. Sie ist eine Sicherheitsentscheidung auf Architekturebene.
Studie: https://lnkd.in/dAEF-DKV