18.05.2026 KI-Radar

KI-Radar — 18. Mai 2026

KI-generiert aus der täglichen Marktbeobachtung. Redaktionell kuratiert, aber nicht Satz-für-Satz lektoriert — zur Orientierung gedacht, nicht als zitierfähige Quelle.

Frontier-Modelle scheitern messbar an unlösbaren Aufgaben, Mistral-CEO Mensch macht EU-Souveränität bei sicherheitskritischem Code explizit, Eval Engineering zieht mit Ciscos Galileo-Akquisition in die Sicherheitsinfrastruktur ein — und Robotik-KI erschließt erstmals ungelabelte Alltagsvideos als Trainingsquelle.

Kein Frontier-Modell erkennt unlösbare Probleme verlässlich

Das SOOHAK-Benchmark-Konsortium (64 Mathematiker, CMU, EleutherAI, Seoul National University) veröffentlicht 439 handgeschriebene Tasks, davon 99 absichtlich unlösbar. Kein Frontier-Modell überschreitet 50% beim Erkennen dieser nicht-lösbaren Aufgaben; Qwen3 bleibt unter 3%, Gemini 3 Pro führt auf der Lösungsseite mit 30%, Claude Opus 4.5 bei 10%. Mehr Compute verbessert die Lösungsrate linear, die Verweigerungsfähigkeit steigt nicht mit — wer KI in Compliance-Prüfung, Risikoanalyse oder rechtliche Einschätzung einbettet, braucht den Refusal-Benchmark als eigenständige Qualitätsdimension neben Leistungstests auf Standarddatensätzen.

EU-Abhängigkeit von US-Modellen bei sicherheitskritischem Code ist kaum reversibel

Mistral-CEO Arthur Mensch warnt, dass Frankreichs Militär-Code-Bases durch US-Modelle gescannt werden und die entstehende Abhängigkeit kaum reversibel sei. Die EU verhandelt parallel Frühzugang zu Cybersecurity-Modellen von OpenAI und Anthropic; Anthropic zögert. Organisationen mit Verteidigungsberührung, kritischer Infrastruktur oder hoher Regulierungslast brauchen eine Klassifikation, welcher Code welchem Modell unter welchen vertraglichen Bedingungen zugänglich gemacht werden darf.

Eval Engineering verlässt die Start-up-Phase

Cisco akquiriert Galileo AI und integriert es in die Splunk-Organisation; Galileos ChainPoll-Methode mit dem Evaluationsmodell Luna ermöglicht 100%-Sampling in Produktion ohne Performance-Einbußen. Asynchrone Sampling-Ansätze weiterer Anbieter (Maxim AI, Arize AI, Confident AI) lösen das Kostenproblem klassischer LLM-as-judge-Architekturen. Die Vendor-Konsolidierung unter Enterprise-Sicherheitsanbietern vereinfacht das Sourcing, erhöht aber den Vendor-Lock-in-Pfad; Governance-Architektur für agentic Workflows muss vor dem Rollout stehen, nicht danach.

Robotik-KI lernt aus ungelabelten Alltagsvideos

Ein Survey-Paper (Wang et al., Peking University, ca. 100 Studien) systematisiert World Action Models: Diese Modellklasse lernt aus Egocentric-Videos wie Ego4D und erschließt Datenmaterial, das für klassische Robotik-KI bisher unbrauchbar war. Nvidia Cosmos Policy und Meta V-JEPA 2 gelten als führende Ansätze; DreamZero schafft derzeit rund 7 Vorhersagen pro Sekunde, traditionelle Robot-Controller 50. Die Compute-Lücke ist noch offen, erste Piloten in Logistics und Manufacturing werden für 2026/27 erwartet.

#Governance #Evaluation #Souveränität #Robotik #Compliance

← Alle Radar-Einträge · Beobachtungen