06.03.2026 KI-Radar

KI-Radar — 6. März 2026

KI-generiert aus der täglichen Marktbeobachtung. Redaktionell kuratiert, aber nicht Satz-für-Satz lektoriert — zur Orientierung gedacht, nicht als zitierfähige Quelle.

GPT-5.4 hebt die Frontier-Messlatte messbar, Anthropic bucht Enterprise-ARR von 19 Mrd. USD — und Claude wird zum unangekündigten Subprocessor in Microsoft 365 Copilot.

GPT-5.4 setzt neue Benchmark-Messlatte bei gleichzeitig fallenden Halluzinationen

GPT-5.4 erreicht 83,0% GDPval, 83,3% ARC-AGI-2 und 75,0% OSWorld — letzteres oberhalb des menschlichen Referenzwerts von 72,4%. Die Halluzinationsrate sinkt laut OpenAI um 33% pro Claim und 18% pro Antwort gegenüber GPT-5.2. Evaluierungen auf älteren Modellständen sind nach drei bis sechs Monaten belegbar überholt — Modell-Refresh-Zyklen gehören in die Governance.

Claude ist Subprocessor in M365 Copilot — außerhalb der EU Data Boundary

Anthropic Claude wird seit Anfang 2026 im Hintergrund von Microsoft 365 Copilot eingesetzt, die EU Data Boundary gilt für diese Verarbeitung nicht. DSGVO-Konsequenz: Datenschutzfolgenabschätzung und Drittlandstransfer-Bewertung müssen aktualisiert werden — ohne direkte Vertragsbeziehung zu Anthropic. Wer Copilot produktiv einsetzt, sollte die Subprocessor-Liste binnen 30 Tagen prüfen lassen.

Anthropic bei 19 Mrd. USD ARR, 80% aus Enterprise

Die Run-Rate ist innerhalb weniger Wochen von 14 auf 19 Mrd. USD gestiegen, 80% kommen aus Enterprise-Geschäft. Parallel wird Claude nach der Pentagon-Debatte Platz 1 im Apple App Store. Die Verteilung „Frontier-Anbieter gleich Consumer-Marke“ erodiert — Entscheidungen über Vendor-Diversifikation gehören jetzt auf die Board-Agenda, nicht nur in die Einkaufsabteilung.

Alibabas Qwen-Team verliert seinen Chef samt Kernteam

Junyang Lin, leitender Qwen-Entwickler, hat Alibaba verlassen und Teile des Kernteams mitgenommen. Alibaba reagiert mit einer neu gegründeten „Foundation Model Task Force“. Das Schlüsselrisiko chinesischer Open-Weight-Modelle wird damit sichtbar: Die Modellfamilien hängen an wenigen Personen, nicht an Institutionen — Roadmap-Abhängigkeiten müssen das einkalkulieren.

OpenAI-Commerce scheitert — Pivot auf App-Partner

ChatGPT Commerce hat nach einem Jahr nur rund 12 Retailer angebunden; Nutzer recherchieren dort, kaufen aber nicht. OpenAI dreht auf App-Partner (Instacart, Target, Expedia, Booking.com). Signal für Retail-CEOs: Discovery via LLM ist real, der Checkout bleibt beim Händler — Investitionen in AI-Discovery-Anbindung lohnen sich, eigene Commerce-Verticals auf Chatbot-Basis eher nicht.

OpenAI-Paper identifiziert 7 Ursachen für Halluzinationen

Ein neues OpenAI-Forschungspapier klassifiziert Halluzinationen in sieben Kategorien: Training-Supervision Gaps, Decoding Shortcuts, Knowledge Gaps, Reasoning Failures, Prompt-induced, Outdated Knowledge und Sycophancy. Yann LeCun ergänzt den strukturellen Punkt: Autoregressive Modelle divergieren bei langen Sequenzen zwangsläufig. Governance-Implikation: „Hallucination Rate“ ist keine Einzelzahl, sondern ein mehrdimensionales Risikoprofil, das je nach Use-Case unterschiedlich relevant ist.

#Governance #Vendor-Landschaft #Halluzinationen #Microsoft #DSGVO

← Alle Radar-Einträge · Beobachtungen