KI-Radar — 6. März 2026
KI-generiert aus der täglichen Marktbeobachtung. Redaktionell kuratiert, aber nicht Satz-für-Satz lektoriert — zur Orientierung gedacht, nicht als zitierfähige Quelle.
GPT-5.4 hebt die Frontier-Messlatte messbar, Anthropic bucht Enterprise-ARR von 19 Mrd. USD — und Claude wird zum unangekündigten Subprocessor in Microsoft 365 Copilot.
GPT-5.4 setzt neue Benchmark-Messlatte bei gleichzeitig fallenden Halluzinationen
GPT-5.4 erreicht 83,0% GDPval, 83,3% ARC-AGI-2 und 75,0% OSWorld — letzteres oberhalb des menschlichen Referenzwerts von 72,4%. Die Halluzinationsrate sinkt laut OpenAI um 33% pro Claim und 18% pro Antwort gegenüber GPT-5.2. Für C-Level heißt das: Evaluierungen, die auf älteren Modellständen beruhen, sind nach drei bis sechs Monaten belegbar überholt — Modell-Refresh-Zyklen gehören in die Governance.
Claude ist Subprocessor in M365 Copilot — außerhalb der EU Data Boundary
Anthropic Claude wird seit Anfang 2026 im Hintergrund von Microsoft 365 Copilot eingesetzt, die EU Data Boundary gilt für diese Verarbeitung nicht. DSGVO-Konsequenz: Datenschutzfolgenabschätzung und Drittlandstransfer-Bewertung müssen aktualisiert werden — ohne direkte Vertragsbeziehung zu Anthropic. Wer Copilot produktiv einsetzt, sollte die Subprocessor-Liste binnen 30 Tagen prüfen lassen.
Anthropic bei 19 Mrd. USD ARR, 80% aus Enterprise
Die Run-Rate ist innerhalb weniger Wochen von 14 auf 19 Mrd. USD gestiegen, 80% kommen aus Enterprise-Geschäft. Parallel wird Claude nach der Pentagon-Debatte Platz 1 im Apple App Store. Die Verteilung „Frontier-Anbieter gleich Consumer-Marke" erodiert — Entscheidungen über Vendor-Diversifikation gehören jetzt auf die Board-Agenda, nicht nur in die Einkaufsabteilung.
Alibabas Qwen-Team verliert seinen Chef samt Kernteam
Junyang Lin, leitender Qwen-Entwickler, hat Alibaba verlassen und Teile des Kernteams mitgenommen. Alibaba reagiert mit einer neu gegründeten „Foundation Model Task Force". Für Unternehmen, die chinesische Open-Weight-Modelle in ihrer Roadmap haben, wird damit ein Schlüsselrisiko sichtbar: Die Modellfamilien hängen an wenigen Personen, nicht an Institutionen.
OpenAI-Commerce scheitert — Pivot auf App-Partner
ChatGPT Commerce hat nach einem Jahr nur rund 12 Retailer angebunden; Nutzer recherchieren dort, kaufen aber nicht. OpenAI dreht auf App-Partner (Instacart, Target, Expedia, Booking.com). Signal für Retail-CEOs: Discovery via LLM ist real, der Checkout bleibt beim Händler — Investitionen in AI-Discovery-Anbindung lohnen sich, eigene Commerce-Verticals auf Chatbot-Basis eher nicht.
OpenAI-Paper identifiziert 7 Ursachen für Halluzinationen
Ein neues OpenAI-Forschungspapier klassifiziert Halluzinationen in sieben Kategorien: Training-Supervision Gaps, Decoding Shortcuts, Knowledge Gaps, Reasoning Failures, Prompt-induced, Outdated Knowledge und Sycophancy. Yann LeCun ergänzt den strukturellen Punkt: Autoregressive Modelle divergieren bei langen Sequenzen zwangsläufig. Governance-Implikation: „Hallucination Rate" ist keine Einzelzahl, sondern ein mehrdimensionales Risikoprofil, das je nach Use-Case unterschiedlich relevant ist.