KI-Radar — 12. April 2026

KI-generiert aus der täglichen Marktbeobachtung. Redaktionell kuratiert, aber nicht Satz-für-Satz lektoriert — zur Orientierung gedacht, nicht als zitierfähige Quelle.

Agent-Benchmarks brechen unter realistischen Bedingungen um über ein Drittel ein, Multi-Agent-Architekturen schlagen Single-Agent bei gleichem Budget nicht — und ein 20-Mio.-USD-Modell aus Open Source erreicht Opus-Niveau auf Agent-Tasks.

Agent-Benchmarks überschätzen die Realität um über ein Drittel

UC Santa Barbara und MIT zeigen: Agent-Skills von Opus fallen unter realistischen Bedingungen von 55,4% auf 38,4% — ein Einbruch um 17 Prozentpunkte gegenüber der Lab-Performance. Wer Agentic-AI-Architekturen heute auf Basis veröffentlichter Benchmarks evaluiert, plant gegen Zahlen, die in der Produktion nicht halten. Hybrid-Retrieval und task-spezifisches Skill-Refinement gehören in jede Architekturentscheidung — generische Skill-Stores sind zu wenig.

Single-Agent schlägt Multi-Agent bei gleichem Compute-Budget

Eine Stanford-Studie widerlegt den Multi-Agent-Hype: Bei vergleichbarem Compute-Budget liefert ein Single-Agent mindestens so gute Ergebnisse wie orchestrierte Teams. Für Kunden, die gerade komplexe Multi-Agent-Architekturen evaluieren, heißt das konkret: zuerst eine Single-Agent-Baseline mit vollem Budget testen, bevor Orchestrierungs-Komplexität eingekauft wird.

Open-Weight-Modelle erreichen Opus-Niveau für 20 Mio. USD

Arcee AI Trinity-Large-Thinking ist ein 400B-MoE-Modell, das auf Agent-Benchmarks mit Opus mithält — Trainingsbudget rund 20 Mio. USD. Die Make-vs-Buy-Frage für Custom-Modelle bekommt damit eine neue Schärfe: Wer einen klar abgegrenzten Use Case hat und auf zwei bis drei Anwendungsfälle fokussiert, kann eigene Modelle in eine ernsthafte Option rechnen.

Proaktivität bricht alle Frontier-Modelle ein

ProactiveBench testet 22 aktuelle Modelle in Szenarien, die Initiative statt Reaktion verlangen — die Performance fällt von 80% auf 17,5%. Reinforcement-basiertes GRPO-Training ist bisher die einzige nachweisbare Gegenmaßnahme. Für jeden Anwendungsfall, in dem ein Agent ohne explizite Aufforderung handeln soll — Monitoring, Eskalation, Frühwarnung — gilt: Standard-Benchmark-Scores sind kein Indikator, eigene Tests sind Pflicht.

Hassabis revidiert die AGI-Timeline auf fünf Jahre — bei sinkender Scaling-Rate

Der DeepMind-CEO nennt fünf Jahre als realistischen Korridor, beschreibt aktuelle Modelle aber als „jagged intelligences" und räumt eine sinkende Skalierungsrate ein. Für C-Level bleibt die Konsequenz nüchtern: Strategien, die auf einen einzigen technologischen Sprung warten, verschenken Zeit — die heute verfügbare, ungleichmäßige Intelligenz ist die Planungsgrundlage der nächsten zwei Jahre, nicht ein hypothetischer AGI-Moment.

← Alle Radar-Einträge · Beobachtungen