Anthropic & OpenAI sitzen auf Next-Gen-Modellen — was das für Vendor-Evaluierungen bedeutet · Beobachtungen

Wer gerade KI-Anbieter evaluiert, trifft Entscheidungen auf Basis von Modellen die in zwei Monaten nicht mehr existieren.

Das ist keine Übertreibung. Diese Woche wurde durch eine CMS-Fehlkonfiguration bei Anthropic ein internes Dokument öffentlich — der Entwurf einer Blog-Ankündigung für ein neues Modell namens "Claude Mythos." Anthropic bestätigt gegenüber Fortune: "a step change, the most capable we've built to date." Eine komplett neue Modellklasse über dem bisherigen Topmodell.

Gleichzeitig bei OpenAI: CEO Sam Altman beschreibt intern ein fertig trainiertes Modell mit Codenamen "Spud" als "a very strong model that will really accelerate the economy." Release: in wenigen Wochen.

Zwei Unternehmen. Zwei fertig trainierte Next-Gen-Modelle. Beide halten den Release zurück.

Das Muster dahinter ist aufschlussreich: Beide stehen vor milliardenschweren Finanzierungsrunden — OpenAIs IPO-Vorbereitung, Anthropics nächste Kapitalrunde. Next-Gen-Modelle sind das stärkste Signal an Investoren. Der Zeitpunkt ist kein Zufall.

Für C-Level-Entscheider heißt das drei Dinge:

###### → Vendor-Evaluierungen auf Basis heutiger Benchmarks haben eine Halbwertszeit von Wochen. Wer heute "Modell X ist besser als Modell Y" entscheidet, vergleicht Produkte die beide Anbieter bereits als überholt betrachten.

→ Enterprise-Verträge, die jetzt abgeschlossen werden, basieren auf Modellen die beide Anbieter intern bereits als Vorgänger-Generation betrachten. Wer Laufzeiten und Konditionen verhandelt, sollte wissen was in der Pipeline sitzt.

→ Die eigentliche Frage ist nicht welches Modell besser ist. Die Frage ist: Sind Daten, Prozesse und Schnittstellen so aufgestellt, dass das Unternehmen von besseren Modellen überhaupt profitieren kann?

Wer seine KI-Readiness nicht in Ordnung hat, dem hilft auch das beste Modell der Welt nichts. Und wer seine Evaluierung auf heutige Benchmarks stützt, baut auf Sand.

Auf KI-Modellstrategie für europäische Unternehmen beschreibe ich, wie man Anbieterherkunft, EU-Verarbeitung und tatsächliche Betriebskontrolle sauber trennt.

Anthropic & OpenAI sitzen auf Next-Gen-Modellen — was das für Vendor-Evaluierungen bedeutet

Quellen