Mehr Agents, gleiche Ergebnisse — Stanford + ehrliche Scope-Differenzierung

Ein einzelner KI-Agent mit demselben Rechenbudget liefert mindestens so gute Ergebnisse wie ein ganzes Team aus Agents. Häufig bessere. Eine Stanford-Gruppe hat das im April kontrolliert gezeigt.

Getestet: drei Modelle (Qwen3, DeepSeek-R1, Gemini 2.5) auf Multi-Hop-Reasoning mit einheitlichem Denk-Budget. Bei gleichem Compute gewinnt der Single Agent. Der Grund ist unspektakulär: Bei jedem Handoff zwischen Agenten geht Kontext verloren. Ein Solo-Agent behält alles, ein Team muss komprimiert weitergeben.

Die Autoren benennen die Grenzen ihrer Aussage ebenfalls deutlich. Die Studie testet ausschließlich Text-Reasoning. Tool Use, Browser-Automation, Deep Research, also genau die Workflows, für die Multi-Agent heute meistens gebaut wird, sind nicht abgedeckt. Und die getesteten Modelle sind mittlere Open-Source-Generation, nicht Opus 4.7, GPT-5.4 oder Gemini 3.

Anthropic selbst ist differenzierter: Es gibt legitime Multi-Agent-Anwendungen, etwa parallele unabhängige Recherche, schwache Basis-Modelle, verrauschter Input. Aber der Default sollte Single-Agent sein. Wer Multi-Agent einführt, muss die Entscheidung rechtfertigen, nicht umgekehrt.

Bevor man Multi-Agent als Lösung wählt, sollte die einfachere Frage beantwortet sein: Was ist mit einem einzelnen, gut konfigurierten Agent herauszuholen? Meistens deutlich mehr, als man vermutet.

Hintergrund: https://arxiv.org/abs/2604.02460