KI-Rendite vor dem Pilot prüfen

Viele KI-Initiativen beginnen mit einer plausiblen Idee und enden mit einer uneindeutigen Präsentation. Die Demo funktioniert, die Fachabteilung findet sie nützlich, die Technologie wirkt reif. Trotzdem bleibt die Frage offen, ob daraus ein wirtschaftlicher Effekt entsteht.

Am Ende wirkt das wie ein Messproblem. Tatsächlich steckt der Fehler im Anfang. Wer vor dem Pilot keinen Ausgangswert, keine Nutzenhypothese, keine Zuordnungslogik und kein Kostenbild hat, misst später meist Aktivität: Nutzerzahlen, Prompt-Mengen, Zufriedenheit, Demoqualität. Diese Signale sind nicht wertlos. Sie sind aber kein Business Case.

Die Lücke ist breit genug, um sie ernst zu nehmen. BCG berichtet im „Widening AI Value Gap“ 2025, dass 5 Prozent der untersuchten Unternehmen substanziellen KI-Wert erzielen, während 60 Prozent geringe oder keine materiellen Effekte melden. Die Zahl spricht vor allem gegen Piloten, die wirtschaftlich nicht prüfbar sind.

McKinsey QuantumBlack beschreibt im April 2026 dieselbe Lücke aus der Messperspektive: Fast acht von zehn Organisationen nutzen GenAI in mindestens einer Geschäftsfunktion, 62 Prozent experimentieren mit agentischer KI, aber 60 Prozent sehen noch keinen unternehmensweiten EBIT-Effekt. Der Befund ist nicht, dass KI nicht wirkt. Der Befund ist, dass viele Programme nicht sauber nachweisen können, wo aus technischer Leistung tatsächlich geschäftliche Wirkung wird.

Deloitte setzt eine zweite Grenze: In einer Befragung von 1.854 Executives in Europa und dem Nahen Osten lag zufriedenstellender ROI für typische KI-Use-Cases meist bei zwei bis vier Jahren; nur 6 Prozent berichteten Payback unter einem Jahr. Das ist kein Argument gegen Piloten. Es ist ein Argument gegen schnelle Payback-Erzählungen ohne Ausgangswert.

1. Ausgangswert vor Start

Der erste Schritt ist kein Modellvergleich. Es ist die Messung des heutigen Zustands. Für operative Fälle heißt das: Volumen, Durchlaufzeit, Fehlerquote, Nacharbeit, Eskalationsrate, Kosten pro Vorgang und Qualitätsmaß. Für seltene Fälle mit hohem Einzelwert zählen andere Größen: Senior-Zeit, externe Kosten, Entscheidungsrisiko, Fristendruck, Wiederverwendbarkeit.

Ohne Ausgangswert wird jede spätere Verbesserung zur Erzählung. Eine KI kann schneller sein, ohne Kosten zu senken. Sie kann Zeit sparen, ohne Kapazität freizusetzen. Sie kann bessere Entwürfe liefern, ohne dass Qualität im Endergebnis steigt. Der Business Case braucht deshalb den Prozesswert vor dem Start, nicht nur eine Zielzahl nach dem Pilot.

2. Werthebel sauber trennen

KI-Nutzen wird unklar, wenn alles in einen großen Produktivitätsbegriff fällt. Für die Entscheidung zählen zwei Arten von Werthebeln: finanzielle Wirkung und betriebliche Wirkung. Produktivität ist dabei nur eine Zwischenrechnung. Sie wird erst relevant, wenn sie in Kosten, Umsatz, Durchsatz, Geschwindigkeit, Qualität oder Risiko übersetzt wird.

Finanzielle Wirkung: Kosten sinken oder Budget wird frei.
Finanzielle Wirkung: Umsatz, Conversion oder Kundenbindung steigen.
Finanzielle Wirkung: Nacharbeit, Fehler- und Eskalationskosten sinken.
Betriebliche Wirkung: Durchsatz steigt bei gleichem Ressourceneinsatz.
Betriebliche Wirkung: Durchlauf- und Liegezeiten sinken.
Betriebliche Wirkung: Qualität, Nachvollziehbarkeit und Kontrolle verbessern sich.

Das britische Cross-Government-Experiment mit Microsoft 365 Copilot zeigt den Unterschied: Es maß über drei Monate bei 20.000 Mitarbeitenden aus zwölf Organisationen unter anderem Zeitersparnis bei Routinetätigkeiten und berichtete im Schnitt 26 Minuten pro Tag. Daraus folgt noch nicht automatisch ein P&L-Effekt.

Diese Werthebel dürfen nicht beliebig addiert werden. Eine Stunde Zeitersparnis ist erst dann ein P&L-Effekt, wenn sie sich in weniger Kosten, mehr Output, schnellerem Umsatz, weniger Nacharbeit oder geringerem externem Aufwand niederschlägt. Für den CFO ist das keine sprachliche Feinheit. Es entscheidet darüber, ob der Business Case belastbar ist oder nur Beschäftigung bilanziert.

3. Messkette statt KPI-Sammlung

Ein tragfähiger KI-Business-Case braucht deshalb keine lange KPI-Liste, sondern eine durchgehende Kette. McKinsey trennt fünf Ebenen: technische Leistung, Nutzung und Vertrauen, operative Prozesskennzahlen, strategische Ergebnisgrößen und finanzielle Wirkung. Der Punkt liegt in der Verbindung. Eine stabile Modellantwort erzeugt noch keine Prozessverbesserung. Hohe Nutzung erzeugt noch keinen Ergebnisbeitrag. Eine Prozessverbesserung wird erst dann finanzielle Wirkung, wenn sie in Kosten, Umsatz, Marge oder gebundenes Kapital übersetzt wird.

Für den Pilot heißt das: Vor dem Start muss feststehen, welche Kennzahl auf welcher Ebene erwartet wird. Technisch können das Latenz, Fehlerquote, Qualität oder Kosten pro Interaktion sein. In der Nutzung zählen berechtigte Nutzer, Aufgabenanteil, Akzeptanzquote und Override-Rate. Im Prozess zählen Durchlaufzeit, Nacharbeit, First-Contact-Resolution oder Kosten pro Vorgang. Erst darüber liegen Kundenzufriedenheit, Retention, Umsatz, Kosten und Marge.

Die Wirkung muss außerdem zurechenbar bleiben. Wenn ein Prozess parallel umorganisiert, personell verändert und mit KI ausgestattet wird, reicht ein Vorher-Nachher-Vergleich selten. Wo möglich, braucht der Pilot Vergleichsgruppen, gestaffelte Einführung oder klar abgegrenzte Prozesssegmente. Sonst bleibt offen, ob KI gewirkt hat oder nur gleichzeitig mit einer anderen Maßnahme eingeführt wurde.

4. Vollkosten rechnen

Die Lizenz ist selten die ganze Rechnung. Zum Kostenbild gehören Datenbereinigung, Rechteprüfung, Integration, Testfälle, Schulung, Betriebsverantwortung, Monitoring, laufende Anpassung, Modellwechsel und rechtliche Prüfung. Bei Copilot- oder Agenten-Szenarien kommen Berechtigungen, Protokollierung, Sicherheitskontrollen und variable Nutzungskosten hinzu.

Die Stanford-Analyse von 51 erfolgreichen Enterprise-AI-Deployments zeigt, warum dieser Punkt nicht nebensächlich ist: 77 Prozent der schwierigsten Umsetzungshürden lagen in unsichtbaren Kosten wie Change, Datenqualität, Prozessdesign und Qualitätskontrolle. Genau diese Posten werden in frühen Business Cases oft zu spät sichtbar.

Für die Managemententscheidung reicht deshalb keine Zeile „Lizenzen“. Die Vorlage braucht drei Kostenschichten: einmalige Vorarbeit, laufender Betrieb und Skalierungskosten. Erst dann wird sichtbar, ob ein Pilot nur günstig startet oder auch wirtschaftlich betrieben werden kann.

5. Risiko und Kontrollaufwand einpreisen

Ein KI-Business-Case darf nicht nur den Bruttonutzen zeigen. Er muss auch zeigen, welche Kontroll-, Fehler- und Betriebsaufwände den Nutzen wieder aufzehren können. Das ist keine Compliance-Fußnote, sondern Teil der Wirtschaftlichkeitsrechnung.

Praktisch heißt das: Fehlerfolgen, Datenschutz, Haftung und Betriebsrat müssen vor dem Pilot geklärt werden. Ebenso der Aufwand für menschliche Prüfung, Logging, Stopprecht und laufende Kontrolle. Ein Nutzen zählt nur dann für die Skalierung, wenn Qualität und Verantwortung im Betrieb tragfähig bleiben.

Governance ist damit Teil der Rechnung. Datenschutz, Betriebsrat, Berufsrecht, EU AI Act, Lieferantenrisiko oder Modellrisiko verändern Aufwand, Zeitplan, Betriebsmodell und manchmal den Nutzen selbst. Bei sensiblen Daten kann die Modell- und Betriebsstrategie den Business Case stärker beeinflussen als die eigentliche Modellleistung.

6. Stage-Gate nach acht bis zwölf Wochen

Ein guter Pilot endet nicht mit einem Stimmungsbild. Das Zeitfenster von acht bis zwölf Wochen ist hier keine Studienkennzahl, sondern eine Sixtyfour-Umsetzungsheuristik: kurz genug, um nicht in Dauerbetrieb zu kippen, lang genug, um reale Nutzung, Kosten und Qualitätsprobleme zu sehen. Am Gate braucht es eine Entscheidung: skalieren, umbauen oder stoppen. Das Gate prüft nicht, ob KI grundsätzlich interessant ist. Es prüft, ob dieser konkrete Fall unter realen Bedingungen trägt.

Fünf Fragen reichen für das Gate:

Läuft das System technisch stabil, sicher und wirtschaftlich genug für reale Nutzung?
Nutzen die richtigen Anwender das System im vorgesehenen Prozess, nicht nur in Demos?
Hat sich die definierte Prozess- oder Ergebniskennzahl in die richtige Richtung bewegt?
Ist der Effekt groß genug, wenn die Vollkosten einbezogen werden?
Ist die Skalierung organisatorisch klar: Verantwortlicher, Budget, Datenzugriff, Kontrollmodell und Betriebsmodell?

Ein Stopp ist in diesem Modell kein Scheitern. Er ist das billigste Ergebnis, wenn die Annahmen nicht tragen. Das eigentliche Scheitern entsteht, wenn ein unklarer Pilot weiterläuft, weil niemand einen Entscheidungspunkt definiert hat. Genau dort entstehen die Fälle, die später als gescheiterte KI-Piloten wahrgenommen werden.

KPMGs AI Quarterly Pulse Survey Q1 2026 stützt diese Trennung von Pilot und Skalierung: 65 Prozent der befragten US-Führungskräfte nennen Schwierigkeiten beim Skalieren von Use Cases als ROI-Barriere, 62 Prozent Skill-Gaps. 91 Prozent sagen zudem, dass Datensicherheit, Privacy und Risiko ihre KI-Strategie in den nächsten sechs Monaten beeinflussen.

Entscheidungsvorlage für Geschäftsführung und CFO

Vor dem Start sollte eine Seite reichen. Wenn sie nicht reicht, ist der Fall noch nicht sauber genug beschrieben.

Feld	Leitfrage	Stoppsignal
Problem Geschäftlicher Engpass	Welcher konkrete Ergebnisengpass soll sich ändern: Kosten, Geschwindigkeit, Qualität, Risiko oder Umsatz?	Der Fall klingt interessant, aber kein Verantwortlicher kann den Engpass in einem Satz beschreiben.
Ausgangswert Baseline vor Start	Welche Kennzahl ist heute gemessen und mit welchem Zeitraum, Volumen und Datenstand belegbar?	Die Kennzahl wird erst im Pilot definiert.
Nutzen Wirkung und Buchbarkeit	Welcher Werthebel entsteht, und wie wird er in finanzielle oder betriebliche Wirkung übersetzt?	Zeitersparnis wird automatisch als Kostenreduktion gerechnet.
Messkette Technik, Nutzung, Prozess, Ergebnis	Welche Nachweise verbinden Modellleistung, Adoption, Prozesswirkung und Ergebnisbeitrag?	Der Pilot berichtet Aktivität, aber keine Verbindung zur Prozess- oder Ergebniskennzahl.
Vollkosten Mehr als Lizenz	Welche Kosten entstehen für Daten, Integration, Sicherheit, Change, Betrieb, Monitoring und Governance?	Der Business Case enthält nur Tool- oder Lizenzkosten.
Risiko Kontrollaufwand als Betriebskosten	Welche Fehlerfolgen, Prüfaufwände, Logs, Stopprechte und Governance-Anforderungen gehören in die Rechnung?	Kontrolle ist fachlich nötig, aber weder organisatorisch noch wirtschaftlich eingeplant.
Gate Entscheidung nach 8 bis 12 Wochen	Welche Schwelle entscheidet über Skalierung, Umbau oder Stopp?	Der Pilot hat keinen festen Endpunkt.

Drei Fehler, die sich wiederholen

Vendor-ROI ersetzt den eigenen Ausgangswert. Studien und Anbieterfälle können Richtwerte liefern. Sie ersetzen nicht die Messung im eigenen Prozess, mit eigenen Daten, Kosten und Freigaben.
Zeitgewinn wird als Einsparung gebucht. Wenn niemand klärt, ob freigewordene Zeit in weniger Kosten, mehr Durchsatz oder bessere Qualität mündet, bleibt der Nutzen weich. Für einen Pilot ist das akzeptabel. Für einen Rollout nicht.
Adoption wird mit Wertbeitrag verwechselt. Nutzerzahlen, Prompt-Mengen und Zufriedenheit zeigen, ob ein System angenommen wird. Sie zeigen noch nicht, ob der Prozess besser, günstiger, schneller oder risikoärmer wird.
Risiko wird nachträglich behandelt. Datenzugriff, menschliche Kontrolle, Auditierbarkeit und Anbieterwahl verändern den Business Case. Wer diese Punkte erst im Pilot klärt, testet nicht nur KI. Er testet die eigene Organisationslücke.

Der richtige Einstieg liegt deshalb eine Stufe vor dem Pilot. Zuerst den wirtschaftlich prüfbaren Anwendungsfall bestimmen, wie in Wo gute KI-Use-Cases liegen. Dann den Business Case hart genug aufsetzen, dass der Pilot eine Managemententscheidung vorbereitet. Erst danach lohnt sich die Technologiearbeit.