KI-Rendite vor dem Pilot prüfen
KI-Rendite bleibt oft unklar, weil der Business Case erst nach dem Pilot gesucht wird. Dann fehlen Ausgangswerte, Kostenbild und Abbruchkriterien. Ein Pilot kann Annahmen prüfen. Er kann nicht nachträglich ersetzen, was vor dem Start hätte geklärt werden müssen: welcher Prozess betroffen ist, welcher Nutzen erwartet wird, welche Vollkosten entstehen, welche Risiken den Nutzen mindern und wann das Management entscheidet.
Viele KI-Initiativen beginnen mit einer plausiblen Idee und enden mit einer uneindeutigen Präsentation. Die Demo funktioniert, die Fachabteilung findet sie nützlich, die Technologie wirkt reif. Trotzdem bleibt die Frage offen, ob daraus ein wirtschaftlicher Effekt entsteht.
Am Ende wirkt das wie ein Messproblem. Tatsächlich steckt der Fehler im Anfang. Wer vor dem Pilot keinen Ausgangswert, keine Nutzenhypothese und kein Kostenbild hat, misst später meist Aktivität: Nutzerzahlen, Prompt-Mengen, Zufriedenheit, Demoqualität. Diese Signale sind nicht wertlos. Sie sind aber kein Business Case.
Die Lücke ist breit genug, um sie ernst zu nehmen. BCG berichtet im „Widening AI Value Gap“ 2025, dass 5 Prozent der untersuchten Unternehmen substanziellen KI-Wert erzielen, während 60 Prozent geringe oder keine materiellen Effekte melden. Die Zahl spricht vor allem gegen Piloten, die wirtschaftlich nicht prüfbar sind.
Deloitte setzt eine zweite Grenze: In einer Befragung von 1.854 Executives in Europa und dem Nahen Osten lag zufriedenstellender ROI für typische KI-Use-Cases meist bei zwei bis vier Jahren; nur 6 Prozent berichteten Payback unter einem Jahr. Das ist kein Argument gegen Piloten. Es ist ein Argument gegen schnelle Payback-Erzählungen ohne Ausgangswert.
1. Ausgangswert vor Start
Der erste Schritt ist kein Modellvergleich. Es ist die Messung des heutigen Zustands. Für operative Fälle heißt das: Volumen, Durchlaufzeit, Fehlerquote, Nacharbeit, Eskalationsrate, Kosten pro Vorgang und Qualitätsmaß. Für seltene Fälle mit hohem Einzelwert zählen andere Größen: Senior-Zeit, externe Kosten, Entscheidungsrisiko, Fristendruck, Wiederverwendbarkeit.
Ohne Ausgangswert wird jede spätere Verbesserung zur Erzählung. Eine KI kann schneller sein, ohne Kosten zu senken. Sie kann Zeit sparen, ohne Kapazität freizusetzen. Sie kann bessere Entwürfe liefern, ohne dass Qualität im Endergebnis steigt. Der Business Case braucht deshalb den Prozesswert vor dem Start, nicht nur eine Zielzahl nach dem Pilot.
2. Nutzenarten trennen
KI-Nutzen wird unklar, wenn alles in einen großen Produktivitätsbegriff fällt. Für die Entscheidung gehören fünf Nutzenarten auseinander:
- Kostenreduktion: Budget, externe Kosten oder Aufwand fallen tatsächlich weg.
- Kapazitätsgewinn: dieselben Personen schaffen mehr Fälle, ohne dass sofort eine Kostenlinie sinkt.
- Durchlaufzeit: Entscheidungen, Antworten oder Prüfungen werden schneller.
- Qualität: Fehler, Nacharbeit oder Eskalationen gehen messbar zurück.
- Risiko und Umsatz: Risiken werden früher erkannt, Kunden schneller bedient, Angebote konsequenter nachverfolgt.
Das britische Cross-Government-Experiment mit Microsoft 365 Copilot zeigt den Unterschied: Es maß über drei Monate bei 20.000 Mitarbeitenden aus zwölf Organisationen unter anderem Zeitersparnis bei Routinetätigkeiten und berichtete im Schnitt 26 Minuten pro Tag. Daraus folgt noch nicht automatisch ein P&L-Effekt.
Diese Kategorien dürfen nicht beliebig addiert werden. Eine Stunde Zeitersparnis ist erst dann ein P&L-Effekt, wenn sie sich in weniger Kosten, mehr Output oder weniger externem Aufwand niederschlägt. Für den CFO ist das keine sprachliche Feinheit. Es entscheidet darüber, ob der Business Case belastbar ist oder nur Beschäftigung bilanziert.
3. Vollkosten rechnen
Die Lizenz ist selten die ganze Rechnung. Zum Kostenbild gehören Datenbereinigung, Rechteprüfung, Integration, Testfälle, Schulung, Betriebsverantwortung, Monitoring, laufende Anpassung, Modellwechsel und rechtliche Prüfung. Bei Copilot- oder Agenten-Szenarien kommen Berechtigungen, Protokollierung, Sicherheitskontrollen und variable Nutzungskosten hinzu.
Die Stanford-Analyse von 51 erfolgreichen Enterprise-AI-Deployments zeigt, warum dieser Punkt nicht nebensächlich ist: 77 Prozent der schwierigsten Umsetzungshürden lagen in unsichtbaren Kosten wie Change, Datenqualität, Prozessdesign und Qualitätskontrolle. Genau diese Posten werden in frühen Business Cases oft zu spät sichtbar.
Für die Managemententscheidung reicht deshalb keine Zeile „Lizenzen“. Die Vorlage braucht drei Kostenschichten: einmalige Vorarbeit, laufender Betrieb und Skalierungskosten. Erst dann wird sichtbar, ob ein Pilot nur günstig startet oder auch wirtschaftlich betrieben werden kann.
4. Risiko und Unsicherheit offenlegen
Ein seriöser KI-Business-Case arbeitet mit Abschlägen. Nicht als Pessimismus, sondern als Disziplin. Je stärker der Nutzen von Nutzerverhalten, Datenzugriff, Ergebnisqualität oder rechtlicher Freigabe abhängt, desto stärker muss die Nutzenhypothese abgezinst werden.
Praktisch reichen drei Szenarien: vorsichtig, erwartbar, ambitioniert. Dazu ein Break-even-Punkt: Welche Mindestwirkung muss der Pilot zeigen, damit die Initiative wirtschaftlich weiterverfolgt wird? Wenn ein Fall nur im ambitionierten Szenario trägt, gehört er nicht in den ersten Pilot, sondern in eine spätere Wette mit bewusstem Risiko.
Governance ist Teil dieser Rechnung. Datenschutz, Betriebsrat, Berufsrecht, EU AI Act, Lieferantenrisiko oder Modellrisiko sind keine nachgelagerte Compliance-Schleife. Sie verändern Aufwand, Zeitplan, Betriebsmodell und manchmal den Nutzen. Bei sensiblen Daten kann die Modell- und Betriebsstrategie den Business Case stärker beeinflussen als die eigentliche Modellleistung.
5. Stage-Gate nach acht bis zwölf Wochen
Ein guter Pilot endet nicht mit einem Stimmungsbild. Das Zeitfenster von acht bis zwölf Wochen ist hier keine Studienkennzahl, sondern eine Sixtyfour-Umsetzungsheuristik: kurz genug, um nicht in Dauerbetrieb zu kippen, lang genug, um reale Nutzung, Kosten und Qualitätsprobleme zu sehen. Am Gate braucht es eine Entscheidung: skalieren, umbauen oder stoppen. Das Gate prüft nicht, ob KI grundsätzlich interessant ist. Es prüft, ob dieser konkrete Fall unter realen Bedingungen trägt.
Vier Fragen reichen für das Gate:
- Hat sich die definierte Kennzahl in die richtige Richtung bewegt?
- Ist der Effekt groß genug, wenn die Vollkosten einbezogen werden?
- Sind Qualität, Sicherheit, Verantwortung und menschliche Kontrolle betrieblich tragfähig?
- Ist die Skalierung organisatorisch klar: Verantwortlicher, Budget, Datenzugriff, Betriebsmodell?
Ein Stopp ist in diesem Modell kein Scheitern. Er ist das billigste Ergebnis, wenn die Annahmen nicht tragen. Das eigentliche Scheitern entsteht, wenn ein unklarer Pilot weiterläuft, weil niemand einen Entscheidungspunkt definiert hat. Genau dort entstehen die Fälle, die später als gescheiterte KI-Piloten wahrgenommen werden.
KPMGs AI Quarterly Pulse Survey Q1 2026 stützt diese Trennung von Pilot und Skalierung: 65 Prozent der befragten US-Führungskräfte nennen Schwierigkeiten beim Skalieren von Use Cases als ROI-Barriere, 62 Prozent Skill-Gaps. 91 Prozent sagen zudem, dass Datensicherheit, Privacy und Risiko ihre KI-Strategie in den nächsten sechs Monaten beeinflussen.
Entscheidungsvorlage für Geschäftsführung und CFO
Vor dem Start sollte eine Seite reichen. Wenn sie nicht reicht, ist der Fall noch nicht sauber genug beschrieben.
| Feld | Leitfrage | Stoppsignal |
|---|---|---|
| Problem Geschäftlicher Engpass | Welcher konkrete Ergebnisengpass soll sich ändern: Kosten, Geschwindigkeit, Qualität, Risiko oder Umsatz? | Der Fall klingt interessant, aber kein Verantwortlicher kann den Engpass in einem Satz beschreiben. |
| Ausgangswert Baseline vor Start | Welche Kennzahl ist heute gemessen und mit welchem Zeitraum, Volumen und Datenstand belegbar? | Die Kennzahl wird erst im Pilot definiert. |
| Nutzen Wirkung und Buchbarkeit | Welche Nutzenart entsteht, und wie wird sie in Ergebnis, Kapazität oder Risikoreduktion übersetzt? | Zeitersparnis wird automatisch als Kostenreduktion gerechnet. |
| Vollkosten Mehr als Lizenz | Welche Kosten entstehen für Daten, Integration, Sicherheit, Change, Betrieb, Monitoring und Governance? | Der Business Case enthält nur Tool- oder Lizenzkosten. |
| Risiko Abschlag statt Fußnote | Welche Annahmen sind unsicher, wie stark wird der Nutzen dafür reduziert und wer trägt das Restrisiko? | Risiken stehen nur in einer Liste, aber nicht in der Rechnung. |
| Gate Entscheidung nach 8 bis 12 Wochen | Welche Schwelle entscheidet über Skalierung, Umbau oder Stopp? | Der Pilot hat keinen festen Endpunkt. |
Drei Fehler, die sich wiederholen
- Vendor-ROI ersetzt den eigenen Ausgangswert. Studien und Anbieterfälle können Richtwerte liefern. Sie ersetzen nicht die Messung im eigenen Prozess, mit eigenen Daten, Kosten und Freigaben.
- Zeitgewinn wird als Einsparung gebucht. Wenn niemand klärt, ob freigewordene Zeit in weniger Kosten, mehr Durchsatz oder bessere Qualität mündet, bleibt der Nutzen weich. Für einen Pilot ist das akzeptabel. Für einen Rollout nicht.
- Risiko wird nachträglich behandelt. Datenzugriff, menschliche Kontrolle, Auditierbarkeit und Anbieterwahl verändern den Business Case. Wer diese Punkte erst im Pilot klärt, testet nicht nur KI. Er testet die eigene Organisationslücke.
Der richtige Einstieg liegt deshalb eine Stufe vor dem Pilot. Zuerst den wirtschaftlich prüfbaren Anwendungsfall bestimmen, wie in Wo gute KI-Use-Cases liegen. Dann den Business Case hart genug aufsetzen, dass der Pilot eine Managemententscheidung vorbereitet. Erst danach lohnt sich die Technologiearbeit.
Quellen und Einordnung
- BCG, The Widening AI Value Gap, 2025: 5 Prozent der untersuchten Unternehmen erzielen substanziellen KI-Wert, 60 Prozent melden geringe oder keine materiellen Effekte.
- Forrester, Total Economic Impact Methodology: Nutzen, Kosten, Flexibilität und Risiko als Bausteine einer wirtschaftlichen Investitionsbewertung.
- Deloitte, AI ROI: The paradox of rising investment and elusive returns, 2025: 1.854 befragte Executives; typischer KI-ROI meist erst nach zwei bis vier Jahren, nur 6 Prozent mit Payback unter einem Jahr.
- Stanford Digital Economy Lab, The Enterprise AI Playbook, 2026: 51 erfolgreiche Enterprise-AI-Deployments; 77 Prozent der schwierigsten Herausforderungen lagen in unsichtbaren Kosten wie Change, Datenqualität und Prozessdesign.
- GOV.UK, Microsoft 365 Copilot Experiment, 2025: Cross-Government-Experiment vom 30.09. bis 31.12.2024 mit 20.000 Mitarbeitenden aus zwölf Organisationen; berichtet wurden im Schnitt 26 Minuten Zeitersparnis pro Tag.
- KPMG, AI Quarterly Pulse Survey Q1 2026: 65 Prozent nennen Use-Case-Skalierung und 62 Prozent Skill-Gaps als ROI-Barrieren; 91 Prozent sehen Datensicherheit, Privacy und Risiko als Einflussfaktoren der KI-Strategie.