Datenqualität: Warum 60% aller KI-Projekte scheitern

Ihr habt meinen letzten Post über KI-Agenten im Mittelstand gelesen? Da stand ein Satz drin, den die meisten überblättert haben:

"87% der deutschen Unternehmen haben ein Datenqualitätsproblem. Ein KI-Agent auf schlechten Daten ist wie ein Porsche auf einem Feldweg."

Ich hab den Satz bewusst da reingeschrieben. Weil er der wichtigste im ganzen Artikel war. Und weil er exakt das Problem beschreibt, das ich in jedem zweiten Projekt sehe.

Heute reden wir darüber. Nur darüber. Keine KI-Agenten, keine fancy Automatisierung. Sondern über den langweiligen, unsexy Grund, warum die meisten KI-Projekte auf die Schnauze fliegen.

Die Zahl, die keiner hören will

60% aller KI-Projekte werden bis Ende 2026 aufgegeben — wegen schlechter Datenqualität. Das sagt nicht irgendein Blogger. Das sagt Gartner. Und wer Gartner kennt, weiß: Die sind eher konservativ mit ihren Schätzungen.

Sechzig Prozent. Lasst das mal sacken.

Das heißt: Von zehn Firmen, die gerade einen KI-Agenten, ein Machine-Learning-Modell oder "irgendwas mit KI" bauen, werden sechs aufhören. Nicht weil die Technologie nicht funktioniert. Nicht weil das Budget zu klein war. Nicht weil der Berater schlecht war.

Sondern weil die Daten Scheiße sind.

"Unsere Daten sind sauber" — der größte Selbstbetrug im Mittelstand

Ich sag's euch ganz direkt: Wenn ein Geschäftsführer mir sagt "Unsere Daten sind eigentlich ganz gut", dann weiß ich, dass es richtig schlimm wird. Das ist wie der Satz "Das Haus ist eigentlich in gutem Zustand" vom Immobilienmakler — man weiß genau, was einen erwartet.

Hier ist, was ich typischerweise finde, wenn ich mir die Daten in mittelständischen Unternehmen anschaue:

Die 5 Datenleichen, die in jedem Mittelständler liegen

1. Duplikate ohne Ende

"Müller GmbH", "Mueller GmbH", "Fa. Müller", "Müller GmbH & Co. KG" — das ist derselbe Kunde. Aber im ERP sind das vier verschiedene Datensätze. Mit vier verschiedenen Zahlungshistorien. Und der Vertriebler wundert sich, warum das Angebot beim falschen Ansprechpartner gelandet ist.

2. Fehlende Pflichtfelder

Kostenstelle? Leer. Branche? "Sonstiges." Zahlungsbedingung? Die Standardeinstellung, die seit 2019 nicht mehr stimmt. Die Hälfte der Artikelstammdaten hat keine Warengruppe. Aber klar, KI soll daraus Muster erkennen.

3. Veraltete Stammdaten

Die Lieferantenadresse ist von 2018. Der Ansprechpartner arbeitet seit drei Jahren nicht mehr dort. Die Telefonnummer hat eine Vorwahl, die es nicht mehr gibt. Aber die Daten wurden ja "damals gepflegt."

4. Inkonsistente Formate

Datum: "12.03.2026", "2026-03-12", "12/03/2026", "März 2026." Alles in derselben Spalte. Preise: "1.234,56€", "1234.56", "EUR 1,234.56". Maßeinheiten: "kg", "Kilo", "Kilogramm", "KG." Viel Spaß beim automatisierten Abgleich.

5. Die Schatten-Excel-Welt

Das ERP ist das offizielle System. Aber die echten Daten? Die sind in der Excel-Tabelle von Sabine aus der Buchhaltung. In der, die auf dem Netzlaufwerk liegt. Der dritten Version. Mit dem Dateinamen "Kunden_AKTUELL_v3_FINAL_wirklich_final.xlsx."

Klingt übertrieben? Ich schwöre euch: Ich habe das wortwörtlich so gesehen. Mehrfach.

Warum das kein IT-Problem ist

Und jetzt kommt der Teil, der wehtut: Datenqualität ist kein technisches Problem. Es ist ein Organisationsproblem.

Die IT kann das beste CRM der Welt hinstellen. Wenn der Vertrieb die Felder nicht ausfüllt, weil "keine Zeit dafür" ist, dann sind die Daten trotzdem Müll. Wenn die Buchhaltung parallel ihre eigene Excel führt, weil "das ERP zu umständlich ist", dann habt ihr zwei Wahrheiten. Und keine davon ist zuverlässig.

87% der deutschen Unternehmen haben ein Datenqualitätsproblem. Und die meisten wissen es noch nicht mal. Weil solange ein Mensch die Daten interpretiert — "Ach, Müller GmbH und Mueller GmbH, das ist doch derselbe" — fällt es nicht auf. Aber eine KI kann das nicht. Die nimmt die Daten so, wie sie sind. Garbage in, garbage out.

Was das in Euro kostet

Weil Datenqualität so abstrakt klingt, hier mal die harten Zahlen:

Problem	Kosten
Falsche Kundenansprache (Duplikate)	Verlorene Deals, ca. 3-5% Umsatzeinbuße
Verpasste Skontofristen (fehlende Daten)	30.000-50.000€/Jahr bei 500 Rechnungen/Monat
Manuelles Datenbereinigen	1-2 Vollzeitstellen, die nichts anderes tun
Gescheitertes KI-Projekt	50.000-200.000€ verbranntes Budget
Compliance-Verstoß (DSGVO, NIS2)	Bis zu 10 Mio. € Strafe

Das ist kein Szenario. Das sind Zahlen, die ich bei Kunden gesehen habe. Das gescheiterte KI-Projekt kostet nicht nur das Budget — es kostet auch das Vertrauen der Geschäftsführung in alle zukünftigen KI-Initiativen. Und das ist der eigentliche Schaden.

Data Observability: Aufhören zu raten, anfangen zu messen

Jetzt mal Klartext: Wie kriegt man Datenqualität in den Griff?

Der erste Schritt ist brutal simpel und wird trotzdem fast nie gemacht: Messen.

Die meisten Unternehmen haben keine Ahnung, wie gut oder schlecht ihre Daten sind. Sie raten. "Eigentlich ganz gut." "Könnte besser sein." "Das passt schon."

Das ist wie ein Geschäftsführer, der sagt: "Unsere Finanzen sind eigentlich ganz gut" — ohne jemals in die Bilanz geschaut zu haben.

Data Observability heißt: Ihr messt eure Datenqualität. Kontinuierlich. Automatisiert. Nicht einmal im Jahr ein Audit, sondern jeden Tag.

Konkret:

Vollständigkeit: Wie viel Prozent der Pflichtfelder sind tatsächlich gefüllt?
Eindeutigkeit: Wie viele Duplikate habt ihr? Bei Kunden, Lieferanten, Artikeln?
Aktualität: Wie alt sind eure Stammdaten? Wann wurde zuletzt aktualisiert?
Konsistenz: Sind die gleichen Daten in verschiedenen Systemen identisch?
Genauigkeit: Stimmen Adresse, Telefonnummer, Bankverbindung noch?

Klingt aufwändig? Ein einfaches Dashboard, das diese fünf Metriken trackt, ist in zwei bis drei Tagen gebaut. Und ab dem Moment wisst ihr, wo ihr steht. Nicht "eigentlich ganz gut" — sondern "83% der Kundenstammdaten sind vollständig, 12% haben veraltete Adressen, 340 Duplikate."

Qualitätsregeln direkt in die Pipeline

Der zweite Schritt ist der, der auf Dauer den Unterschied macht: Governance-as-Code.

Was heißt das auf Deutsch? Statt dass jemand ein 40-seitiges Dokument schreibt, das die Datenqualitätsregeln definiert — und das dann keiner liest — baut ihr die Regeln direkt in eure Datenpipelines ein.

Ein paar Beispiele:

Keine Kundenneuanlage ohne Pflichtfelder. Punkt. Kein Workaround, kein "trage ich später nach." Wenn Branche, Ansprechpartner und Zahlungsbedingung nicht drin sind, wird der Datensatz nicht angelegt.
Automatische Duplikatprüfung bei jeder Neuanlage. Fuzzy Matching — erkennt auch "Müller" vs. "Mueller."
Formatvalidierung am Eingang. Datum muss ISO sein, PLZ muss 5 Stellen haben, E-Mail muss @ enthalten. Klingt trivial, spart Stunden.
Alerts bei Anomalien. Wenn plötzlich 50% der neuen Datensätze eine leere Kostenstelle haben, muss jemand Bescheid wissen. Sofort. Nicht beim nächsten Quartals-Review.

Der Punkt ist: Diese Regeln laufen automatisch. Jeder Datensatz, der reinkommt, wird geprüft. Kein Mensch muss das machen. Kein Mensch kann das umgehen.

Der Fahrplan: In 4 Schritten zur KI-fähigen Datenbasis

Kein 200-Seiten-Konzept. Vier Schritte. Davon könnt ihr den ersten morgen anfangen.

Schritt 1: Daten-Audit (1-2 Wochen)

Nehmt euer ERP, CRM und die drei wichtigsten Excel-Dateien (ihr wisst welche). Messt:

Wie viele Kundenduplikate habt ihr?
Wie voll sind eure Pflichtfelder?
Wie alt sind eure Stammdaten?
Wie viele verschiedene Formate gibt es pro Feld?

Das Ergebnis wird wehtun. Das ist der Punkt. Denn erst wenn ihr wisst, wie schlimm es ist, könnt ihr entscheiden, was zuerst gefixt werden muss.

Schritt 2: Quick Wins (2-4 Wochen)

Die schlimmsten Probleme zuerst:

Duplikate zusammenführen (automatisiert, nicht manuell!)
Pflichtfelder tatsächlich als Pflicht setzen — im System, nicht nur auf dem Papier
Formatvalidierung einführen
Die Schatten-Excel identifizieren und entscheiden: Brauchen wir die Daten? Wenn ja, ins System migrieren. Wenn nein, archivieren.

Schritt 3: Monitoring aufsetzen (1 Woche)

Ein Dashboard, das die fünf Kernmetriken täglich zeigt. Muss nicht fancy sein. Kann eine einfache Web-App sein, kann ein automatischer Report per Mail sein. Hauptsache: Ihr seht jeden Tag, ob die Qualität steigt oder sinkt.

Schritt 4: Governance automatisieren (2-4 Wochen)

Die Qualitätsregeln in die Pipelines einbauen. Validierung am Eingang, Duplikatprüfung bei Neuanlage, Alerts bei Anomalien. Ab jetzt kann die Qualität nicht mehr unbemerkt abrutschen.

Gesamtaufwand: 6-11 Wochen. Investition: 8.000-25.000€ je nach Komplexität.

Zum Vergleich: Ein gescheitertes KI-Projekt kostet 50.000-200.000€. Rechnet selbst.

Und dann? Dann kommen die KI-Agenten.

Wenn ihr diese vier Schritte durchhabt, passiert etwas Magisches: Auf einmal funktionieren all die Sachen, die vorher nicht funktioniert haben.

Der KI-Agent für Rechnungsverarbeitung? Erkennt Lieferanten zuverlässig, weil es keine Duplikate mehr gibt.
Die automatisierte Postfachsortierung? Ordnet E-Mails dem richtigen Kunden zu, weil die Stammdaten stimmen.
Das Reporting-Dashboard? Zeigt keine widersprüchlichen Zahlen mehr, weil die Daten in allen Systemen konsistent sind.

Saubere Daten sind kein Selbstzweck. Sie sind die Voraussetzung für alles, was danach kommt.

Fazit: Kein Glamour, aber verdammt wichtig

Ich weiß, Datenqualität ist nicht sexy. Niemand postet auf LinkedIn: "Wir haben 3.400 Kundenduplikate zusammengeführt!" Dafür gibt es keine Standing Ovations auf der Vorstandssitzung.

Aber wisst ihr, was sexy ist? Wenn euer KI-Projekt tatsächlich funktioniert. Wenn der ROI stimmt. Wenn ihr zu den 40% gehört, die nicht scheitern.

Und wisst ihr, was dafür nötig ist? Dass jemand sich hinsetzt und die Drecksarbeit macht. Die Duplikate aufräumt. Die Pflichtfelder definiert. Das Monitoring aufsetzt. Den ganzen unsexy Kram, über den keiner reden will.

Genau das mache ich. Nicht die PowerPoint-Präsentation über "Datenstrategien." Sondern: Reinschauen, aufräumen, absichern. Damit eure KI-Projekte eine Chance haben.

Ihr wollt wissen, wie es um eure Datenqualität steht — bevor ihr in KI investiert? Schreibt mir. Ich mach euch ein ehrliches Audit. Kein Verkaufsgespräch, sondern Fakten.