DB Podcast

Datenbeschaffung für KI Datenqualität: Warum KI-Einsatz trotzdem scheitern kann

Ein Gastbeitrag von Alexander Waldmann 5 min Lesedauer

Anbieter zum Thema

Wenn künstliche Intelligenz in Produkte wandert, heißt es immer, dass die Datenqualität entscheidend für eine erfolgreiche Implementierung ist. Das stimmt, aber nicht so, wie viele Verantwortliche in Unternehmen denken.

(Bild:  © AiDesign/stock.adobe.com - generiert mit KI)
(Bild: © AiDesign/stock.adobe.com - generiert mit KI)

Darum Geht's

Die Datenqualität ist entscheidend für den Erfolg von KI-Implementierungen, doch viele Teams streben eine unrealistische Perfektion an, die nicht den tatsächlichen Nutzererfahrungen entspricht. Diese Perfektion kann dazu führen, dass Systeme im Alltag, wenn Nutzer Fehler machen oder unklare Fragen stellen, versagen.
 
Die Datenbeschaffung sollte sich auf Intention statt nur auf Volumen konzentrieren und die Vielfalt der Nutzer angesichts demografischer, kultureller und situativer Unterschiede berücksichtigen. Daten für KI können skaliert werden, ersetzen jedoch oft nicht das wertvolle, chaotische menschliche Verhalten, das in der Realität vorkommt.
 
Die Entwicklung robuster KI-Systeme erfordert fortlaufendes Red Teaming und humanbasierte Validierung, um blinde Flecken und Risiken zu identifizieren, die unter idealen Testbedingungen nicht auftreten. Das Ziel sollte sein, authentische Nutzerdaten zu sammeln, um KI-Produkte zu schaffen, die in der Realität bestehen können.

Viele Teams optimieren Trainingsdaten so lange, bis sie eine hohe Datenqualität erreicht haben: korrekt formatiert, vollständig, ohne Ausreißer. Das Problem daran ist: Diese Perfektion ist in der Realität selten. Nutzer tippen daneben, formulieren missverständlich, wechseln den Ton, stellen unklare oder unsinnige Fragen und erwarten trotzdem brauchbare Antworten. Wer KI nur im Prompt-Labor absichert, baut ein System, das auf dem Papier überzeugt, aber im Alltag scheitert. In dem Moment, in dem ein Chatbot halluziniert, ein Agent falsche Schlüsse zieht oder ein Assistenzsystem kulturell danebenliegt, steht nicht das KI-Modell in der Kritik, sondern die Marke.

Daten sind kein Rohstoff, sondern Designentscheidung

Die Datenbeschaffung für KI wird häufig als reines Skalierungsproblem verstanden: mehr Samples, schnelleres Labeling, geringere Kosten. Doch in der Praxis ist sie vor allem eine Frage der Intention: Welche Daten werden benötigt? Von welchen Menschen, unter welchen Bedingungen und für welchen Einsatz? Diese Faktoren entscheiden am Ende darüber, ob ein System robust wird oder nur so lange gut aussieht, wie niemand vom Skript abweicht.

Dieses Spannungsfeld schlägt sich auch in Zahlen nieder. Laut dem „State of Digital Quality Report 2025“ von Applause entwickeln 72,3 Prozent der befragten Unternehmen KI-Funktionen, 55,4 Prozent davon arbeiten an Chatbots oder Customer-Support-Tools und 40,1 Prozent an Predictive Analytics. Gleichzeitig berichten 65 Prozent der Nutzer, in den letzten drei Monaten Probleme bei der Nutzung generativer KI erlebt zu haben. Dahinter steckt ein bekanntes Muster. Trainings- und Testdaten bilden die Welt nicht ab, wie sie ist, sondern wie sie sich in Datensätzen gut anfühlt. Und gut heißt bei Teams für Daten häufig bereinigt, konsistent und ohne Chaos.

Hohe Datenqualität erzeugt perfekte Illusionen

In einer kontrollierten Umgebung lassen sich durch sauber formulierte Prompts, klare Aufgaben und definierte Kontexte beeindruckende Demo-Ergebnisse erzielen. Doch reale Interaktionen sind selten so. Nutzer machen Tippfehler, lassen Wörter aus und schreiben im Dialekt oder Slang. Sie stellen unklare oder mehrdeutige Fragen („Kannst du das bitte schnell machen?“ – was genau?), liefern absichtlich oder unabsichtlich falsche Prämissen, testen Grenzen aus – indem sie provozieren, übertreiben, Rollen spielen oder Verbotenes fordern – und wechseln ihre Erwartungshaltung mitten im Dialog. Wenn ein Modell nur mit perfekten Daten trainiert oder bewertet wurde, lernt es vor allem, mit perfekten Nutzern umzugehen. Das ist in etwa so sinnvoll wie ein Fahrsimulator, der nie Regen, Baustellen oder andere Verkehrsteilnehmer simuliert.

Drei Prinzipien, die „echte Welt“ in Daten übersetzen

KI-Training darf nicht als reines Modellthema betrachtet werden, sondern als Erfahrungsdesign. Daten müssen so beschaffen sein, dass sie die spätere Nutzung glaubwürdig vorwegnehmen. Drei Leitplanken sind für eine hohe Datenqualität entscheidend:

1. Vielfalt und Skalierung: Nicht nur „mehr“, sondern „breiter“

Daten müssen die Bandbreite der Zielgruppe demografisch, geografisch und kulturell, aber auch hinsichtlich Nutzungssituationen und Kompetenzlevel abbilden. Ein Healthcare-Chatbot braucht andere Perspektiven als ein Legal-Tech-Assistent. Und ein global ausgerolltes System muss verstehen, dass Ton, Höflichkeit oder Direktheit je nach Region anders wahrgenommen werden.

Testpersonen in Japan bewerten etwa Chatbot-Antworten gezielt nach Tonalität und Höflichkeit – Kategorien, die kulturell unterschiedlich interpretiert werden. Entsprechende Anpassungen sind daher keine Kosmetik, sondern funktionale Anforderungen an Verständlichkeit und Akzeptanz. Wer stattdessen nur mit internen Teams oder homogenen Testgruppen arbeitet, optimiert ungewollt auf den eigenen Bias und entwickelt am Markt vorbei.

2. Hochwertige und menschlich erzeugte Datenqualität

Synthetische Daten können helfen, Lücken zu schließen oder Skalierung zu erreichen. Aber sie reproduzieren oft die Muster, die bereits im System stecken. Genau dadurch fehlt aber das Entscheidende: echtes, widersprüchliches menschliches Verhalten. Menschen missverstehen, tippen falsch, fragen unangemessen oder unpräzise, und genau diese Inputs zeigen, ob ein System bereit für den Rollout ist. Daher ist es entscheidend, dass Unternehmen weiterhin Menschen einsetzen, um Prompts und Antworten zu bewerten.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Besonders wertvoll sind dabei zwei Rollen: Generalisten ohne Vorwissen, die unvorhersehbare Wege gehen und dadurch blinde Flecken sichtbar machen, sowie Fachexperten, die die richtigen Prüffragen kennen und Risiken erkennen, bevor diese im Live-Betrieb auftreten.

3. Harm Reduction: Risiken sind keine Bugs, sondern Folgen

Selbst gut trainierte Modelle können etwa durch Verzerrungen, blinde Flecken oder Missbrauch Schaden anrichten. Hier setzt Adversarial Testing oder Red Teaming als fester Bestandteil der Daten- und Teststrategie an. Doch nur 32,5 Prozent der Unternehmen nutzen dieses „feindliche“ Testing. Dabei sind die relevanten Fragen längst bekannt: Gibt ein Bot problematische Ratschläge? Lässt er sich zu riskantem Verhalten verleiten? Leakt er sensible Informationen? Produziert er toxische oder diskriminierende Inhalte?

Wichtig ist dabei die Unterscheidung zwischen funktionalen Fehlern, die sich reproduzieren und patchen lassen, und potenziellen Schäden, die kontextabhängig, schwer sichtbar und reputationskritisch sind. Red Teaming mit echten Menschen aus realen Communities kann genau diese blinden Flecken aufdecken, die in theoretischen Szenarien oder synthetischen Datensätzen nicht auftauchen.