DB Podcast

Einfluss von Datenqualität auf künstliche Intelligenz Trusted Data: So verändern Fake News KI-gestützte Geschäftsentscheidungen

Ein Gastbeitrag von Benjamin Bohne 4 min Lesedauer

Anbieter zum Thema

Jede Künstliche Intelligenz ist nur so gut wie ihre Datengrundlage. Das Problem: Die Zunahme und Verbreitung von Falschinformationen, die in das Trainingsmodell der unternehmenseigenen KI einfließen. Wie kann sichergestellt werden, dass Unternehmen dies für ihre KI-Lösungen vermeiden und nur auf Trusted Data setzen?

(Bild:  Skórzewiak / Adobe Stock)
(Bild: Skórzewiak / Adobe Stock)

Künstliche Intelligenz boomt: Laut einer aktuellen Studie der Marktforscher von IDC werden bis zum Jahr 2027 die Investitionen in KI weltweit auf 143 Milliarden US-Dollar ansteigen. Grundlegende Sicherheitsfragen zum Thema Künstliche Intelligenz rücken so immer stärker in den Fokus. Vor allem im Zusammenspiel mit der Gefahr durch zirkulierende Fake News wird der Einsatz von KI, die auf externe Daten zugreift, von vielen mittlerweile kritisch gesehen. Für Unternehmen gilt es daher sicherzustellen, dass an nur auf vertrauenswürdige Daten zugreift –  Stichwort Trusted Data. 

Fake News versus Trusted Data

Die Verbreitung von KI-Tools, für deren Nutzung keine speziellen Kenntnisse mehr erforderlich sind, hat bereits heute zu einer explosionsartigen Zunahme von Falschinformationen und so genannten „synthetischen“ Inhalten (Klonen von falschen Stimmen oder Webseiten) geführt. Diese können etwa dazu genutzt werden, Menschen zu manipulieren, einzelne Wirtschaftszweige zu schädigen und Gesellschaften auf unzählige Arten zu spalten, wie der Global Risk Report 2024 des Weltwirtschaftsforums feststellte. 

Dass KI dazu genutzt wird, gezielt Fake News zu verbreiten, ist keine neue Einsicht. Doch eine entscheidende Frage für die Zukunft ist: Was passiert, wenn Künstliche Intelligenz massenhaft mit Fake News gefüttert wird? Und wie können Unternehmen sicherstellen, dass ihre eigenen Datengrundlagen vertrauenswürdig und sicher bleiben?

Einschränkungen von Sicherheit und Wirtschaft

Die meisten Falschinformationen, die KI-Tools verbreiten, lassen sich darauf zurückführen, dass die Algorithmen nicht mit Daten ausreichender Qualität trainiert wurden. Ausreichende Qualität bedeutet, dass die Herkunft der Daten, die Aktualität, die Governance sowie deren Wahrhaftigkeit als gesichert gelten –  also Trusted Data. 

Was passiert, wenn Künstliche Intelligenz massenhaft mit Fake News gefüttert wird? Und wie können Unternehmen sicherstellen, dass ihre eigenen Datengrundlagen vertrauenswürdig und sicher bleiben?

Auf der anderen Seite kann generative Künstliche Intelligenz – wenn sie nur Zugriff auf abgekapselte Daten-Silos hat – keinen richtigen Kontext liefern. Das führt wiederum zu Sicherheits- und Compliance-Problemen, verfälscht mögliche Analysen und verändert die daraus gezogenen Schlüsse für die Unternehmensstrategie. Nur mit einer ausreichend gesicherten und gleichzeitig glaubwürdigen Datengrundlage lässt sich also auch ein dauerhaftes Vertrauen in KI-Tools und deren Daten aufbauen. 

Falls KI-Modelle im privaten und öffentlichen Sektor hingegen nicht vor eingeschleusten falschen Daten geschützt werden, kann dies künftig übergreifende Konsequenzen für die Wirtschaft und die Sicherheit des Landes haben. So ist es vorstellbar, dass in naher Zukunft durch die Kombination verschiedener Hacking-Techniken Cyberkriminelle oder feindliche ausländische Akteure falsche geografische Informationen generieren und diese in Navigationssysteme einspeisen. Störungen in Bereichen wie Verkehr, Logistikketten und Verteidigungsanlagen sowie zahlreiche Notfälle wären die Folgen.

Nur mit einer ausreichend gesicherten und gleichzeitig glaubwürdigen Datengrundlage lässt sich auch ein dauerhaftes Vertrauen in KI-Tools und deren Daten aufbauen. 

Human in the Loop

Aber wie stellen Unternehmen sicher, dass ihre Künstliche Intelligenz nicht mit falschen Daten gefüttert wird? Am Ende entscheidet eine Führungskraft wie der CDO oder sein Team mithilfe technischer Unterstützung, ob gewisse Daten geeignet für das Training einer KI sind oder nicht. Sie wissen: Entscheidend dabei ist, dass das Unternehmen die Kontrolle über die eigenen Daten behält. Deshalb sind Lösungen, bei denen Unternehmen ihre Daten-Modelle verwenden können, auch wenn es sich um Lösungen von Drittanbietern handelt, empfehlenswert.

Dieses Konzept wird auch als „Human in the Loop“ bezeichnet – also die menschliche Präsenz bei jedem Teilprozess. Algorithmen werden trotz des stetig voranschreitenden technischen Fortschritts immer noch von Menschen entwickelt. Genauso sollten Menschen auch eine zentrale Rolle bei der Auswahl und Analyse der Datenquellen spielen, von denen KI- und Machine-Learning-Algorithmen gespeist werden. Die menschliche Beteiligung an der Entwicklung von Künstlicher Intelligenz kann sicherstellen, dass von Anfang an vertrauenswürdige und qualitativ hochwertige Daten verwendet werden und die Eingaben auf den Algorithmus abgestimmt sind. So lassen sich genaue Informationen liefern und Verzerrungen vermeiden.

Ein weiteres Mittel, um die Verbreitung von Falschinformationen zu untersuchen und zu unterbinden, liegt in der Geolokalisierung. Informationen, die generiert werden, haben in der Regel eine räumliche Komponente. Die Herausforderung der Geolokalisierung besteht dementsprechend darin, herauszufinden, wo und in welchem Kontext diese Informationen generiert wurden. So können etwa Fake-News oder Bot-Farmen im Ausland aufgespürt werden. 

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung
Die menschliche Beteiligung an der Entwicklung von Künstlicher Intelligenz kann sicherstellen, dass von Anfang an vertrauenswürdige und qualitativ hochwertige Daten verwendet werden.

Trusted Data schafft Vertrauen in KI

Die Basis für erfolgreiche Künstliche Intelligenz sind also die zugrunde liegenden Daten. Hier spielen Quelle, Governance, Qualität sowie Aktualität und Verfügbarkeit eine Schlüsselrolle. Generative KI kann keinen Kontext liefern, wenn sie nur auf abgekapselte Daten in siloartigen Strukturen zugreift. Dann drohen Sicherheits- sowie Compliance-Probleme und Lücken durch fehlenden Kontext. 

Unternehmen müssen also sicherstellen, dass sie die richtigen Daten nutzen. Die Schaffung von vertrauenswürdigen und sicheren Datenquellen wird damit einen Vorteil bei der Erzeugung von zuverlässigen Ergebnissen mit generativen KI-Anwendungen haben und diesen Unternehmen auf Dauer einen Wettbewerbsvorteil bieten.

Benjamin Bohne
ist Group Vice President Sales CEMEA bei Cloudera.

Bildquelle: Cloudera