Unstrukturierte Daten nutzbar machen

Unstrukturierte Daten nutzbar machen – so funktioniert's!

03.09.2021 Verantwortlicher Redakteur:in: Heiner Sieger 5 min Lesedauer

Anbieter zum Thema

Kendox AG

xSuite Group GmbH

Softeq Development GmbH

Hinter Zahlen und Datensätzen steckt nicht einmal die Hälfte des Wissens einer Organisation. Neue Einblicke gewinnen und bessere Entscheidungen treffen können Unternehmen daher, wenn sie ihren gesamten Datenbestand betrachten.

Daten fallen heute in so gigantischen Mengen an, dass man sie viel umfangreicher nutzen sollte, um daraus bessere Einblicke in die Geschäftsprozesse zu erlangen. Dies hat sich in den Unternehmen längst herumgesprochen. Doch während die Idee leicht zu verstehen ist, kann die Ausführung eine Herausforderung sein. Dafür gibt es viele Gründe: mangelndes oder nicht ausreichend qualifiziertes Personal für die Datenanalyse, mangelhafte Toolsets und fehlerhafte Annahmen.

Eines der größten Hindernisse liegt darin, dass nicht der gesamte Datenbestand betrachtet und verstanden wird. Sicher ist es verlockend, Data Warehouses aus bestehenden Datenbanken zu erstellen und die daraus resultierenden Daten für Analysen zu nutzen. Das Problem bei diesem Ansatz: Er verlässt sich zu sehr auf strukturierte Daten. Unstrukturierte Daten, wie z. B. in E-Mails, Collaboration-Tools wie Microsoft Teams und Dokumenten werden in der Regel ignoriert. Diese beeinträchtigt jedoch empfindlich die Genauigkeit und die Wirkung des Datenanalyseprozesses.

Was sind unstrukturierte Daten?

Um strukturierte mit unstrukturierten Daten zu vergleichen, muss man zunächst ihre unterschiedliche Natur verstehen. Strukturierte Daten umfassen Zahlen oder Text, die in die vordefinierten Felder eines relationalen Datenbankmanagementsystems (RDBMS) wie Oracle oder Microsoft SQL Server passen. Sie nehmen die Form von Zeilen und Spalten einer Datenbank an: Namen und Adressen, demografische Statistiken, Smartphone-Standorte und so weiter.

Strukturierte Daten sind einfach zu bearbeiten und zu durchsuchen, allerdings machen sie nur ein Fünftel aller Daten in einem Unternehmen aus. Der weitaus größte Teil sind die unstrukturierten Daten. Darunter versteht man alle Informationen, die nicht in ein RDBMS passen, weil sie nicht die Einheitlichkeit strukturierter Daten aufweisen. Sie finden sich in PDFs, Office-Dokumenten, PPT Präsentationen, E-Mail-Threads oder Social-Media-Posts. Es handelt sich um Text und Zahlen oder auch Videos, Töne und Bilder, die nicht nach einem Zeilen- und Spaltenschema angeordnet sind.

Wo sich die Markenstimmung verbirgt

Sie sind schwieriger zu erfassen, zu verarbeiten, zu durchsuchen und zu analysieren als ihre strukturierten Gegenstücke und dennoch darf man sie nicht außer Acht lassen. Aufgrund ihrer schieren Überzahl nicht, und vor allem, weil sich in ihnen wertvolle, nicht auf den ersten Blick erkennbare Werte verstecken. Ein Großteil dessen, was Vermarkter „Markenstimmung“ (brand sentiment) nennen, ist in unstrukturierten Daten verborgen.

Aus strukturierten Datensätzen in CRM-Systemen oder Verkaufsstatistiken kann man vielleicht Probleme in der Kundenbindung herauslesen. Wenn Kunden weniger Nachbestellungen tätigen, könnte das ein Hinweis auf ein Problem mit der Markenstimmung sein. Viel besser aber lässt sich negative Markenstimmung noch aus einer Analyse von Social-Media-Beiträgen erkennen. Wenn neun von zehn Kommentaren Sätze wie „Dieses Produkt ist schrecklich“, ist sofortiges Handeln gefragt. Genau um solche Stimmungen zu erkennen, muss man in der Lage sein, unstrukturierte Daten zu analysieren.

Ein weiterer zwingender Grund liegt in der Datenklassifizierung. Darunter versteht man die Identifizierung und anschließende Kennzeichnung von Daten anhand von Klassifizierungen wie „geistiges Eigentum“, „vertraulich“ oder „persönlich identifizierbare Informationen (PII)“. Datenklassifizierung ist grundlegend für Datensicherheit und Compliance. Schließlich ist es unmöglich, Daten effektiv zu schützen, wenn man nicht weiß, wo und was sie sind oder bedeuten.

Der Zweck von Datensicherheitsprogrammen ist der Schutz der „Kronjuwelen“ eines Unternehmens, also seiner wertvollsten und sensibelsten Informationen. Um zu wissen, was darunter zählt, muss man zunächst alle möglichen Datensätze betrachten und identifizieren, welche Teile in diese hochgeschützte Klassifizierung gehören. Dies richtig zu tun bedeutet, auch unstrukturierte Daten zu untersuchen.

Unstrukturierte Daten: Erst was klassifiziert ist, lässt sich angemessen schützen

Ein Unternehmen könnte zum Beispiel großen Wert auf den Schutz seiner Patente legen. Das hört sich einfach an, aber was, wenn Informationen, die die Patentanmeldungen unterstützen, über das gesamte Unternehmen verteilt sind? Dokumente, die in Dateilaufwerken und Cloud-Speichern schlummern, könnten reichhaltiges geistiges Eigentum wie technische Zeichnungen und Forschungsberichte enthalten. Sie dürfen nicht in fremde Hände fallen, sind aber durch die unstrukturierten Daten verwundbar. Um sie zu schützen, muss man die Daten analysieren und herausfinden, wo sich das geistige Eigentum verbirgt. Als solches muss man es dann klassifizieren, um es überhaupt angemessen schützen zu können.

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 16.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die WIN-Verlag GmbH & Co. KG, Chiemgaustraße 148, 81549 München einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://kontakt.vogel.de/de/win abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.

Compliance stellt einen weiteren Anwendungsfall dar. Vorschriften wie HIPAA oder DSGVO, die auf den Schutz personenbezogener Daten abzielen, erfordern die Analyse unstrukturierter Daten. PII-Daten können zum Beispiel leicht in E-Mail-Nachrichten und den ggf. darin enthalten anhängen, wie z.B. PDF-Dokumenten, enthalten sein. Wer nicht weiß, dass diese Daten vorhanden sind, kann sie nicht gegen Datenverletzungen oder unbefugten Zugriff schützen und setzt sich demnach dem Risiko erheblicher finanzieller Strafen aus.

Natural Language Processing erkennt Nuancen

Unstrukturierte Daten lassen sich am besten finden und analysieren mit einer Enterprise Search-Lösung. Deren Crawler durchsuchen den Inhalt von Microsoft Office-Dokumenten, PDFs, E-Mail-Servern und jeder anderen Quelle unstrukturierter Daten im Unternehmen. Während sie die Daten an die Search Engine zurückspielen, erstellt diese einen durchsuchbaren Index der unstrukturierten und strukturierten Daten. Anschließend kann sie mit integrierten Funktionen oder Tools von Drittanbietern Datenklassifikationen zu den unstrukturierten Daten hinzufügen, die sie indiziert hat. Dabei hilft der Einsatz von Funktionen des Natural Language Processing (NLP), also der Fähigkeit eines Computerprogramms, menschliche Sprache so zu verstehen, wie sie gesprochen bzw. geschrieben wurde. Eine gute NLP-Lösung erkennt Nuancen in unstrukturierten Daten, die sich einer eher traditionellen, mechanischen Suchanwendung entziehen könnten.

Unstrukturierte Daten sind ein wichtiger Teil der Datenanalysestrategie eines Unternehmens. Sie sollten auch bei den Bemühungen um Datensicherheit und Compliance eine wichtige Rolle spielen, denn die Konsequenzen einer Nichtbeachtung können schwerwiegend sein. Moderne Enterprise-Search-Lösungen helfen dabei, unstrukturierte Daten zu entdecken, zu klassifizieren und zu analysieren. Sie sollten daher heute zur Standardausrüstung eines Unternehmens gehören.

Lesen Sie auch: Dokumentenaufbewahrung – datenschutzkonform, verschlüsselt & rechtssicher.

Der Autor Alexandre Bilger ist Präsident und CEO des französischen Enterprise-Search-Spezialisten Sinequa. Als Absolvent zweier „Grandes Ecoles“ (École Polytechnique und École des Mines) begann er seine Laufbahn als Software-Architekt, ist seit 2006 bei Sinequa und seit 2010 CEO des Unternehmens.