Laut Gartner handelt es sich bei Dark Data um die Informations-Assets, die Unternehmen im Rahmen ihrer regulären Geschäftstätigkeit sammeln, verarbeiten und speichern. Grundsätzlich nutzen Sie diese aber nicht für andere Zwecke wie Analysen, Geschäftsbeziehungen und direkte Monetarisierung.1
Die meisten Unternehmen speichern heutzutage riesige Mengen an Dark Data. In der globalen Umfrage von Splunk unter mehr als 1.300 Geschäfts- und IT-Entscheidungsträgern gaben 60 Prozent der Befragten an, dass die Hälfte oder mehr der Daten ihres Unternehmens als „dunkel“ gelten. Ein ganzes Drittel der Befragten gab an, dass der Anteil bei 75 Prozent oder mehr liegt.2
Dark Data sammelt sich an, weil Unternehmen davon überzeugt sind, dass es sinnvoll ist, alle Informationen, die sie erfassen können, in großen Data Lakes zu speichern. Das liegt zum Teil an der Einführung kostengünstiger Speicher, die es einfach machen, die Speicherung großer Datenmengen zu rechtfertigen – für den Fall, dass sie eines Tages wertvoll werden.
Letztendlich verwenden die meisten Unternehmen nicht einmal einen Bruchteil dessen, was sie speichern, weil das Speichersystem die Metadaten-Labels nicht ordnungsgemäß dokumentiert, einige der Daten in einem Format vorliegen, das von den integrierten Tools nicht gelesen werden kann, oder die Daten nicht über eine Abfrage abgerufen werden können.
Dark Data sind ein wesentlicher limitierender Faktor bei der Erstellung guter Datenanalysen, da die Qualität jeder Datenanalyse von der Menge an Informationen abhängt, die den Analysetools sowohl zeitnah als auch in allen Einzelheiten zur Verfügung stehen.
Zusätzlich verursacht Dark Data Verbindlichkeiten, erhebliche Speicherkosten und verpasste Marktchancen, da Teams nicht erkennen, welche Daten ihnen potenziell zur Verfügung stehen.
Es gibt zahlreiche Gründe dafür, dass die Daten eines Unternehmens nicht mehr verfügbar sind. Dazu gehören:
Hinsichtlich ihrer Auffindbarkeit für zeitnahe und vollständige Datenanalyse-Initiativen kann es sich bei Dark Data um strukturierte Daten, unstrukturierte Daten oder halbstrukturierte Daten handeln.
Strukturierte Daten sind Informationen, die vor der Speicherung in klar definierte Tabellen- oder Datenbankfelder eingefügt werden.
Server-Protokolldateien, Internet der Dinge (IoT)-Sensordaten, Kundenbeziehungsmanagement (CRM)-Datenbanken und ERP-Systeme sind Beispiele für Dark Data, die aus strukturierten Datenquellen erstellt werden.
Obwohl die meisten Arten sensibler Daten, wie elektronische Kontoauszüge, Krankenakten und verschlüsselte Kundeninformationen, in der Regel in strukturierter Form vorliegen, ist deren Einsicht und Kategorisierung aufgrund von Berechtigungsproblemen schwierig.
Im Gegensatz zu strukturierten Daten enthalten unstrukturierte Daten Informationen, die nicht in Datenbanken oder Tabellenkalkulationen organisiert werden können, um sie ohne Konvertierung, Kodierung, Tiering und Strukturierung zu analysieren.
E-Mail-Korrespondenzen, PDFs, Textdokumente, Social-Media-Beiträge, Aufzeichnungen von Call-Centern, Chat-Protokolle und Überwachungsvideos sind Beispiele für Dark Data, die aus unstrukturierten Datenquellen entstehen.
Halbstrukturierte Daten sind unstrukturierte Daten, die einige Informationen in definierten Datenfeldern enthalten. Obwohl sie sich nicht so gut wie strukturierte Daten zur Datenerkennung von Dark Data eignen, können sie durchsucht oder katalogisiert werden.
Beispiele hierfür sind HTML-Code, Rechnungen, Grafiken, Tabellen und XML-Dokumente.
Die Kosten für die Speicherung von Dark Data können hoch sein und weit über die direkten finanziellen Kosten für die Speicherung von Dark Data hinausgehen. Zu den direkten und indirekten Kosten gehören:
Die Speicherung von Daten, auch wenn sie nicht aktiv genutzt werden, erfordert eine physische oder digitale Speicherinfrastruktur. Dazu können Server, Rechenzentren, Cloud-Speicherlösungen und Backup-Systeme gehören. Je mehr Daten in Ihrem Ökosystem vorhanden sind, desto mehr Datenspeicher-Kapazität benötigen Sie. Dies führt zu höheren Infrastrukturkosten.
In den letzten Jahren haben Regierungen eine Vielzahl globaler Datenschutzgesetze eingeführt, die für alle Daten gelten – selbst für Daten, die ungenutzt in Analyse-Repositories liegen.
Viele Unternehmen verpassen Chancen, weil sie diese Daten nicht nutzen. Obwohl die Bereinigung von Dark Data, die aufgrund von Risiken und Kosten nicht nutzbar sind, sinnvoll ist, lohnt es sich, zunächst zu analysieren, welche Daten verfügbar sind, um festzustellen, welche davon möglicherweise nützlich sind.
Die Verwaltung großer Datenmengen, einschließlich Dark Data, kann die Prozesse zur Datenabfrage und -analyse verlangsamen. Mitarbeiter verbringen möglicherweise mehr Zeit mit der Suche nach relevanten Informationen, was zu einer geringeren Produktivität und höheren Arbeitskosten führt.
Dunkle Daten bergen Risiken in Bezug auf unzureichende Cybersicherheit, Datenschutzverletzungen, Compliance-Verstöße und Datenverlust. Diese Risiken können zu Imageschäden und finanziellen Folgen führen.
Manchmal kommt es aufgrund von Datenqualitätsprobleme zur Entstehung von Dark Data.
Ein Transkript einer Audioaufnahme wird beispielsweise automatisch erstellt, aber die KI, die das Transkript erstellt hat, macht einige Fehler bei der Transkription. Jemand bewahrt die Abschrift jedoch in der Annahme auf, dass er das Problem irgendwann lösen wird – was jedoch nie geschieht.
Wenn Unternehmen versuchen, Daten von schlechter Qualität zu bereinigen, übersehen sie manchmal die Ursache des Problems. Ohne das richtige Verständnis ist es unmöglich sicherzustellen, dass das Datenqualitätsproblem künftig nicht mehr auftritt.
Diese Situation wird dann zu einem Teufelskreis, da Unternehmen nicht einfach Richtlinien zum Löschen für Dark Data anwenden, die ungenutzt herumliegen. Stattdessen werden sie weiterhin speichern und tragen so zu einem zunehmenden Datenqualitätsproblem bei.
Glücklicherweise gibt es drei Schritte für das Datenqualitätsmanagement, die Unternehmen ergreifen können, um dieses Problem zu beheben:
Trotz aller Kosten und Datenqualitätsprobleme, die mit Dark Data einhergehen, gibt es auch Vorteile. Wie Splunk es ausdrückt: „Dark Data können eine der größten ungenutzten Ressourcen eines Unternehmens sein.“3
Durch einen proaktiven Ansatz bei der Verwaltung von Dark Data können Unternehmen Licht ins Dunkel bringen. Dies reduziert nicht nur Verbindlichkeiten und Kosten, sondern gibt den Teams auch die Ressourcen an die Hand, die sie benötigen, um Erkenntnisse aus verborgenen Daten zu gewinnen.
Wenn es darum geht, mit Dark Data umzugehen und sie möglicherweise für bessere datengestützte Entscheidungen zu nutzen, gibt es mehrere Best Practices, die befolgt werden sollten:
Dark Data entstehen oft aufgrund von Datensilos innerhalb des Unternehmens. Ein Team erstellt Daten, die für ein anderes Team nützlich sein könnten, aber das andere Team weiß nichts davon. Das Aufbrechen dieser Silos macht diese Daten für das Team verfügbar, das sie benötigt. Es kommt zu einer Bereitstellung von enormen Wert.
Es ist wichtig zu verstehen, welche Daten im Unternehmen vorhanden sind. Zunächst werden alle Daten innerhalb des Unternehmens klassifiziert, um einen vollständigen und genauen Überblick zu erhalten. Auf dieser Grundlage können Teams mit der besseren Organisation ihrer Daten beginnen, um es den einzelnen Teammitgliedern zu erleichtern, die benötigten Daten zu finden und zu nutzen.
Die Einführung einer Data-Governance-Richtlinien kann langfristig zur Verbesserung der Situation beitragen. Diese Richtlinie sollte festlegen, wie alle eingehenden Daten überprüft werden, und klare Richtlinien dafür enthalten, was gespeichert (und wie es organisiert werden sollte, um eine klare Datenverwaltung zu gewährleisten), archiviert oder vernichtet werden sollte. Ein wichtiger Teil dieser Richtlinie besteht darin, genau festzulegen, welche Daten wann vernichtet werden sollten. Eine konsequente Data Governance und regelmäßige Überprüfung der Praktiken können dazu beitragen, die Menge ungenutzter Dark Data zu minimieren.
Um Dark Data zu entdecken, können maschinelles Lernen (ML) und künstliche Intelligenz (KI) die schwere Aufgabe der Kategorisierung von Dark Data übernehmen, indem sie Daten analysieren, die wertvolle Erkenntnisse enthalten können. Zusätzlich kann die maschinelle Lernautomatisierung bei der Einhaltung von Datenschutzbestimmungen helfen, indem sie automatisch sensible Informationen aus gespeicherten Daten entfernt.
Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.
Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.
1 Gartner-Glossar, Gartner
2 The State of Dark Data, Splunk, 2019
3 Dark Data: Discovery, Uses & Benefits of Hidden Data , Splunk, 3. August 2023