Was ist Datenherkunft?

Veröffentlicht: 23. Juli 2024
Mitwirkung: Tim Mucci

Die Datenherkunft ist die historische Aufzeichnung von Daten, die die Herkunft der Daten detailliert beschreibt, indem ihre Metadaten erfasst werden, während sie verschiedene Prozesse und Transformationen durchlaufen. Die Datenherkunft befasst sich in erster Linie mit der Authentizität und liefert Details, wie z. B. wer die Daten erstellt hat, die Änderungshistorie und wer diese Änderungen vorgenommen hat.

Die Datenherkunft schützt die Integrität und Zuverlässigkeit von Daten innerhalb eines Unternehmens, indem sie die Historie der Daten, ihre Umwandlungen und ihren Weg durch verschiedene Prozesse akribisch dokumentiert. Dieser historische Kontext hilft bei der Einhaltung von Vorschriften, da er die Genauigkeit und Legitimität von Daten sicherstellt und gewährleistet, dass Unternehmen die gesetzlichen und branchenüblichen Standards erfüllen. Außerdem erhöht die Datenherkunft die Transparenz und Verantwortlichkeit im Umgang mit Daten, ein entscheidender Aspekt von Cybersicherheit.

KI erfordert neue Wege der Datenverwaltung

Dieser Leitfaden bietet Einblicke in die Auswahl der richtigen Datenbanken für verschiedene Anforderungen, sei es für zuverlässige Analysen und generative KI oder für die Entwicklung skalierbarer und resilienter Anwendungen.

Warum ist die Datenherkunft wichtig?

Daten sollten niemals ein Rätsel sein. Da Big Data jedoch weiter wächst, können sie schnell zu einem werden. Um ihre Geschäftsinteressen sowie die Interessen ihrer Mitarbeitern und Kunden zu schützen, müssen Unternehmen wissen, wo die Daten entstanden sind und wie sie sich durch die Pipeline bewegen und umgewandelt werden.

Für ein Unternehmen, das den größtmöglichen Nutzen aus seinen Daten ziehen möchte, sind Methoden zum Verständnis der Datenherkunft unerlässlich, um Authentizität, Zuverlässigkeit und Datenintegrität zu erhalten. Die Herkunft sorgt für Transparenz bei Forschern und Datenanalysten und bietet eine Informationskette, in der Dateneigner oder Data Scientists Datenprobleme verfolgen können, wenn die Daten für neue Zwecke angepasst werden. Diese umfassende Aufzeichnung gewährleistet, dass die Daten im Entscheidungsprozess korrekt und zuverlässig sind. Wenn Führungskräfte von der Authentizität ihrer Daten überzeugt sind, können sie fundiertere und wirkungsvollere Entscheidungen treffen. Transparenz in der Forschung ist entscheidend für die Nachnutzung und Reproduzierbarkeit von Forschungsergebnissen und schafft eine solide Grundlage für die Datenintegrität.

Datenherkunft im Vergleich zu Datenabstammung

Datenherkunft und Datenabstammung sind eng miteinander verknüpfte Konzepte, dienen aber unterschiedlichen Zwecken. Datenabstammung verfolgt die Bewegung und Umwandlung von Daten oder Datensätzen durch verschiedene Systeme, Prozesse und Anwendungen, wobei der Schwerpunkt darauf liegt, wie die Daten fließen und sich verändern.

Die Datenherkunft ist die Aufzeichnung von Metadaten aus der Quelle der Daten, die den historischen Kontext und die Authentizität liefern. Während die Datenabstammung zur Optimierung und Fehlerbehebung von Datenpipelines beiträgt, hilft die Datenherkunft bei der Validierung und Prüfung von Daten.

Tools zur Datenherkunft

Bei der Datenherkunft werden verschiedene Technologien eingesetzt, um die Vertrauenswürdigkeit von Daten zu verbessern. Dabei geht es darum, Daten von ihrer Erstellung über mehrere Umwandlungen bis hin zu ihrem aktuellen Zustand zu verfolgen und einen detaillierten Verlauf des Lebenszyklus der einzelnen Datenbestände nachzuzeichnen. Abhängigkeiten in Daten verdeutlichen die Beziehungen zwischen Datensätzen, Umwandlungen und Prozessen, bieten einen ganzheitlichen Überblick über die Datenherkunft und zeigen, wie sich Änderungen in einem Teil der Datenpipeline auf andere auswirken können. Wenn es eine Diskrepanz in den Daten gibt, helfen Abhängigkeiten, das Problem auf den spezifischen Prozess, den Ersteller oder den Datensatz zurückzuführen, der es verursacht hat.

Algorithmen werden in diesem Prozess häufig verwendet, um den Datenfluss durch verschiedene Systeme automatisch zu erfassen und zu dokumentieren, was den manuellen Aufwand reduziert und Fehler minimiert. Sie zertifizieren Konsistenz und Genauigkeit, indem sie die Datenverarbeitung standardisieren und die Verfolgung von Datenumwandlungen in Echtzeit ermöglichen. Fortschrittliche Algorithmen können Anomalien oder ungewöhnliche Muster erkennen, um potenzielle Datenintegritätsprobleme oder Sicherheitslücken zu identifizieren. Zur Identifizierung von Ineffizienzen und Einhaltung von Vorschriften verwenden Unternehmen auch Algorithmen und stellen detaillierte und genaue Aufzeichnungen für behördliche Anforderungen bereit.

APIs werden verwendet, um eine nahtlose Integration und Kommunikation zwischen verschiedenen Systemen, Tools und Datenquellen zu ermöglichen. Sie ermöglichen die automatische Erfassung, den Austausch und die Aktualisierung von Herkunftsinformationen über verschiedene Plattformen hinweg, was die Genauigkeit und Vollständigkeit der Herkunftsaufzeichnungen verbessert.

Die Datenherkunft bietet Unternehmen den notwendigen Kontext, um Richtlinien, Standards und Praktiken durchzusetzen, die die Verwendung von Daten innerhalb des Unternehmens regeln. Mehrere Tools unterstützen die Datenherkunft, darunter das CamFlow-Projekt, das Open Source-System Kepler für wissenschaftliche Workflows, Linux® Provenance Modules und das Open Provenance Model. Diese Tools sowie Tools zu Datenabstammung, Governance, Management und Observability bilden eine umfassende und effiziente Datenpipeline.

Anwendungsfälle der Datenherkunft

Die Datenherkunft hat praktische Anwendungen in verschiedenen Branchen. Sie hilft dabei, die Vertrauenswürdigkeit von Daten zu gewährleisten, und bietet Datenteams die Möglichkeit, Daten aus zuverlässigen und authentischen Quellen vertrauensvoll zu verwenden.

Überwachung der Datenqualität

Die Überwachung der Datenqualität ist eine beliebte Anwendung der Datenherkunft. Sie ermöglicht Unternehmen, die Ursprünge von Datendiskrepanzen zu verfolgen und zu identifizieren, wann und wo Probleme mit der Datenqualität auftreten. Im Falle eines Sicherheitsvorfalls kann das Verständnis der Herkunft sensibler Daten dabei helfen, die Ursache des Datenproblems zu untersuchen, den Weg nachzuverfolgen und potenzielle Sicherheitsverletzungen oder Richtlinienverstöße zu identifizieren.

Debugging

Die Fehlersuche mit Hilfe von Herkunftsinformationen hilft Entwicklern und Datenanalysten, den Ursprung und die Umwandlung von Daten nachzuvollziehen, Probleme zu erkennen und Fehler effizient zu korrigieren. Diese detaillierten Erkenntnisse zu Datenflüssen und Abhängigkeiten gewährleisten die Genauigkeit und Zuverlässigkeit der Daten und stärken die gesamten Datenmanagementsysteme.

Pharmazeutische Forschung

In der pharmazeutischen Forschung schützt die Datenherkunft die Integrität der in klinischen Studien verwendeten Daten, indem sie deren Herkunft, Änderungen und verantwortliche Personen nachverfolgt. E-Commerce-Unternehmen nutzen die Datenherkunft, um Kundendaten zu verwalten und Empfehlungsmaschinen zu verbessern, indem sie Empfehlungen auf zuverlässige Daten stützen.

Gesundheitswesen

Die Datenherkunft im Gesundheitswesen und in der klinischen Forschung hilft dabei, die Genauigkeit und Zuverlässigkeit sensibler Daten, wie z B. Patientendaten, zu schützen. Genaue Datensätze zur Datenherkunft helfen auch bei der Einhaltung von Datenschutzbestimmungen wie HIPAA und DSGVO.

Lieferketten

Die Datenherkunft garantiert Transparenz in der Lieferkette, indem sie eine digitale Aufzeichnung der Herkunft, der Verarbeitungsschritte und der Zertifizierungen jedes Produkts erstellt. Diese Transparenz ermöglicht die Überprüfung der Echtheit und Qualität der Produkte sowie die Einhaltung von Gesetzen und ethischen Beschaffungspraktiken. Durch die Datenherkunft werden klare Prüfpfade für Datenzugriffe und -manipulationen in der Cybersicherheit erstellt. So können Unternehmen nicht autorisierte Aktivitäten erkennen und schnell auf Sicherheitsvorfälle reagieren.

Best Practices für das Datenherkunftsmanagement

Das Thema Datenherkunft ist schwierig, da es darum geht, die gesamte Historie eines Datenpunkts aus Einzelteilen zusammenzusetzen, einschließlich seiner Quelle und aller Änderungen über verschiedene Systeme hinweg. Es ist wichtig zu bestätigen, dass die Herkunftsinformationen selbst sicher und zuverlässig sind. Die Integration verschiedener Datenquellen, die Verwendung von Standardformaten für Informationen zur Herkunft und der Schutz sensibler Metadaten vor unbefugtem Zugriff stellen für viele Unternehmen eine Herausforderung dar.

Unternehmen sollten ein Data Governance-Framework einrichten, das Regeln und Standards für die Datenverwaltung, einschließlich der Herkunftsnachverfolgung, festlegt, damit die Datenherkunft effektiv verwaltet wird. Die Implementierung von Tracking-Tools wie Blockchain und DLT (Data Lineage Tools) kann den Tracking-Prozess automatisieren und die Genauigkeit der Metadatensätze zur Herkunft verbessern. Die Förderung einer Kultur der Datenverwaltung und -aufklärung hilft den Mitarbeitern, die Wichtigkeit der Datenherkunft zu verstehen, und veranlasst sie, sich an der Pflege korrekter Aufzeichnungen zu beteiligen.

Die Förderung strategischer datenbasierter Initiativen, die mit messbaren wesentlichen Leistungsindikatoren (Key Performance Indicators – KPIs) verknüpft sind, ist unerlässlich, um die Verfahren zur Datenherkunft in den täglichen Betrieb und in der Kultur des Unternehmens zu verankern. Gut entwickelte Initiativen gewährleisten eine kontinuierliche Verbesserung und Einhaltung der sich entwickelnden Vorschriften und tragen dazu bei, mit dem technologischen Fortschritt Schritt zu halten.

Weiterführende Lösungen

IBM Manta Data Lineage

IBM® Manta Data Lineage trägt zur Verbesserung der Datenqualität, Governance und Compliance bei, indem es automatisch verfolgt, wie Daten innerhalb eines Unternehmens fließen. Diese Visualisierung hilft Nutzern zu verstehen, wie Daten in verschiedenen Systemen verwendet und umgewandelt werden.

IBM Manta Data Lineage erkunden

IBM Cloud Pak for Data

IBM® Cloud Pak for Data kann helfen, Datenqualität, Datenschutz und Compliance zu verbessern. Es kann auch dazu beitragen, dass Nutzer Daten leichter finden und verstehen.

Mehr über IBM Cloud Pak for Data

Zugehörige Ressourcen

Datenintegrität vs. Datenqualität: Gibt es einen Unterschied?

Lernen Sie den Unterschied zwischen Datenintegrität und Datenqualität sowie die Bedeutung vertrauenswürdiger Daten für zuverlässige Entscheidungen kennen. Erhalten Sie Einblick in Methoden zur Verbesserung der Datenqualität innerhalb eines Unternehmens.

Neubewertung der Datenverwaltung im Zeitalter der generativen KI

Erfahren Sie mehr über die Datenverwaltung im Zeitalter der generativen KI. Erfahren Sie, welche Herausforderungen die Integration von Unternehmensdaten mit generativen KI-Lösungen mit sich bringt und wie wichtig Data Governance ist, um Risiken zu mindern und die Einhaltung von Vorschriften zu gewährleisten.

So fördert IBM und die Data & Trust Alliance mehr Transparenz im gesamten Datenökosystem

Erfahren Sie, wie IBM und die Data Trust Alliance Richtlinien erstellen, die für kristallklare Daten sorgen. Diese Standards tragen dazu bei, dass KI auf einem Fundament von Transparenz aufbaut, was sie zuverlässiger und vertrauenswürdiger macht.

Machen Sie den nächsten Schritt

Ergebnisse schneller voraussagen mithilfe einer Plattform mit Data-Fabric-Architektur. Erheben, organisieren und analysieren Sie Daten unabhängig vom Speicherort. Erfahren Sie, wie IBM Cloud Pak for Data die Data Governance-Praktiken Ihres Unternehmens in Multi-Cloud-Umgebungen verbessern kann.

Mehr über IBM Cloud Pak for Data

Starten Sie noch heute Ihre Testversion