Startseite topics Was bedeutet Data Mesh? Was bedeutet Data Mesh?
Erfahren Sie, was Data Mesh ist, wie es mit einer Data Fabric zusammenhängt und wie es durch Dezentralisierung Daten in einer großen Organisation demokratisiert.
Menschen, die über einen Innenhof schreiten
Was bedeutet Data Mesh?

Unter Data Mesh versteht man eine dezentralisierte Datenarchitektur, die Daten nach einem bestimmten Unternehmensbereich organisiert, z. B. Marketing, Vertrieb, Kundendienst usw., so dass die Produzenten eines bestimmten Datensatzes mehr Eigenverantwortung erhalten. Das Verständnis der Produzenten für die Domänendaten ermöglicht es ihnen, Richtlinien für die Datenverwaltung festzulegen, die sich auf die Dokumentation, die Qualität und den Zugriff konzentrieren. Dies wiederum ermöglicht die Self-Service-Nutzung innerhalb eines Unternehmens. Obwohl dieser föderierte Ansatz viele betriebliche Engpässe beseitigt, die mit zentralisierten, monolithischen Systemen verbunden sind, bedeutet dies nicht unbedingt, dass Sie keine traditionellen Speichersysteme wie Data Lakes oder Data Warehouses verwenden können. Es bedeutet nur, dass sich deren Verwendung von einer einzigen, zentralisierten Datenplattform zu mehreren dezentralen Datenspeichern verlagert hat.

In diesem Zusammenhang ist anzumerken, dass Data Mesh die Einführung nativer Cloud- und Cloud-Plattform-Technologien fördert, um die Ziele der Datenverwaltung zu erreichen. Dieses Konzept wird häufig mit Microservices verglichen, um dem Publikum die Verwendung in dieser Landschaft zu verdeutlichen. Da diese verteilte Architektur besonders hilfreich bei der Skalierung von Datenanforderungen in einem Unternehmen ist, kann man daraus schließen, dass ein Data Mesh nicht für alle Arten von Unternehmen geeignet ist. Das heißt, kleinere Unternehmen profitieren möglicherweise nicht von den Vorteilen eines Data Mesh, da ihre Unternehmensdaten möglicherweise nicht so komplex sind wie die eines größeren Unternehmens.  

Zhamak Dehghani, Technologiedirektorin des IT-Beratungsunternehmens ThoughtWorks, gilt als Fördererin des Data-Mesh-Konzepts als Lösung für die Herausforderungen, die zentralisierte, monolithische Datenstrukturen mit sich bringen, wie z. B. die Zugänglichkeit und Organisation der Daten. Die COVID-19-Pandemie hat die Einführung des Konzepts zusätzlich gefördert, um einen kulturellen Wandel voranzutreiben und die organisatorische Komplexität im Zusammenhang mit Daten zu verringern.

Wie funktioniert der Data-Mesh-Ansatz?

Unter Data Mesh versteht man einen kulturellen Wandel in der Art und Weise, wie Unternehmen über ihre Daten denken. Anstatt dass Daten ein Nebenprodukt eines Prozesses sind, werden sie zum Produkt, wobei die Datenproduzenten als Eigentümer der Datenprodukte agieren. In der Vergangenheit war ein zentralisiertes Infrastrukturteam für das Dateneigentum in allen Bereichen zuständig, aber der Fokus des Produktdenkens im Rahmen eines Data-Mesh-Modells verlagert dieses Eigentum auf die Datenproduzenten, da sie die Fachexperten sind. Ihr Verständnis der primären Datenkonsumenten und der Art und Weise, wie diese die operativen und analytischen Daten des Bereichs nutzen, ermöglicht es ihnen, APIs unter Berücksichtigung ihrer Interessen zu entwickeln. Durch dieses bereichsorientierte Design sind die Datenproduzenten zwar auch für die Dokumentation semantischer Definitionen, die Katalogisierung von Metadaten und die Festlegung von Richtlinien für Berechtigungen und die Nutzung verantwortlich, aber es gibt immer noch ein zentrales Data-Governance-Team, das diese Standards und Verfahren für die Daten durchsetzt. Auch wenn die Domänenteams in einer Data-Mesh-Architektur selbst für ihre ETL-Datenpipelines verantwortlich sind, entfällt die Notwendigkeit eines zentralen Data-Engineering-Teams nicht. Deren Verantwortung konzentriert sich jedoch stärker auf die Bestimmung der besten Dateninfrastrukturlösungen für die zu speichernden Datenprodukte.

Ähnlich wie in einer Microservices-Architektur leichtgewichtige Dienste miteinander verbunden werden, um einer geschäfts- oder verbraucherorientierten Anwendung Funktionalität zu verleihen, werden in einem Data Mesh funktionale Domänen verwendet, um Parameter für die Daten festzulegen, so dass sie als Produkt behandelt werden können, auf das Benutzer im gesamten Unternehmen zugreifen können. Auf diese Weise ermöglicht ein Data Mesh eine flexiblere Datenintegration und interoperable Funktionalität, bei der Daten aus mehreren Domänen von den Benutzern sofort für Geschäftsanalysen, Data Science-Experimente und mehr genutzt werden können.

Data Mesh vs. Data Lake

Wie bereits erwähnt, handelt es sich bei einem Data Mesh um eine verteilte Datenarchitektur, bei der die Daten nach ihren Bereichen geordnet sind, um den Benutzern in einem Unternehmen einen besseren Zugang zu ermöglichen. Ein Data Lake ist eine kostengünstige Speicherumgebung, in der in der Regel Petabytes an strukturierten, halbstrukturierten und unstrukturierten Daten für Geschäftsanalysen, maschinelles Lernen und andere umfassende Anwendungen gespeichert werden. Ein Data Mesh ist ein architektonischer Ansatz für Daten, in den ein Data Lake eingebettet werden kann. Ein zentraler Data Lake wird jedoch in der Regel eher als Abladeplatz für Daten verwendet, da er häufig zur Aufnahme von Daten genutzt wird, die noch keinen definierten Zweck haben. Dies kann dazu führen, dass er zu einem Datensumpf wird, d. h. ein Datensee, dem es an der geeigneten Datenqualität und an Data-Governance-Praktiken fehlt, um aufschlussreiche Erkenntnisse zu gewinnen.

Data Mesh vs. Data Fabric

Eine Data Fabric ist ein Architekturkonzept, das sich auf die Automatisierung von Datenintegration, Data Engineering und Governance in einer Datenwertschöpfungskette zwischen Datenanbietern und Datenkonsumenten konzentriert. Eine Data Fabric basiert auf dem Konzept der „aktiven Metadaten“, das Wissensgraphen, Semantik und KI/ML-Technologie nutzt, um Muster in verschiedenen Arten von Metadaten (z. B. Systemprotokolle, soziale Daten usw.) zu erkennen und diese Erkenntnisse zur Automatisierung und Orchestrierung der Datenwertschöpfungskette zu nutzen (z. B. damit ein Datenkonsument ein Datenprodukt finden kann und ihm dieses Datenprodukt dann automatisch zur Verfügung gestellt wird). Ein Data Fabric ergänzt ein Data Mesh und schließt sich nicht gegenseitig aus. Die Data Fabric macht das Data Mesh sogar besser, da sie wichtige Teile des Data Mesh automatisieren kann, z. B. die schnellere Erstellung von Datenprodukten, die Durchsetzung einer globalen Governance und die einfachere Steuerung der Kombination mehrerer Datenprodukte.

Vorteile eines Data Mesh

Demokratisierung von Daten: Data Mesh-Architekturen erleichtern Self-Service-Anwendungen aus mehreren Datenquellen und erweitern den Zugang zu Daten über eher technische Ressourcen wie Datenwissenschaftler, Dateningenieure und Entwickler hinaus. Durch die bessere Auffindbarkeit und Zugänglichkeit von Daten über dieses bereichsorientierte Design werden Datensilos und betriebliche Engpässe reduziert, was eine schnellere Entscheidungsfindung ermöglicht und technischen Benutzern die Möglichkeit gibt, Aufgaben zu priorisieren, die ihre Fähigkeiten besser nutzen.

Kosteneffizienz: Diese verteilte Architektur entfernt sich von der Batch-Datenverarbeitung und fördert stattdessen den Einsatz von Cloud-Datenplattformen und Streaming-Pipelines zur Datenerfassung in Echtzeit. Cloud-Speicher bietet einen zusätzlichen Kostenvorteil, da Datenteams große Cluster nach Bedarf zusammenstellen können und nur für den angegebenen Speicherplatz zahlen müssen. Wenn Sie also zusätzliche Rechenleistung benötigen, um einen Auftrag in wenigen Stunden statt in einigen Tagen auszuführen, können Sie dies auf einer Cloud-Datenplattform durch den Erwerb zusätzlicher Rechenknoten problemlos realisieren. Das bedeutet auch, dass die Speicherkosten besser einsehbar sind, was eine bessere Budget- und Ressourcenzuweisung für Entwicklungsteams ermöglicht.

Weniger technische Schulden: Eine zentralisierte Dateninfrastruktur verursacht mehr technische Schulden aufgrund der Komplexität und der erforderlichen Zusammenarbeit bei der Wartung des Systems. Wenn sich Daten in einem Repository ansammeln, verlangsamt sich auch das Gesamtsystem. Durch die Verteilung der Datenpipeline nach Domäneneigentum können Datenteams die Anforderungen ihrer Datenkonsumenten besser erfüllen und die technische Belastung des Speichersystems verringern. Außerdem können sie den Zugang zu den Daten erleichtern, indem sie ihnen APIs zur Verfügung stellen, mit denen sie sich verbinden können, wodurch das Gesamtvolumen der einzelnen Anfragen verringert wird.

Interoperabilität: Im Rahmen eines Data-Mesh-Modells einigen sich die Dateneigentümer im Vorfeld auf die Standardisierung von bereichsunabhängigen Datenfeldern, was die Interoperabilität erleichtert. Wenn ein Domänen-Team seine jeweiligen Datensätze strukturiert, wendet es auf diese Weise die relevanten Regeln an, um eine schnelle und einfache Datenverknüpfung über Domänen hinweg zu ermöglichen.  Einige Felder, die üblicherweise standardisiert werden, sind Feldtyp, Metadaten, Schemaflags und mehr. Durch die bereichsübergreifende Konsistenz können Datenkonsumenten einfacher mit APIs arbeiten und Anwendungen entwickeln, die ihren geschäftlichen Anforderungen besser gerecht werden.

Sicherheit und Compliance: Data Mesh-Architekturen fördern stärkere Governance-Praktiken, da sie zur Durchsetzung von Datenstandards für domänenunabhängige Daten und Zugriffskontrollen für sensible Daten beitragen. Dadurch wird sichergestellt, dass Unternehmen staatliche Vorschriften wie HIPPA-Beschränkungen einhalten, und die Struktur dieses Datenökosystems unterstützt diese Einhaltung durch die Ermöglichung von Datenaudits. Log- und Trace-Daten in einer Data-Mesh-Architektur betten die Beobachtbarkeit in das System ein, so dass Auditoren nachvollziehen können, welche Benutzer auf bestimmte Daten zugreifen und wie häufig dieser Zugriff erfolgt.

Anwendungsfälle eines Data Mesh

Während verteilte Data-Mesh-Architekturen immer noch Akzeptanz finden, helfen sie Teams dabei, ihre Skalierbarkeitsziele für gängige Big-Data-Anwendungsfälle zu erreichen. Sie beinhalten:

  • Business-Intelligence-Dashboards: Wenn neue Initiativen entstehen, benötigen die Teams in der Regel angepasste Datenansichten, um die Leistung dieser Projekte zu verstehen. Data Mesh-Architekturen können diesen Bedarf an Flexibilität und Anpassung unterstützen, indem sie Daten für Datenkonsumenten besser verfügbar machen. 
  • Automatisierte virtuelle Assistenten: Unternehmen verwenden häufig Chatbots zur Unterstützung von Callcentern und Kundendienstteams. Da häufig gestellte Fragen verschiedene Datensätze betreffen können, kann eine verteilte Datenarchitektur mehr Datenbestände für diese virtuellen Agentensysteme verfügbar machen.
  • Kundenerfahrung: Kundendaten ermöglichen es Unternehmen, ihre Benutzer besser zu verstehen und personalisiertere Erfahrungen zu bieten. Dies wurde in einer Vielzahl von Branchen beobachtet, vom Marketing bis zum Gesundheitswesen.
  • Machine-Learning-Projekte: Durch die Standardisierung von bereichsunabhängigen Daten können Datenwissenschaftler Daten aus verschiedenen Datenquellen leichter zusammenführen und so den Zeitaufwand für die Datenverarbeitung verringern. Diese Zeit kann dazu beitragen, die Anzahl der Modelle zu beschleunigen, die in eine Produktionsumgebung überführt werden, wodurch die Automatisierungsziele erreicht werden können.
Ressourcen Der Käuferleitfaden für Daten und KI

Erfahren Sie, was Sie bei der Suche nach der richtigen Daten- und KI-Plattform für Ihr Unternehmen beachten sollten. (2,1 MB)

Die 5 Mythen über den Data Lake

Lassen Sie sich nicht von Fehlinformationen verwirren. Erfahren Sie mehr über die 5 Mythen eines Data Lakehouse. (271 KB)

IBM Lösungen
IBM Cloud Pak for Data

IBM unterstützt die Implementierung eines Data Mesh mit der IBM Data Fabric on Cloud Pak for Data. Die IBM Data Fabric ist eine einheitliche Lösung, die alle Funktionen enthält, die für die Erstellung von Datenprodukten und den gesteuerten und orchestrierten Zugriff und die Nutzung dieser Datenprodukte erforderlich sind. Die IBM Data Fabric ermöglicht die Implementierung eines Datennetzes auf jeder Plattform (z. B. Data Lakes vor Ort, Cloud Data Warehouses usw.), was einen echten Self-Service auf Unternehmensebene und die Wiederverwendung von Datenprodukten ermöglicht, unabhängig davon, wo sich die Daten befinden.

IBM Cloud Pak for Data
Machen Sie den nächsten Schritt

IBM unterstützt die Implementierung eines Data Mesh durch seine Data-Fabric-Lösungen. Der IBM-Ansatz für eine Data Fabric ist die Lösung für vier wichtige gemeinsame Kundenprobleme: Data Governance & Privacy, Multicloud Data Integration, MLOps und vertrauenswürdige KI und Customer 360, die alle auf der Hybrid-Cloud-Plattform IBM Cloud Pak for Data bereitgestellt werden.

Mehr über IBM Cloud Pak for Data erfahren