Eine Datenarchitektur beschreibt, wie Daten verwaltet werden, von der Erfassung über die Transformation zur Verteilung und Nutzung – und legt den Blueprint fest, wie Daten durch Datenspeicher fließen. Sie bildet die Grundlage für Datenverarbeitungsvorgänge und Anwendungen der künstlichen Intelligenz (KI).
Der Entwurf einer Datenarchitektur basiert häufig auf Geschäftsanforderungen und Datenbedarf, die Data Architect und Dateningenieure verwenden, um das Datenmodell und die zugrunde liegenden Datenstrukturen zu definieren, die es unterstützen. Das Design unterstützt typischerweise eine Geschäftsstrategie oder einen Geschäftsbedarf, wie etwa die Berichterstattung oder eine Data-Science-Initiative.
Branchen-Newsletter
Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.
Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.
Vor dem Hintergrund der Skalierung von Daten in Unternehmen ist der Bedarf an einer gut strukturierten, anpassungsfähigen Architektur von größter Bedeutung. Und dennoch nennen 94 % der führenden Datenverantwortlichen das Fehlen einer definierten Datenarchitektur als eine ihrer größten Herausforderungen.1
Eine moderne Datenarchitektur kann helfen, Unternehmensdaten zu vereinheitlichen und zu standardisieren und so einen nahtlosen Datenaustausch zwischen Geschäftsbereichen zu ermöglichen. Darüber hinaus bietet sie eine skalierbare Grundlage für fortgeschrittene Anwendungsfälle wie Echtzeit-Datenanalyse und generativer KI, hilft Teams, schneller und zuverlässiger Werte aus Daten zu ziehen.
Da Technologien wie das Internet der Dinge (IoT) neue Datenquellen generieren, stellt eine gut durchdachte Architektur sicher, dass Daten während ihres gesamten Lebenszyklus verwaltbar, integriert und nützlich bleiben. Sie kann Redundanz reduzieren, die Datenqualität verbessern und zur Beseitigung von Silos beitragen, indem es Systeme im gesamten Unternehmen miteinander verbindet.
Richtig umgesetzt, ist Datenarchitektur nicht nur eine technische Struktur, sondern eine strategische Funktion, die Rohdaten in ein wiederverwendbares Asset umwandelt.
Die Datenarchitektur umfasst mehrere sich überschneidende Konzepte. Die folgenden Punkte können dabei helfen, die Landschaft zu definieren:
Moderne Datenarchitektur folgt in der Regel einem von zwei Kernansätzen: zentralisiert oder dezentral. Diese Modelle leiten die Erfassung, Speicherung und Verwaltung von Unternehmensdaten.
Zentralisierte Architekturen bringen Daten in einheitliche Plattformen wie Data Lakes oder Data Warehouses,die im Rahmen eines einzigen Data Governance-Modells verwaltet werden. Dadurch werden Redundanzen weiter reduziert, die Datenqualität verbessert und die Modellierung strukturierter Daten unter Verwendung von Structured Query Language (SQL) und anderen relationalen Datenbanken unterstützt.
Dezentrale Architekturen verteilen das Dateneigentum auf verschiedene Geschäftsbereiche. Teams verwalten Daten lokal, häufig mithilfe nicht-relationaler Datenbanksysteme (auch „NoSQL-Datenbanken“ genannt) oder ereignisbasierter Pipelines mit eigenen Schemas, Metadaten und Zugriffskontrollen. Dieser Ansatz unterstützt die Integration und Verarbeitung von Daten in Echtzeit, Datenstreaming und maschinelles Lernen (ML).
Die meisten Unternehmen kombinieren beide Modelle, um Skalierbarkeit, Datenintegration und Agilität miteinander in Einklang zu bringen. Dieser hybride Ansatz kann helfen, verschiedene Datenquellen zu unterstützen, Daten-Silos zu reduzieren und cloudnativ Abläufe auf Plattformen wie Microsoft Azure zu ermöglichen.
Unabhängig davon, welches Architekturmodell ein Unternehmen wählt, hängt der Erfolg davon ab, wie gut die zugrunde liegenden Daten strukturiert sind. Hier kommt Datenmodellierung ins Spiel.
Während sich die Datenarchitektur darauf konzentriert, wie Daten systemübergreifend fließen, konzentriert sich die Datenmodellierung auf die Strukturierung von Daten innerhalb dieser Systeme. Datenmodelle definieren die Form, Beziehungen und Beschränkungen von Informationen, während sie sich durch eine Architektur bewegen.
Die Dokumentation zur Datenarchitektur umfasst in der Regel drei Arten von Modellen:
Diese auch als „Domänenmodelle“ bezeichneten konzeptionellen Datenmodelle bieten einen ganzheitlichen Überblick darüber, was das System enthalten wird, wie es organisiert sein wird und welche Business Rules gelten. Diese Modelle werden typischerweise in den frühen Phasen der Projektplanung erstellt und umfassen Entitätsklassen (definierte Elemente, die im Datenmodell verfolgt werden sollen), ihre Merkmale und Einschränkungen, die Beziehungen zwischen ihnen sowie alle relevanten Sicherheits- oder Datenintegritätsanforderungen.
Logische Datenmodelle sind weniger abstrakt als konzeptionelle Modelle und bieten mehr Details zu den Entitäten und Beziehungen innerhalb eines bestimmten Bereichs. Sie folgen einer formalen Datenmodellierung und definieren Datenattribute – wie z. B. Datentypen und Längen – und veranschaulichen gleichzeitig, wie Entitäten miteinander verbunden sind. Wichtig ist, dass logische Modelle technologieunabhängig bleiben und keine systemspezifischen Anforderungen enthalten.
Physische Datenmodelle sind die detailliertesten der drei Datenmodelle und bestimmen, wie die Datenbank implementiert wird. Sie definieren Tabellenstrukturen, Indizes, Speicherformate und Leistungsaspekte. Diese Modelle konzentrieren sich auf die technischen Aspekte der Speicherung und des Zugriffs auf strukturierte Daten und werden als Leitfaden für die Erstellung, Konfiguration und Optimierung von Schemas verwendet.
Datenmodelle prägen die Struktur von Informationen innerhalb eines Systems. Von dort aus bestimmen umfassendere architektonische Frameworks, wie die Modelle und die sie umgebenden Systeme implementiert werden.
Eine Datenarchitektur kann auf gängige Enterprise-Architecture-Frameworks zurückgreifen, darunter TOGAF, DAMA-DMBOK 2 und das Zachman Framework for Enterprise Architecture.
Diese Methodik für die Unternehmensarchitektur wurde 1995 von The Open Group entwickelt. Die Architektur besteht aus vier Säulen:
TOGAF bietet ein vollständiges Framework für die Gestaltung und Implementierung der IT-Architektur eines Unternehmens, einschließlich seiner Datenarchitektur.
DAMA International, ursprünglich als Data Management Association International gegründet, ist eine gemeinnützige Organisation, die sich der Weiterentwicklung des Daten- und Informationsmanagements verschrieben hat. Der Data Management Body of Knowledge, DAMA-DMBOK 2, deckt Datenarchitektur, Governance und Ethik, Datenmodellierung und -design, Speicherung, Sicherheit und Integration ab.
Dieses Framework wurde ursprünglich 1987 von John Zachman bei IBM entwickelt und verwendet eine Matrix mit 6 Ebenen – von kontextuell bis detailliert –, die sechs Fragen zugeordnet sind (z. B. Was, Warum und Wie). Es bietet eine formale Möglichkeit, Daten zu organisieren und zu analysieren, enthält jedoch keine Methoden dafür.
Eine Datenarchitektur setzt sich aus mehreren voneinander abhängigen Komponenten zusammen, die regeln, wie Daten verschoben, gespeichert, verwaltet und abgerufen werden. Diese Elemente bilden die operative Grundlage von Datensystemen und unterstützen alles von der Aufnahme bis zur Analyse.
Komponenten einer Datenarchitektur lassen sich in der Regel in vier große Kategorien mit jeweils mehreren Unterkategorien einteilen:
Daten werden aus externen und internen Quellen erfasst und zur Verarbeitung und Speicherung in das System verschoben.
Pipelines nehmen Daten auf, transformieren und transportieren sie vom Ursprungsort dorthin, wo sie verarbeitet und gespeichert werden. Diese Systeme können Batch-Mustern folgen, z. B. Extrahieren, Transformieren, Laden (ETL) und Extrahieren, Laden, Transformieren (ELT). Sie können Daten auch nahezu in Echtzeit streamen. Moderne Pipelines enthalten oft den Vorgang der Transformation, Qualitätsprüfungen und Schemavalidierung als Teil des Ablaufs.
Anwendungsprogrammierschnittstellen (APIs) und vorgefertigte Konnektoren ermöglichen eine nahtlose Integration zwischen Datensystemen, Anwendungen und Analysetools. Sie bieten eine standardisierte Möglichkeit, den Datenzugriff über verschiedene Plattformen hinweg zu optimieren, und sind für den Datenaustausch in Echtzeit von zentraler Bedeutung.
Einmal erfasste Daten werden in skalierbaren Systemen – sowohl strukturierten als auch unstrukturierten – gespeichert, wo sie für eine weitere Nutzung und Analyse zur Verfügung stehen.
Ein Data Warehouse aggregiert Daten aus verschiedenen relationalen Datenquellen in einem Unternehmen in einem einzigen, zentralen, konsistenten Repository. Nach der Extraktion fließen die Daten durch eine ETL-Pipeline und werden verschiedenen Transformationen unterzogen, damit sie dem vordefinierten Datenmodell entsprechen. Wenn die Daten in das Data-Warehousing-System geladen werden, stehen sie für die Unterstützung verschiedener Business-Intelligence- (BI) und Data-Science-Anwendungen zur Verfügung.
Ein Data Mart ist eine fokussierte Version eines Data Warehouse, das eine kleinere Teilmenge von Daten enthält, die für ein einzelnes Team oder eine Gruppe von Stakeholdern relevant sind. Durch die Eingrenzung des Umfangs ermöglichen Data Marts schnellere, zielgerichtetere Einblicke als die Arbeit mit dem breiteren Warehouse-Datensatz.
Ein Data Lake speichert Rohdaten in großem Maßstab – einschließlich strukturierter und unstrukturierter Formate – und speichert sie. Im Gegensatz zu Data Warehouses erfordern Data Lakes keine vorherige Datenmodellierung oder -vorbereitung, weshalb sie ideal für Big Data-Workloads sind.
Ein Data Lakehouse vereint Aspekte von Data Warehouses und Data Lakes in einer Datenverwaltungslösung. Es kombiniert kostengünstigen Speicher mit einer leistungsstarken Abfrage-Engine und intelligenter Metadaten-Governance.
Eine Datenbank ist das grundlegende digitale Repository zum Speichern, Verwalten und Sichern von Daten. Unterschiedliche Arten von Datenbanken speichern Daten auf unterschiedliche Weise. Beispielsweise speichern relationale Datenbanken (auch als „SQL-Datenbanken“ bezeichnet) Daten in Tabellen mit definierten Zeilen und Spalten. NoSQL-Datenbanken können es in verschiedenen Datenstrukturen speichern, einschließlich Schlüssel-Wert-Paaren oder Diagrammen.
Während Daten fließen und sich ansammeln, stellen Governance-Tools sicher, dass sie während ihres gesamten Lebenszyklus gut organisiert, sicher und auffindbar sind.
Ein Datenkatalog ist ein zentrales Inventar der Assets eines Unternehmens. Es verwendet Metadaten, um Kontext über jeden Datensatz zu liefern, einschließlich seiner Herkunft, Struktur, Eigentümerschaft, Nutzungsgeschichte und Qualität. Datenkataloge helfen Anwendern bei der Suche und Auswertung von Daten, unterstützen Governance- und Compliance-Bemühungen und erleichtern die teamübergreifende Zusammenarbeit.
Lineage-Tools verfolgen den Weg von Daten zwischen Systemen und zeigen, wie sie transformiert wurden und woher sie stammen. Diese Transparenz ist für Audits, die Fehlerbehebung und das Verständnis von Abhängigkeiten unerlässlich. Observability-Plattformen können die Abstammung ergänzen, indem sie die Pipeline-Leistung und die Datenqualitätsmetriken überwachen.
Schließlich erreichen Daten die Personen und Systeme, die sie verwenden, über Dashboards, Abfragen oder eingebettete Tools, die Entscheidungen beeinflussen.
Business-Intelligence-Plattformen können den Datenzugriff durch Visualisierungen und Dashboards verbessern. Diese Tools helfen technisch nicht versierten Benutzern, Trends zu interpretieren, wesentliche KPI zu überwachen und datengestützte Entscheidungen zu treffen.
SQL-Endpunkte und andere Abfrageschnittstellen ermöglichen es Analysten und Data Scientists, Daten direkt zu untersuchen und zu analysieren. Tools wie Apache Spark und IBM® watsonx.data bieten die nötige Rechenebene, um Abfragen über verteilte Datensätze in großem Maßstab auszuführen.
Einige Architekturen unterstützen die Bereitstellung von Daten direkt in Anwendungen, Workflows oder APIs. Diese eingebetteten Datenprodukte liefern Einblicke in die täglichen Abläufe und ermöglichen eine datengesteuerte Entscheidungsfindung.
Daten aus der gesamten Architektur können auch in KI- und ML-Workflows eingespeist werden. Trainingsdaten stammen oft aus Data Lakes, werden durch Pipelines konvertiert und zum Entwickeln und erneuten Trainieren von Modellen verwendet. Diese Modelle können dann in Produkte, Dashboards oder Geschäftsprozesse integriert werden, um die Automatisierung und Vorhersage zu verbessern.
Die Implementierung einer Datenarchitektur beinhaltet die Umsetzung von Geschäftsanforderungen in eine Roadmap für Datenerfassung, -organisation, -sicherheit und -zugänglichkeit. Obwohl keine zwei Implementierungen identisch sind, folgen die meisten einem schrittweisen Ansatz, der von der Planung bis zur Ausführung reicht.
Der Prozess beginnt damit, festzustellen, welche Daten das Unternehmen benötigt – ob maschinelles Lernen oder die Unterstützung der Compliance. Dies beeinflusst die architektonischen Prioritäten, welche Datenquellen einbezogen werden sollen und welche Systeme eine Integration erfordern.
Data Architects entwickeln konzeptionelle, logische und physische Datenmodelle, um Struktur und Fluss zu steuern. Diese Modelle helfen bei der Identifizierung wichtiger Entitäten, Beziehungen, Datenanforderungen und Zugriffskontrollen. Gleichzeitig werden Governance-Richtlinien erstellt, um Eigentumsrechte, Zugriffsrechte und Regeln für den Datenlebenszyklus festzulegen.
Mit Modellen und Richtlinien gestalten die Teams die Architektur selbst, indem sie Technologien für die Speicherung, Integration und Metadatenverwaltung und Nutzung auswählen. Dazu gehört die Definition, wie Daten zwischen Systemen verschoben werden und wo sie sich in den verschiedenen Speichersystemen befinden.
Die Implementierung umfasst in der Regel die Bereitstellung von Aufnahmepipelines, die Einrichtung von APIs, die Konfiguration von Governance-Ebenen und die Aktivierung von Zugriffspunkten wie einem Dashboard oder einem Endgerät. In dieser Phase werden Sicherheits- und Complianceanforderungen eingebettet, um Daten zu schützen.
Einmal bereitgestellt, muss eine Datenarchitektur kontinuierlich überwacht und angepasst werden. Die Datenvolumen wachsen, Anwendungsfälle entwickeln sich, weiter und Vorschriften ändern sich. Unternehmen überdenken und optimieren ihre Architekturen oft erneut, vor allem, wenn sie Cloud-Plattformen einführen und moderne Architekturmuster annehmen.
Mit der Skalierung von Unternehmen steigt auch der Bedarf an einer flexiblen, resilienten Datenarchitektur. Moderne Datenarchitektur priorisiert Interoperabilität, Echtzeitzugriff und die Fähigkeit, Daten als Produkt und nicht nur als Asset zu verwalten. Es ermöglicht auch eine stärkere Standardisierung, Metadatenverwaltung und Demokratisierung durch APIs.
Zu den Hauptmerkmalen einer modernen Datenarchitektur gehören:
Unternehmen, die ihre Dateninfrastruktur modernisieren, führen neue Datenstrategien ein, die der Komplexität der heutigen hybriden Multicloud-Umgebungen gerecht werden. Dieser Wandel hat zu neuen architektonischen Mustern geführt – insbesondere zu Data Fabric und Datennetzen.
Data Fabric konzentriert sich auf die Automatisierung der Datenintegration und -verwaltung in hybriden Umgebungen. Es nutzt aktive Metadaten und maschinelles Lernen, um systemübergreifende Beziehungen zu erkennen und Datenflüsse zu orchestrieren. Eine Data Fabric kann Datenprodukte automatisch und on demand bereitstellen, was die betriebliche Effizienz verbessert und Silos reduziert.
Ein Datennetz dezentralisiert Dateneigentum, indem es die Architektur mit den Geschäftsbereichen abstimmt. Es hält Datenproduzenten – also diejenigen, die der Quelle am nächsten sind – dazu an, Daten als Produkt zu behandeln und APIs mit Blick auf die Verbraucher zu entwickeln. Dieses Modell hilft bei der Beseitigung von Engpässen und unterstützt die skalierbare Daten-Demokratisierung im gesamten Unternehmen.
Auch wenn sich diese Ansätze unterscheiden, schließen sie sich nicht gegenseitig aus. Viele Unternehmen implementieren Elemente beider, indem sie die Automatisierung einer Fabric nutzen, um die dezentrale Governance eines Netzes zu skalieren.
Eine gut aufgebaute Datenarchitektur kann Unternehmen erhebliche Vorteile bieten, darunter:
Überlappende Datenfelder in verschiedenen Quellen können zu Inkonsistenzen, Ungenauigkeiten und verpassten Möglichkeiten zur Datenintegration führen. Eine gute Datenarchitektur kann die Speicherung von Daten standardisieren und potenziell Redundanz reduzieren, was eine bessere Qualität und ganzheitlichere Analysen ermöglicht.
Gut konzipierte Datenarchitekturen können einige der Herausforderungen schlecht verwalteter Data Lakes, auch bekannt als „Datensümpfe“, lösen. Einem Datensumpf fehlen angemessene Datenstandards – einschließlich Praktiken zur Datenqualität und Data Governance –, um aussagefähige Erkenntnisse zu liefern. Datenarchitekturen können dazu beitragen, Data Governance- und Datensicherheitsstandards durchzusetzen, sodass die Datenpipeline angemessen überwacht werden kann.
Daten sind aufgrund technischer Beschränkungen bei der Datenspeicherung und organisatorischer Hindernisse innerhalb des Unternehmens oft isoliert. Die heutigen Datenarchitekturen zielen darauf ab, die Datenintegration über Domains hinweg zu erleichtern, so dass verschiedene Regionen und Geschäftsfunktionen Zugriff auf die Daten der jeweils anderen haben. Dies kann zu einem besseren und einheitlicheren Verständnis gängiger Metriken führen und ermöglicht eine ganzheitlichere Sicht auf das Unternehmen, um datengesteuerte Entscheidungsfindung zu treffen.
Eine moderne Datenarchitektur kann Einfluss darauf nehmen, wie Daten im Laufe der Zeit verwaltet werden. In der Regel verlieren Daten mit zunehmendem Alter an Nutzen und es wird seltener darauf zugegriffen. Im Laufe der Zeit können Daten auf kostengünstigere, langsamere Speichertypen migriert werden, sodass sie für Berichte und Audits verfügbar bleiben, jedoch ohne die Kosten für Hochleistungsspeicher.
Um erfolgreich zu sein, müssen Unternehmen Daten nutzen, um die Kundenbindung zu stärken, Geschäftsprozesse zu automatisieren und mit KI-gestützten Lösungen Innovationen zu schaffen.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.
Wir stellen vor: Cognos Analytics 12.0, KI-gestützte Erkenntnisse für eine bessere Entscheidungsfindung.