Was ist ein Data Warehouse?

Luftaufnahme von 3D-gerenderten fahrerlosen Transportfahrzeugen in einem smarten Warehouse

Autoren

Alexandra Jonker

Staff Editor

IBM Think

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Was ist ein Data Warehouse?

Ein Data Warehouse sammelt Daten aus verschiedenen Quellen in einem zentralen Datenspeicher, der für Abfragen und Analysen optimiert ist. In der Regel werden Prozesse zum Extrahieren, Transformieren und Laden (ETL) oder zum Extrahieren, Laden und Transformieren (ELT) verwendet, um Daten für Business Intelligence und andere Anwendungsfall der Datenanalyse zu bereinigen, vorzubereiten und zu organisieren.
 

Data-Warehouse-Systeme können große Datenmengen aus einer Vielzahl von Quellsystemen aufnehmen, darunter operative Datenbanken, Transaktionssysteme und Plattformen für das Kundenbeziehungsmanagement (Customer Relationship Management, CRM). Self-Service-Analysetools ermöglichen es Geschäftsanwendern, diese Daten zu untersuchen und zu analysieren, um wertvolle Erkenntnisse zu gewinnen.

Das Data-Warehouse-Konzept entstand in den 1980er Jahren, um unterschiedliche Daten für die Analyse in ein einheitliches Format zu integrieren. Als die Zahl neuer Datenquellen zunahm, wie das World Wide Web, soziale Medien und das Internet der Dinge (IoT), wuchs die Nachfrage nach größeren Speicherkapazitäten und schnelleren Analysen.

Data Warehouses sind für Echtzeitanalyse konfiguriert und optimiert. Das bedeutet, dass sie in der Regel nicht ideal für die Speicherung riesiger Mengen unstrukturierter Big Data geeignet sind. Mit der wachsenden Datenmenge in einem Warehouse steigen auch die Kosten und die Komplexität der Speicherung. Es können auchLatenz- und Leistungsprobleme auftreten.

Als Reaktion darauf wurden flexiblere Alternativen entwickelt, darunter cloudnative Data Warehouses und Data Lakehouses. (Weitere Informationen finden Sie unter „Data Lakehouse vs. Data Warehouse“.)

Wie funktioniert Data Warehousing?

Data Warehouse verwenden oft eine dreistufige Architektur, die darauf ausgelegt ist, Daten für die Analyse zu transformieren:

  • Untere Ebene
  • Mittlere Ebene
  • Oberste Ebene

Untere Ebene

Daten fließen aus mehreren Quellsystemen in einen Data Warehouse, wo sie gespeichert werden. Traditionell werden die Daten durch einen Datenintegrationprozess (Extract, Transform, Load) verschoben, der mithilfe von Automatisierung Daten bereinigt und organisiert, bevor sie in das Warehouse geladen werden.

Da Data Warehouse in erster Linie strukturierte Daten speichert, findet die Datenkonvertierung vor dem Laden der Daten statt. Einige moderne Warehouses verwenden stattdessen ELT-Prozesse (Extrahieren, Laden und Transformieren), bei denen Daten in das Warehouse geladen werden, bevor sie konvertiert werden. Diese Methode wird häufig in Data Lakes verwendet, die unstrukturierte und halbstrukturierte Daten speichern können, ohne dass standardisierte Formate erforderlich sind.

Mittlere Ebene

Diese Schicht enthält die Analyse-Engine, die häufig durch ein OLAP-System (Online Analytical Processing) betrieben wird. Traditionelle relationale Datenbanken, darunter viele Data Warehouse. können zwar multidimensionale Daten speichern (zum Beispiel können Verkaufszahlen mehrere Dimensionen wie Standort, Zeit und Produkt haben), aber sie sind nicht für multidimensionale Abfragen optimiert.

OLAP-Systeme sind für schnelle, komplexe Abfragen und multidimensionale Analysen großer Datenmengen konzipiert. Sie verwenden „Würfel“ (Array-basierte mehrdimensionale Datenstrukturen), um eine schnellere und flexiblere Analyse über mehrere Dimensionen hinweg zu ermöglichen. Zu den gängigen Anwendungsfällen gehören Data Mining, Finanzanalysen, Budgetierung und Prognoseplanung.

Diagramm, das die Struktur eines OLAP-Würfels zeigt Ein OLAP-Würfel mit Dimensionen für Produkte, Vertriebsregionen und Quartale

OLAP vs. OLTPOLTP-Systeme (Online Transaction Processing) erfassen und aktualisieren große Mengen an Echtzeittransaktionen von vielen Benutzern. Im Gegensatz dazu analysieren OLAP-Systeme bereits erfasste Daten.

Es gibt drei Arten von OLAP, die man in einem Data Warehouse verwenden könnte:

  • Multidimensionale analytische Online-Verarbeitung (MOLAP): Arbeitet direkt mit einem multidimensionalen OLAP-Würfel und ist in der Regel die schnellste und praktischste Art der multidimensionalen Datenanalyse.

  • Relationale Online-Analyseverarbeitung (ROLAP): Führt eine mehrdimensionale Datenanalyse durch, die direkt mit Daten in relationalen Tabellen funktioniert, ohne sie vorher in einem Würfel zu reorganisieren.

  • Hybrid Online Analytical Processing (HOLAP): Funktionen zur optimalen Arbeitsteilung zwischen relationalen und multidimensionalen Datenbanken innerhalb einer einzigen OLAP-Architektur.

Oberste Ebene

Die letzte Schicht eines Data Warehouse bietet eine Front-End-Benutzeroberfläche für Berichte, Dashboards und Ad-hoc-Datenanalysen von Geschäftsdaten. Mit diesen Self-Service-Tools für Business Intelligence können Benutzer Berichte auf der Grundlage historischer Daten erstellen, Trends visualisieren und Workflow-Engpässe ohne technisches Fachwissen in der Datenentwicklung identifizieren.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben sich angemeldet.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Data Warehouse-Bereitstellungsmodelle: On-Premises, Cloud und Hybrid

Data Warehouse-Lösungen haben sich deutlich weiterentwickelt, von ausschließlich lokalen Systemen hin zu flexiblen Cloud- und Hybridmodellen.

Traditionelle Data Warehouse

In der Vergangenheit wurden Data Warehouses lokal mit Standardhardware gehostet. Diese Systeme waren entweder in Massively Parallel Processing (MPP)- oder Symmetric Multiprocessing (SMP) -Architekturen organisiert. Sie wurden auch als eigenständige Geräte geliefert. Diese Bereitstellungen erfordern erhebliche Investitionen. Sie können jedoch eine gute Wahl für Unternehmen in Sektoren sein, in denen strenge Compliance-, Datensicherheits- oder Datenschutzstandards gelten.

Data Warehouse: Cloud

Heutzutage werden viele Data Warehouses für den Betrieb in der Cloud konzipiert. Sie bieten alle Vorteile von Cloud Computing, wie z. B.Datenspeicherung im Petabyte-Bereich, hoch skalierbare Rechen- und Speichermöglichkeiten sowie nutzungsabhängige Preise. Cloudbasierte Data Warehouse werden in der Regel als vollständig verwaltetes Software-as-a-Service (SaaS) -Angebot bereitgestellt, sodass keine Vorabinvestitionen in Hardware oder Software erforderlich sind. Diese Servicebereitstellung reduziert auch die für das Infrastrukturmanagement benötigten Ressourcen, sodass sich Unternehmen auf Analysen und Erkenntnisse konzentrieren können.

Cloudbasierte Data Warehouses erfreuen sich zunehmender Beliebtheit, da Unternehmen die Möglichkeit suchen, ihre On-Premises-Rechenzentren  und Ausgaben für veraltete Infrastrukturen flexibel zu skalieren und zu reduzieren.

Hybride Ansätze

Einige Organisationen entscheiden sich möglicherweise für ein Hybridmodell, das das Beste aus lokalen und Cloud-Data-Warehouse kombiniert. Dieser Ansatz ermöglicht es ihnen, von der Skalierbarkeit und Flexibilität der Cloud zu profitieren und gleichzeitig die Kontrolle über sensible Workloads zu behalten, die lokal bleiben müssen.

Was sind die drei Schemata in einem Data Warehouse?

In einem Data Warehouse definieren Schemata, wie Daten organisiert werden. Es gibt drei gängige Schemata-Strukturen: das Sternschema (Star Schema), das Schneeflockenschema (Snowflake Schema) und das Galaxisschema (auch Faktenkonstellationsschema genannt).

Diese Schemas sind allesamt dimensionale Datenmodelle, die entwickelt wurden, um die Datenabrufgeschwindigkeiten in OLAP-Systemen zu optimieren. Dimensionale Modelle können die Redundanz erhöhen, das Auffinden von Informationen für die Berichterstellung und das Abrufen erleichtern und die Abfrageleistung verbessern.

Diese Schemata enthalten Faktentabellen und Dimensionstabellen, die unten definiert sind:

  • Faktentabellen: Speichern Sie quantitative Daten wie verkaufte Produkte oder Einnahmen

  • Dimensionstabellen: Speichern Sie kontextbezogene, beschreibende Informationen zu Fakten wie Verkaufsdaten und Produktkategorie

Sternschema

Sternschemata bestehen aus einer einzelnen, zentralen Faktentabelle, die von Dimensionstabellen umgeben ist. In einem Diagramm erscheint die Faktentabelle in der Mitte eines Sternmusters. Das Sternschema gilt als der einfachste und gängigste Schematyp und bietet Benutzern schnellere Abfragegeschwindigkeiten.

Grafik zur Darstellung eines Sternschemas Beispiel für ein Sternschema

Schneeflockenschema

Ein Schneeflockenschema hat eine zentrale Faktentabelle, die mit vielen standardisierten Dimensionstabellen verbunden ist, die dann über Viele-zu-Eins-Beziehungen eine Verbindung zu anderen Dimensionstabellen herstellen können. Dieses komplexe, verzweigte Muster kann einer Schneeflocke ähneln. Snowflake-Schemas haben ein geringes Maß an Datenredundanz, aber das geht auf Kosten einer langsameren Abfrageleistung.

Beispiel für ein Schneeflockenschema Beispiel für ein Schneeflockenschema

Galaxienschema

So wie es in unserer Galaxie viele Sterne gibt, enthält ein Galaxienschema viele Sternenschematas, die sich Dimensionstabellen teilen, die standartisiert sind, um Redundanzen zu vermeiden. Das Sternschema eignet sich am besten für hochkomplexe Data Warehouses, kann aber mit einer geringeren Leistung einhergehen.

Beispiel für ein Galaxie-Schema Beispiel für ein Galaxie-Schema

Komponenten der Data-Warehouse-Architektur

Eine typische Data Warehouse-Architektur besteht aus mehreren Komponenten, die zusammenarbeiten, um Daten zu speichern, zu verwalten, zu verarbeiten und für Analysen bereitzustellen.

  • ETL/ELT-Tools
  • API-Schicht
  • Datenebene (oder zentrale Datenbank)
  • Metadaten
  • Sandbox
  • Zugriffstools

ETL/ELT-Tools

ETL-Tools extrahieren Daten aus Quellsystemen, wandeln sie in einem Staging-Bereich um und laden sie in das Data Warehouse. In ELT werden die Daten konvertiert, nachdem sie in das Warehouse geladen wurden. Ein Framework-Tool für die Datenverarbeitung, wie Apache Spark, kann helfen, die Transformation von Daten zu verwalten.

API-Schicht

Eine Konnektivitätsebene für Anwendungsprogrammierschnittstellen (APIs) kann dem Warehouse helfen, Daten aus Betriebssystemen abzurufen und in diese zu integrieren. APIs können auch Zugriff auf Visualisierungs- und erweiterte Analysetools bieten.

Datenebene (oder zentrale Datenbank)

Die Datenschicht (oder zentrale Datenbank) ist das Herzstück des Data Warehouse. Hier integriert und speichert das System Daten aus verschiedenen Quellen, wie z. B. Anwendungen, E-Mail-Listen, Websites oder anderen Datenbanken. Diese Ebene wird von ETL- oder ELT-Datenpipelines unterstützt und verwendet ein relationales Datenbankmanagementsystem (RDBMS) oder eine Cloud-Data-Warehouse-Plattform. Integrierte Data Governance - und Sicherheitsfunktionen können Daten aufteilen, sodass Benutzer nur auf das zugreifen, was sie benötigen.

Metadaten sind Daten über Daten, die die in einem System gespeicherten Daten beschreiben, um sie durchsuchbar und für die Analyse nutzbar zu machen. Es umfasst technische Metadaten (wie Tabellenstruktur und Datentyp) und beschreibende Metadaten (wie Autor, Erstellungsdatum oder Dateigröße). Metadaten sind der Schlüssel zu einer effektiven Data Governance und Datenverwaltung.

Sandbox

Einige Data Warehouses bieten eine Sandbox, die eine abgeschottete Testumgebung ist, die eine Kopie der Produktionsdaten und relevante Analysetools enthält. Data Analysten und Data Scientists können mit neuen Analysetechniken in der Sandbox testen, ohne den Betrieb des Data Warehouse für andere Benutzer zu beeinträchtigen.

Zugriffstools

Zugriffstools stellen eine Verbindung zu einem Data Warehouse her, um ein Front-End bereitzustellen, das für Geschäftsanwender benutzerfreundlich ist. Geschäftsanwender und Datenanalysten können Dashboards, Apps und Datenvisualisierung einsetzen, um mit Daten zu interagieren und Erkenntnisse zu gewinnen. Beispiele für diese Tools sind Tableau, Looker und Qlik.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Arten von Data Warehouses

Es gibt drei Data-Warehouse-Haupttypen:

  • Enterprise Data Warehouse (EDW)
  • Betrieblicher Datenspeicher (ODS)
  • Data Mart

Enterprise Data Warehouse (EDW)

Ein Enterprise Data Warehouse (EDW) ist ein Data Warehouse, das das gesamte Unternehmen abdeckt. Sie dient als zentralisiertes Informations-Repository mit historischen Daten für alle Teams und Themenbereiche. Eine Data-Warehousing-Umgebung für Unternehmen kann auch einen operationalen Datenspeicher (ODS) und departmentspezifische Data Marts umfassen.

Betriebsdatenspeicher (ODS)

Ein Betriebsdatenspeicher (ODS) enthält die neueste Momentaufnahme der Betriebsdaten. Ein ODS wird häufig aktualisiert und ermöglicht einen schnellen Zugriff auf Daten nahezu in Echtzeit. Unternehmen nutzen ein ODS häufig für die alltägliche operative Entscheidungsfindung und Echtzeitanalysen. Es kann auch eine Datenquelle für ein EDW oder andere Datensysteme sein.

Data Mart

Ein Data Mart ist eine Teilmenge eines vorhandenen Data Warehouse (oder anderer Datenquellen) und enthält Daten, die auf einen bestimmten Geschäftsbereich oder eine Abteilung zugeschnitten sind und nicht auf das gesamte Unternehmen. So könnte ein Unternehmen beispielsweise einen Data Mart haben, der auf die Marketingabteilung abgestimmt ist. Diese Benutzer können auf gezieltere Erkenntnisse zur Kundensegmentierung und Kampagnenleistung zugreifen, ohne sich durch den breiteren Unternehmensdatensatz navigieren zu müssen.

Data Warehouses und andere Arten der Datenspeicherung im Vergleich

Die Begriffe Data Warehouse, Datenbank, Data Lake und Data Lakehouse werden manchmal synonym verwendet, aber es gibt wichtige Unterschiede.

Data Warehouse vs. Datenbank

Eine Datenbank ist wie ein Aktenschrank, der hauptsächlich für die automatische Datenerfassung und schnelle Transaktionsverarbeitung gebaut wurde. In der Regel dient es als gezielter Datenspeicher für eine bestimmte Anwendung. Data Warehouse speichert Daten aus einer beliebigen Anzahl von Anwendungen in einem Unternehmen und ist für vorausschauende Analyse und andere erweiterte Analysen optimiert.

Data Warehouse vs. Data Lake

Ein Data Lake ist eine kostengünstige Speicherlösung für riesige Mengen an Rohdaten und verwendet einen Schema-on-Read-Ansatz anstelle eines vordefinierten Schemas. Data Lakes enthalten oft unstrukturierte und halbstrukturierte Daten, wie z. B. Dokumente, Videos, Internet-of-Things-Protokolle (IoT) und Social-Media-Beiträge.

Sie können auf Big-Data-Plattformen wie Apache Hadoop oder Cloud Object Storage wie Amazon Simple Storage Service (Amazon S3) erstellt werden. In der Regel werden Daten für Analysen nicht bereinigt, validiert oder normalisiert, wie dies in einem Warehouse der Fall ist.

Data Lakehouse vs. Data Warehouse

Ein Data Lakehouse verbindet Aspekte von Data Warehouses und Data Lakes – nämlich die kostengünstige Flexibilität eines Data Lake und die hohe Leistung eines Data Warehouse. Durch die Kombination der Hauptmerkmale von Lakes und Warehouses in einer Datenlösung können Lakehouses dazu beitragen, die Datenverarbeitung für große Mengen strukturierter, unstrukturierter und Echtzeit-Datenströme zu beschleunigen, um Workloads für maschinelles Lernen, Data Science und künstliche Intelligenz (KI) zu unterstützen.

Data Lakehouses können auch Funktionen wie gemeinsam genutzte Metadaten und verteilte SQL-Engines (Structured Query Language) hinzufügen.

Vorteile von Data Warehouses

Data Warehouse stellen Benutzern im Unternehmen Erkenntnisse und Informationen zur Verfügung und bieten viele Nutzen, wie z. B.:

  • Verbesserte Datenqualität
  • Unterstützung für KI und maschinelles Lernen
  • Verbesserte Entscheidungsunterstützung

Verbesserte Datenqualität

Durch ELT- oder ETL-Prozesse bereiten Data Warehouses eingehende Daten auf, bevor sie im Data Warehouse gespeichert werden. Zu dieser Vorbereitung gehören Methoden zur Datenqualität wie Datenbereinigung,Standardisierung und Deduplizierung. Robuste Richtlinien und Verfahren für die Data-Governance können auch dazu beitragen, die Genauigkeit und Integrität der Daten für alle Benutzer zu gewährleisten.

Durch die Integration hochwertiger Daten in einen einzigen Speicher schaffen Unternehmen eine umfassende und zuverlässige Single-Source-of-Truth (SSOT), die dazu beiträgt, Daten-Silos zu beseitigen. Dieses zentrale Repository ermöglicht es Geschäftsanwendern, sicher auf alle relevanten Daten des Unternehmens zuzugreifen und diese für die Entscheidungsfindung zu verwenden. Ein Data-Warehouse der Unternehmensklasse kann auch Open-Source-Formate wie Apache Iceberg, Parquet und CSV unterstützen, was einen weiteren Datenaustausch im gesamten Unternehmen ermöglicht.

Unterstützung für KI und maschinelles Lernen

Moderne Data Warehouses können verschiedene KI- und maschinelle Lern-Workflows unterstützen, indem sie saubere, zuverlässige Daten bereitstellen. Data Scientists können bereinigte und validierte Warehouse-Daten verwenden, um eigene generative KI-Modelle zu erstellen oder bestehende Modelle weiter abzustimmen, um ihre individuellen Geschäftsanforderungen besser zu erfüllen.

Ein KI-fähiges Data Warehouse sollte in der Lage sein, Daten zu sammeln, zu bereinigen, zu organisieren und zu strukturieren sowie den Datenfluss zu KI- und maschinellen Lernplattformen zu erleichtern. Allerdings sind nicht alle modernen Data Warehouses für KI-Workloads optimiert. Data Lakehouses werden zunehmend zur bevorzugten Datenplattform für KI-Infrastrukturen.

Verbesserte Entscheidungshilfe

Ein Data Warehouse zentralisiert und bereinigt Daten aus verschiedenen Quellen, um eine Single-Source-of-Truth (SSOT) zu schaffen, die Unternehmen einen umfassenden, zuverlässigen Überblick über die Unternehmensdaten verschafft. Self-Service-BI-Tools ermöglichen es Benutzern im gesamten Unternehmen, auf diese aggregierten Daten zuzugreifen und analytische Abfragen durchzuführen.

Auf diese Weise ermöglichen Data Warehouses Geschäftsanwendern aller Qualifikationsstufen, Themen, Trends und Aggregationen zu entdecken und darüber zu berichten. Führungskräfte können diese Erkenntnisse nutzen, um auf der Grundlage harter Fakten in praktisch jedem Bereich des Unternehmens – von den Geschäftsprozessen über das Finanzmanagement bis hin zum Bestandsmanagement – fundiertere Entscheidungen zu treffen und Prognosen zu erstellen.

Branchenspezifische Data-Warehouse-Anwendungsfälle

Data Warehouses können auch für branchenspezifische Zwecke genutzt werden, z. B. für:

Behörden

Mit den Funktionen eines Data Warehouse können Regierungen, komplexe Phänomene wie Kriminalität, demografische Trends und Verkehrsmuster besser verstehen.

Gesundheitswesen

Die Möglichkeit, verteilte Daten – wie Abrechnungs- und Diagnosecodes, Patientendemografie, Medikamente und Ergebnisse – zu zentralisieren und zu analysieren, kann Gesundheitsdienstleistern dabei helfen, Erkenntnisse in Ergebnisse, Betriebseffizienz und mehr zu gewinnen.

Reise- und Gastgewerbe

Unternehmen können historische Daten zu Reise- und Unterkunftsentscheidungen nutzen, um Werbung und Werbeaktionen präziser auf ihre Kunden auszurichten.

Herstellung

Große Fertigungsunternehmen, die große Datenmengen erzeugen, können Data Warehouse-Lösungen verwenden, um Data Mart zu erstellen, die auf die Bedürfnisse der einzelnen Abteilungen zugeschnitten sind.

Weiterführende Lösungen
IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

StreamSets erkunden
IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden IBM watsonx.data entdecken