Startseite topics data warehouse Was ist ein Data Warehouse?
Entdecken Sie die Data-Warehouse-Lösung von IBM Abonnieren Sie KI-Updates
Illustration mit Collage von Cloud-Piktogrammen, Tortendiagramm, Grafikpiktogrammen zu folgenden Themen
Was ist ein Data Warehouse?

Ein Data Warehouse oder auch Enterprise Data Warehouse (EDW) ist ein System, das Daten aus verschiedenen Quellen in einem einzigen, zentralen, einheitlichen Datenspeicher zusammenführt, um Datenanalyse, Data Mining, künstliche Intelligenz (KI) und maschinelles Lernen zu unterstützen.

 

Ein Data-Warehouse-System ermöglicht es einem Unternehmen, leistungsstarke Analysen anhand von riesigen Mengen (d. h. viele Petabytes) historischer Daten durchzuführen, wozu eine herkömmliche Datenbank nicht in der Lage ist.

Data-Warehouse-Systeme sind seit mehr als drei Jahrzehnten Teil von Business-Intelligence-Lösungen (BI), haben sich aber gerade in letzter Zeit mit dem Aufkommen neuer Datentypen und Hosting-Methoden weiterentwickelt. Traditionell wurde ein Data Warehouse lokal bereitgestellt, oft auf einem Mainframe-Computer. Seine Funktionalität konzentrierte sich auf die Extraktion von Daten aus anderen Quellen, die Bereinigung und Aufbereitung der Daten sowie das Laden und Verwalten der Daten in einer relationalen Datenbank. Mittlerweile kann ein Data Warehouse jedoch auf einer dedizierten Appliance oder in der Cloud gehostet werden. Außerdem verfügen die meisten Data Warehouses über zusätzliche Analysefähigkeiten und Tools zur Datenvisualisierung und -darstellung.

Erstellen Sie verantwortungsvolle KI-Workflows mit KI-Governance

Lernen Sie die Bausteine und Best Practices kennen, die Ihren Teams helfen, verantwortungsvolle KI zu beschleunigen.

Ähnliche Inhalte

Registrieren Sie sich für das E-Book zum Thema Presto

Data-Warehouse-Architektur

Im Allgemeinen verfügen Data Warehouses über eine dreistufige Architektur, die aus den folgenden Elementen besteht:
 

  • Unterste Schicht: Die unterste Schicht besteht aus einem Data-Warehouse-Server, in der Regel ein relationales Datenbanksystem, das Daten aus mehreren Datenquellen durch einen Prozess sammelt, bereinigt und umwandelt, der als Extrahieren, Transformieren und Laden (Extract, Transform, Load; ETL) oder Extrahieren, Laden und Transformieren (Extract, Load, Transform; ELT) bezeichnet wird. Bei den meisten Unternehmen, die ETL verwenden, basiert der Prozess auf Automatisierung und er ist effizient, genau definiert, kontinuierlich und stapelgesteuert.
     

  • Mittlere Schicht: Die mittlere Schicht besteht aus einem OLAP-Server (d. h. Online Analytical Processing), der schnelle Abfragen ermöglicht. In dieser Schicht können drei Arten von OLAP-Modellen verwendet werden: ROLAP, MOLAP und HOLAP. Welche Art von OLAP-Modell verwendet wird, hängt von der Art des vorhandenen Datenbanksystems ab.
     

  • Oberste Schicht: Die oberste Schicht besteht aus einer Frontend-Benutzerschnittstelle oder einem Frontend-Berichtstool, die bzw. das es Endnutzern ermöglicht, Ad-hoc-Datenanalysen ihrer Geschäftsdaten durchzuführen.

Eine kurze Geschichte der Data-Warehouse-Architektur

Die meisten Data Warehouses werden um ein relationales Datenbanksystem herum aufgebaut, entweder vor Ort oder in der Cloud, wo Daten sowohl gespeichert als auch verarbeitet werden. Zu den weiteren Komponenten gehören ein Metadatenverwaltungssystem und eine API-Konnektivitätsschicht, die es dem Warehouse ermöglicht, Daten aus organisatorischen Quellen abzurufen und Zugriff auf Analyse- und Visualisierungstools bereitzustellen.

Ein typisches Data Warehouse verfügt über vier Hauptkomponenten: eine zentrale Datenbank, ETL-Tools, Metadaten und Zugriffstools. Alle diese Komponenten sind auf Geschwindigkeit ausgelegt, sodass Sie rasch Ergebnisse erhalten und Daten im Handumdrehen analysieren können.

Das Data Warehouse gibt es schon seit Jahrzehnten. Es wurde in den 1980er Jahren entwickelt und befasste sich mit der Notwendigkeit, die Analyse von Daten zu optimieren. Als die Geschäftsanwendungen der Unternehmen immer mehr Daten generierten und speicherten, benötigten sie Data-Warehouse-Systeme, die diese Daten sowohl verwalten als auch analysieren konnten. Im Grunde genommen konnten Datenbankadministratoren Daten aus ihren operativen Systemen abrufen und durch Transformation ein Schema hinzufügen, bevor sie sie in ihr Data Warehouse luden.

Als sich die Data-Warehouse-Architektur weiterentwickelte und immer beliebter wurde, begannen immer mehr Menschen innerhalb eines Unternehmens, sie für den Zugriff auf Daten zu nutzen – und das Data Warehouse machte dies mit strukturierten Daten einfach. Hier wurden Metadaten wichtig. Die Erstellung von Berichten und Dashboards wurde zu einem der wichtigsten Anwendungsfälle und SQL (Structured Query Language) wurde zur Standardmethode für die Interaktion mit diesen Daten.

Komponenten der Data-Warehouse-Architektur

Schauen wir uns die einzelnen Komponenten genauer an.

ETL

Wenn Datenbankanalysten Daten aus einer Datenquelle in ihr Data Warehouse verschieben möchten, verwenden sie diesen Prozess. Kurz gesagt: ETL konvertiert Daten in ein verwendbares Format, sodass sie, sobald sie sich im Data Warehouse befinden, analysiert, abgefragt usw. werden können. 

Metadaten

Metadaten sind Daten über Daten. Im Grunde beschreiben sie alle Daten, die in einem System gespeichert sind, um sie durchsuchbar zu machen. Einige Beispiele für Metadaten sind Autoren, Datum oder Speicherort eines Artikels, Erstellungsdatum einer Datei, Größe einer Datei usw. Sie können sich das wie die Titel einer Spalte in einer Tabelle vorstellen. Mit Hilfe von Metadaten können Sie Ihre Daten organisieren, um sie nutzbar zu machen, damit Sie sie analysieren und Dashboards und Berichte erstellen können.

Verarbeitung von SQL Queries

SQL ist die Standardsprache für die Abfrage Ihrer Daten. Dies ist die Sprache, die Analysten verwenden, um Erkenntnisse aus ihren im Data Warehouse gespeicherten Daten zu gewinnen. In der Regel verfügen Data Warehouses über proprietäre Technologien für die Verarbeitung von SQL Queries, die eng mit der Rechenleistung verbunden sind. Dies ermöglicht eine sehr hohe Leistung bei Ihren Analysen. Zu beachten ist jedoch, dass die Kosten für ein Data Warehouse mit zunehmender Daten- und SQL-Rechenressourcen steigen können.

Datenschicht

Die Datenschicht ist die Zugriffsschicht, die es Benutzern ermöglicht, tatsächlich auf die Daten zuzugreifen. In der Regel finden Sie dort einen Data Mart. Diese Schicht partitioniert Segmente Ihrer Daten, je nachdem, wem Sie Zugriff gewähren möchten, damit Sie in Ihrer gesamten Organisation sehr differenziert arbeiten können. So ist es beispielsweise denkbar, dass Sie Ihrem Vertriebsteam keinen Zugriff auf die Daten Ihrer Personalabteilung geben wollen und umgekehrt.

Governance und Sicherheit

Dies hängt mit der Datenschicht zusammen, da Sie in der Lage sein müssen, fein abgestufte Zugriffs- und Sicherheitsrichtlinien für alle Daten Ihres Unternehmens zu erstellen. In der Regel sind in Data Warehouses sehr gute Data-Governance- und Sicherheitsfunktionen integriert, sodass Sie nicht viel Arbeit in die Datenentwicklung investieren müssen, um dies zu berücksichtigen. Es ist wichtig, für Governance und Sicherheit zu planen, wenn Sie Ihrem Warehouse mehr Daten hinzufügen und Ihr Unternehmen wächst.

+ Tools für den Zugriff auf das Data Warehouse

Zugriffstools befinden sich zwar außerhalb Ihres Data Warehouse, können aber als dessen benutzerfreundliches Frontend betrachtet werden. Hier finden Sie Ihre Berichts- und Visualisierungstools, die von Datenanalysten und Geschäftsanwendern verwendet werden, um mit den Daten zu interagieren, Erkenntnisse zu gewinnen und Visualisierungen zu erstellen, die der Rest des Unternehmens nutzen kann. Beispiele für diese Tools sind Tableau, Looker und Qlik.

Grundlegendes zu OLAP und OLTP in Data Warehouses

OLAP (kurz für Online Analytical Processing, d. h. Analytische Online-Verarbeitung) ist eine Software zur Durchführung schneller mehrdimensionaler Analysen großer Datenmengen aus einem einheitlichen, zentralen Datenspeicher, wie z. B. einem Data Warehouse. OLTP (Online Transactional Processing, d. h. Online-Transaktionsverarbeitung) ermöglicht die Echtzeit-Ausführung einer großen Anzahl von Datenbank-Transaktionen durch eine große Anzahl von Personen, in der Regel über das Internet. Der Hauptunterschied zwischen OLAP und OLTP liegt in der Bezeichnung: OLAP ist analytisch, OLTP transaktional.

OLAP-Tools sind für die multidimensionale Analyse von Daten in einem Data Warehouse konzipiert, das sowohl historische als auch transaktionale Daten enthält. Zu den gängigen Verwendungszwecken von OLAP gehören Data Mining und andere Business-Intelligence-Anwendungen, komplexe analytische Berechnungen und Vorhersageszenarien sowie Funktionen für das Business Reporting wie Finanzanalyse, Budgetierung und Prognoseplanung.

OLTP wurde entwickelt, um transaktionsorientierte Anwendungen zu unterstützen, indem aktuelle Transaktionen so schnell und genau wie möglich verarbeitet werden. OLTP wird häufig für Geldautomaten, E-Commerce-Software, die Verarbeitung von Kreditkartenzahlungen, Online-Buchungen, Reservierungssysteme und Tools für die Datenspeicherung verwendet.

Eine eingehende Betrachtung der Unterschiede zwischen diesen Ansätzen finden Sie in „OLAP und OLTP: Was ist der Unterschied?“ 

Schemata in Data Warehouses

Schemata sind Methoden, mit denen Daten in einer Datenbank oder einem Data Warehouse organisiert werden. Es gibt zwei Hauptarten von Schemata-Strukturen, das Sternschema (Star Schema) und das Schneeflockenschema (Snowflake Schema), die das Design Ihres Datenmodells beeinflussen.

Sternschema: Dieses Schema besteht aus einer Faktentabelle, die mit einer Reihe von denormalisierten Dimensionstabellen verbunden werden kann. Das Sternschema gilt als der einfachste und gängigste Schematyp, und seine Nutzer profitieren von seiner schnelleren Abfragegeschwindigkeit.

Schneeflockenschema: Obwohl nicht so verbreitet wie das Sternschema, ist das Schneeflockenschema eine weitere mögliche Organisationsstruktur in Data Warehouses. In diesem Fall ist die Faktentabelle mit einer Reihe von normalisierten Dimensionstabellen verbunden, und diese Dimensionstabellen haben wiederum untergeordnete Tabellen. Nutzer eines Schneeflockenschemas profitieren von seiner niedrigen Datenredundanz, was jedoch zu Lasten der Abfrageleistung geht. 

Data Warehouse, Datenbank, Data Lake und Data Mart im Vergleich

Data Warehouse, Datenbank, Data Lake und Data Mart sind Begriffe, die häufig synonym verwendet werden. Obwohl sich die Begriffe ähneln, gibt es jedoch signifikante Unterschiede:

Data Warehouse und Data Lake im Vergleich
 

Mithilfe einer Datenpipeline sammelt ein Data Warehouse Rohdaten aus mehreren Quellen in einem zentralen Repository, das anhand vordefinierter Schemata für die Datenanalyse strukturiert ist. Ein Data Lake ist ein Data Warehouse ohne vordefinierte Schemata. Dadurch lassen sich damit mehr Arten von Analysen durchführen als mit einem Data Warehouse. Data Lakes werden üblicherweise auf Big-Data-Plattformen wie Apache Hadoop erstellt.

Data Warehouse und Data Mart im Vergleich
 

Ein Data Mart ist ein Teilbereich eines Data Warehouse, der Daten für einen bestimmten Geschäftsbereich oder eine bestimmte Abteilung enthält. Da sie eine kleinere Teilmenge von Daten enthalten, ermöglichen Data Marts einer Abteilung oder einem Geschäftsbereich schnellere und gezieltere Einblicke, als dies bei der Arbeit mit dem breiteren Data-Warehouse-Datensatz möglich ist.

Data Warehouse und Datenbank im Vergleich
 

Eine Datenbank ist in erster Linie für schnelle Abfragen und die Verarbeitung von Transaktionen gedacht, jedoch nicht für Analysen. Eine Datenbank dient in der Regel als zielgerichteter Datenspeicher für eine bestimmte Anwendung, während ein Data Warehouse Daten aus einer beliebigen Anzahl von Anwendungen (oder sogar aus allen Anwendungen) in Ihrem Unternehmen speichert.

Eine Datenbank konzentriert sich auf die Aktualisierung von Echtzeitdaten, während ein Data Warehouse einen breiteren Anwendungsbereich hat und aktuelle und historische Daten für prädiktive Analysen, maschinelles Lernen und andere fortgeschrittene Analysearten erfasst.

Arten von Data Warehouses

Cloud-Data-Warehouse
 

Ein Cloud-Data-Warehouse ist ein speziell für den Betrieb in der Cloud entwickeltes Data Warehouse, das Kunden als Managed Service angeboten wird. Cloudbasierte Data Warehouses sind in den letzten fünf bis sieben Jahren immer beliebter geworden, da immer mehr Unternehmen Cloud-Computing-Services nutzen und versuchen, den Platzbedarf ihrer lokalen Rechenzentren zu reduzieren.

Bei einem Cloud-Data-Warehouse wird die physische Data-Warehouse-Infrastruktur vom Cloud-Anbieter verwaltet, d. h. der Kunde muss keine Vorabinvestitionen in Hardware oder Software tätigen und muss zudem die Data-Warehouse-Lösung nicht verwalten oder warten.

Data-Warehouse-Software (lokal/Lizenz)
 

Ein Unternehmen kann eine Data-Warehouse-Lizenz erwerben und dann ein Data Warehouse auf seiner eigenen Infrastruktur vor Ort einrichten. Dies ist zwar in der Regel teurer als ein Cloud-Data-Warehouse-Service, kann aber für Behörden, Finanzinstitute oder andere Organisationen, die mehr Kontrolle über ihre Daten haben wollen oder strenge Sicherheits- oder Datenschutzstandards oder -vorschriften einhalten müssen, eine bessere Alternative darstellen.

Data-Warehouse-Appliance
 

Eine Data-Warehouse-Appliance ist eine vorintegrierte Komplettlösung aus Hardware und Software – CPUs, Speicher, Betriebssystem und Data-Warehouse-Software –, die ein Unternehmen einfach mit seinem Netzwerk verbinden und sofort nutzen kann. Eine Data-Warehouse-Appliance liegt in Bezug auf Anschaffungskosten, Geschwindigkeit der Bereitstellung, Einfachheit der Skalierbarkeit und Kontrolle der Datenverwaltung irgendwo zwischen Cloud- und On-Premises-Implementierungen.

Vorteile eines Data Warehouse

Ein Data Warehouse bietet die folgenden Vorteile:

  • Bessere Datenqualität: Ein Data Warehouse zentralisiert Daten aus einer Vielzahl von Datenquellen, wie z. B. Transaktionssystemen, operativen Datenbanken und Flat Files. Anschließend werden die Betriebsdaten bereinigt und standardisiert sowie Duplikate beseitigt, um eine Single-Source-of-Truth zu schaffen.

  • Schnellere Geschäftserkenntnisse: Daten aus unterschiedlichen Quellen schränken die Fähigkeit von Entscheidungsträgern ein, Unternehmensstrategien zuverlässig festzulegen. Data Warehouses machen dagegen Datenintegration möglich, damit die Nutzer im Unternehmen bei jeder geschäftlichen Entscheidung alle Unternehmensdaten nutzen können. Mit Data-Warehouse-Daten können Sie Berichte zu Themen, Trends, Aggregationen und anderen Beziehungen zwischen Daten erstellen, die über eine ELM-App (Engineering Lifecycle Management) erfasst wurden.

  • Intelligentere Entscheidungen:  Ein Data Warehouse unterstützt umfangreiche Business-Intelligence-Funktionen wie Data Mining (d. h. das Auffinden von bisher unsichtbaren Mustern und Beziehungen in Daten), künstliche Intelligenz und maschinelles Lernen – Tools also, die Datenexperten und Führungskräfte in Unternehmen dazu nutzen können, um auf harten Fakten beruhende und somit intelligentere Entscheidungen in praktisch jedem Bereich des Unternehmens zu treffen, von Geschäftsprozessen bis hin zum Finanz- und Bestandsmanagement.

  • Schaffung und Ausbau von Wettbewerbsvorteilen: Alle oben genannten Aspekte tragen dazu bei, dass ein Unternehmen mehr Nutzen aus seinen Daten ziehen kann, und zwar schneller, als dies mit verteilten Datenspeichern möglich ist.
Herausforderungen mit einer Data-Warehouse-Architektur

Da Unternehmen immer mehr Daten speichern und fortschrittlichere Analysen und eine Vielzahl von Daten benötigen, wird das Data Warehouse immer teurer und die Flexibilität nimmt ab. Wenn Sie unstrukturierte oder halbstrukturierte Daten analysieren möchten, funktioniert das Data Warehouse nicht. Wir stellen fest, dass immer mehr Unternehmen auf die Data-Lakehouse-Architektur umsteigen, was dazu beiträgt, die oben genannten Probleme zu lösen. Mit dem offenen Data Lakehouse können Sie Warehouse-Workloads auf allen Arten von Daten in einer offenen und flexiblen Architektur ausführen. Diese Daten können auch von Data Scientists und Ingenieuren genutzt werden, die Daten untersuchen, um geschäftliche Erkenntnisse zu gewinnen. Anstelle eines eng gekoppelten Systems ist das Data Lakehouse viel flexibler und kann auch unstrukturierte und halbstrukturierte Daten wie Fotos, Videos, IoT-Daten und mehr verwalten.

Das Data Lakehouse kann Ihre Data-Science-, ML- und KI-Workloads zusätzlich zu Ihren Berichterstellungs- und Dashboard-Workloads unterstützen. Wenn Sie ein Upgrade von der Data-Warehouse-Architektur anstreben, ist die Entwicklung eines offenen Data Lakehouse der richtige Weg.

Weiterführende Lösungen
Data-Warehouse-Lösungen

Die Data-Warehouse-Lösungen von IBM bieten Leistung und Flexibilität, um strukturierte und unstrukturierte Daten für Analyse-Workloads (einschließlich maschinellem Lernen) zu unterstützen.

Data-Warehouse-Lösungen kennenlernen
Db2 Warehouse on Cloud

Entdecken Sie die Funktionen eines vollständig verwalteten, elastischen Cloud-Data-Warehouse, das für leistungsstarke Analysen und KI entwickelt wurde.

Db2 Warehouse on Cloud erkunden
IBM Cloud Pak for Data

IBM® Cloud Pak for Data ist ein modularer Satz integrierter Softwarekomponenten für die Analyse, Organisation und Verwaltung von Daten über Geschäftssilos hinweg – On-Premises und in der Cloud.

Mehr über IBM Cloud Pak for Data
Ressourcen Das richtige Data Warehouse für Unternehmen finden, um die Herausforderung von Daten und KI zu meistern

KI kann eine Reihe von Herausforderungen mit sich bringen. Data Warehouses und Data Marts können Ihnen helfen, diese zu bewältigen. Erfahren Sie, wie Sie den Gesamtwert einer solchen Lösung ermitteln.

So wählen Sie das richtige Data Warehouse für KI aus

Bei der Auswahl eines Data Warehouse sollten Unternehmen die Auswirkungen von KI, wichtige Unterscheidungsmerkmale des Warehouse und die Vielfalt der Bereitstellungsmodelle berücksichtigen. Dieses E-Book hilft Ihnen dabei.

Das Datendifferenzierungsmerkmal

Ein Leitfaden zum Aufbau eines datengestützten Unternehmens und zur Förderung von geschäftlichen Vorteilen.

Machen Sie den nächsten Schritt

Skalieren Sie KI-Workloads für alle Ihre Daten, überall, mit IBM watsonx.data, einem zweckmäßigen Datenspeicher, der auf einer offenen Lakehouse-Architektur basiert.

watsonx.data erkunden Buchen Sie eine Live-Demo