Was ist ein Data Lakehouse?

Autoren

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

Was ist ein Data Lakehouse?

Ein Data Lakehouse ist eine Datenplattform, die flexiblen Datenspeicher von Data Lakes mit den leistungsstarken Analysefunktionen von Data Warehouses kombiniert.

Data Lakes und Data Warehouses werden in der Regel zusammen verwendet. Data Lakes dienen als Auffangsystem für neue Daten, und Data Warehouses wenden eine nachgelagerte Struktur auf diese Daten an.

Die Koordinierung dieser Systeme zur Bereitstellung zuverlässiger Daten kann jedoch sowohl zeit- als auch ressourcenintensiv sein. Lange Verarbeitungszeiten haben zur Folge, dass die Daten veralten, und zusätzliche ETL-Ebenen (Extrahieren, Transformieren, Laden) bergen Risiken für die Datenqualität.

Data Lakehouses kompensieren die Schwachstellen in Data Warehouses und Data Lakes durch Fähigkeiten, die ein besseres Datenverwaltungssystem bilden. Sie kombinieren die Datenstrukturen von Data Warehouses mit der kostengünstigen Speicherung und Flexibilität von Data Lakes.

Data Lakehouses ermöglichen es Datenteams, ihre verteilten Datensysteme zu vereinheitlichen, die Datenverarbeitung für fortgeschrittenere Analysen (wie maschinelles Lernen (ML)) zu beschleunigen, effizient auf Big Data zuzugreifen und die Datenqualität zu verbessern.

Die Entstehung von Data Lakehouses

Data Lakehouses existieren, um die Herausforderungen von Data Warehouses und Data Lakes zu lösen und deren Nutzen in einer Datenarchitektur zu vereinen.

Zum Beispiel sind Data Warehouse leistungsfähiger als Data Lakes, sowohl beim Speichern als auch beim Transformieren von Unternehmensdaten. Für das Data Warehousing sind jedoch strenge Schemata erforderlich (typischerweise das Sternschema und das Schneeflockenschema).

Daher funktionieren Data Warehouses nicht gut mit unstrukturierten oder halbstrukturierten Daten, die kritisch für künstliche Intelligenz (KI) und ML-Anwendungsfälle sind. Zudem sind sie in ihrer Skalierbarkeit begrenzt.

Data Lakes ermöglichen es hingegen Unternehmen, alle Datentypen – strukturierte Daten, unstrukturierte Daten und halbstrukturierte Daten – aus verschiedenen Datenquellen und an einem Ort zusammenzufassen. Sie bieten eine skalierbarere und erschwinglichere Datenspeicherung, verfügen jedoch nicht über integrierte Datenverarbeitungstools.

Data Lakehouses führen Aspekte von Data Warehouses und Data Lakes zusammen. Sie verwenden Cloud Object Storage, um Daten in jedem Format zu niedrigen Kosten zu speichern. Und zusätzlich zu diesem Cloud-Speicher befindet sich eine Analyseinfrastruktur im Warehouse-Stil, die Hochleistungsabfragen, Echtzeitanalyse und Business Intelligence (BI) unterstützt.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Data Warehouse vs. Data Lake vs. Data Lakehouse

Data Warehouses, Data Lakes und Data Lakehouses sind allesamt Datenspeicherorte, doch es gibt wesentliche Unterschiede. Sie werden oft zusammen verwendet, um eine integrierte Datenarchitektur für eine Vielzahl von Anwendungsfällen zu unterstützen.

Data Warehouse

Ein Data Warehouse sammelt Rohdaten aus mehreren Quellen in einem zentralen Repository und organisiert sie in einer relationalen Datenbankinfrastruktur. Dieses Datenverwaltungssystem unterstützt in erster Linie Datenanalyse- und Business-Intelligence-Anwendungen, wie z. B. die Berichterstellung in Unternehmen.

Das System verwendet für das Extrahieren, Konvertieren und Laden der Daten am Ziel ETL-Prozesse. Allerdings ist diese Methode durch ihre Ineffizienz und ihre Kosten begrenzt, insbesondere wenn die Anzahl der Datenquellen und die Datenmenge zunehmen.

Während Data Warehouses in der Vergangenheit vor Ort auf Mainframes gehostet wurden, werden heute viele Data Warehouses in der Cloud gehostet und als Cloud-Service bereitgestellt.

Data Lake

Data Lakes wurden ursprünglich auf Big-Data-Plattformen wie Apache Hadoop erstellt. Der Kern moderner Data Lakes ist jedoch ein Cloud Object Storage Service, der es ihnen ermöglicht, alle Arten von Daten zu speichern. Zu den gängigen Services gehören Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage und IBM Cloud Object Storage.

Da Unternehmen größtenteils unstrukturierte Daten erzeugen, stellt diese Speicherfunktion einen wichtigen Unterschied dar. Sie ermöglicht mehr Projekte im Bereich Data Science und künstliche Intelligenz (KI), die wiederum zu neuartigeren Erkenntnissen und einer besseren Entscheidungsfindung im gesamten Unternehmen führen.

Die Größe und Komplexität von Data Lakes kann jedoch das Fachwissen von eher technischen Benutzern wie Data Scientists und Data Engineers erfordern. Und da die Data Governance in diesen Systemen nachgelagert erfolgt, können Data Lakes anfällig für Datensilos sein und sich anschließend zu Datensümpfen entwickeln (in denen gute Daten aufgrund schlechter Verwaltung unzugänglich sind).

Data Lakehouse

Data Lakehouses können die zentralen Herausforderungen sowohl in Data Warehouses als auch in Data Lakes lösen, um eine idealere Lösung für die Datenverwaltung für Unternehmen zu erzielen. Sie nutzen Cloud Object Storage für eine schnelle, kostengünstige Speicherung einer breiten Palette von Datentypen und bieten gleichzeitig leistungsstarke Analysefunktionen. Unternehmen können Data Lakehouses zusätzlich zu ihren bestehenden Data Lakes und Data Warehouses nutzen, ohne dass sie vollständig heruntergefahren und neu aufgebaut werden müssen.

Vorteile eines Data Lakehouse

Data Lakehouses bieten Benutzern mehrere wichtige Vorteile:

Reduzieren der Datenredundanz
Geringere Kosten
Unterstützung einer Vielzahl von Workloads
Verbesserung der Data Governance
Verbesserung der Skalierbarkeit
Aktivieren des Echtzeit-Streamings

Reduzieren der Datenredundanz

Ein zentrales Datenspeichersystem schafft eine optimierte Plattform, die alle Anforderungen an die Geschäftsdaten erfüllt und die Datenduplizierung reduziert. Data Lakehouses vereinfachen auch die durchgängige Daten-Observability durch die Reduzierung der Datenmenge, die durch die Datenpipelines in verschiedene Systeme übertragen wird.

Geringere Kosten

Data Lakehouses profitieren von den niedrigeren Kosten für Cloud Object Storage, daher sind sie kostengünstiger als Data Warehouses. Zusätzlich vermeidet die Hybridarchitektur eines Data Lakehouse die Notwendigkeit, mehrere Datenspeichersysteme zu warten, wodurch der Betrieb günstiger wird.

Unterstützung einer Vielzahl von Workloads

Data Lakehouses können verschiedene Anwendungsfälle über den gesamten Datenverwaltungslebenszyklus abdecken. Sie unterstützen außerdem sowohl Business Intelligence als auch datengesteuerte Visualisierungs-Workflows oder komplexere Data-Science-Workflows.

Verbesserung der Data Governance

Die Data-Lakehouse-Architektur reduziert die Governance-Probleme von Data Lakes. So sorgt beispielsweise das Data Lakehouse dafür, dass bei der Aufnahme und beim Hochladen von Daten die Einhaltung der definierten Schema-Anforderungen gewährleistet wird, wodurch spätere Datenqualitätsprobleme reduziert werden.

Verbesserung der Skalierbarkeit

In traditionellen Data Warehouses sind Rechenleistung und Speicher gekoppelt. Data Lakehouses trennen Speicher und Computing, sodass Datenteams auf denselben Datenspeicher zugreifen und gleichzeitig verschiedene Computing-Knoten für unterschiedliche Anwendungen nutzen können. Dieses Entkoppeln führt zu mehr Skalierbarkeit und Flexibilität.

Aktivieren des Echtzeit-Streamings

Das Data Lakehouse wurde für die Unternehmen und Technologien von heute entwickelt. Viele Datenquellen enthalten Streaming-Daten in Echtzeit z.B. von Geräten aus dem Internet der Dinge. Das Lakehouse-System unterstützt diese Quellen durch die Datenaufnahme in Echtzeit.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Zur Episode wechseln

Was ist Delta Lake?

Delta Lake wurde 2016 von Databricks entwickelt und ist ein Open-Source-Datenspeicherformat, das Apache Parquet-Datendateien mit einem obusten atenspeicherformat, das Apache Parquet-Datendateien mit einem Metadatenprotokoll kombiniert. Dieses Format erweitert Data Lakes um wichtige Datenverwaltungsfunktionen wie Schemadurchsetzung, Zeitreisen und ACID-Transaktionen. (ACID steht für „Atomarität, Konstanz, Isolation und Dauerhaftigkeit“, dies sind Schlüsseleigenschaften, die eine Transaktion definieren, um die Datenintegrität sicherzustellen.)

Diese Funktionen tragen dazu bei, Data Lakes zuverlässiger und intuitiver zu machen. Sie ermöglichen auch die Ausführung von SQL-Abfragen (Structured Query Language), Analyse-Workloads und anderen Aktivitäten in einem Data Lake, wodurch Business Intelligence, Data Intelligence (DI), KI und ML optimiert werden.

Delta Lake wurde 2019 als Open Source veröffentlicht. Seitdem werden Data Lakehouses in der Regel erstellt, indem eine Delta Lake-Speicherschicht auf einem Data Lake aufgebaut und diese dann in eine Datenverarbeitung wie Apache Spark oder Hive integriert wird.

Open-Source-fähige Data Lakehouses werden oft auch als offene Data Lakehouses bezeichnet. Andere offene Tabellenformate sind Apache Iceberg (ein Hochleistungsformat für umfangreiche Analysetabellen) und Apache Hudi (für inkrementelle Datenverarbeitung konzipiert).

Mehr erfahren über Delta Lake

Das hybride, offene Data Lakehouse für KI

Vereinfachen Sie den Datenzugriff und automatisieren Sie die Data Governance. Entdecken Sie die Vorteile einer Data-Lakehouse-Strategie für Ihre Datenarchitektur, einschließlich der Kostenoptimierung Ihrer Workloads und der Skalierung von KI und Analysen, mit all Ihren Daten, überall.

Ebenen der Data-Lakehouse-Architektur

Die Architektur eines Data Lakehouse besteht in der Regel aus fünf Ebenen:

Aufnahmeschicht
Speicherschicht
Metadatenschicht
API-Schicht
Nutzungsschicht

Aufnahmeschicht

Diese erste Ebene erfasst Daten aus einer Reihe von Quellen und wandelt sie in ein Datenformat um, das ein Lakehouse speichern und analysieren kann. Die Aufnahme-Ebene kann Protokolle verwenden, um sich mit internen und externen Quellen wie Datenbankverwaltungssystemen, NoSQL-Datenbanken und sozialen Medien zu verbinden.

Speicherschicht

In dieser Schicht werden strukturierte, unstrukturierte und halbstrukturierte Datensätze in Open Source-Dateiformaten wie Parquet oder Optimized Row Columnar (ORC) gespeichert. Diese Schicht bietet einen großen Nutzen des Data Lakehouse: seine Fähigkeit, alle Datentypen zu einem erschwinglichen Preis aufzunehmen.

Metadatenschicht

Die Metadatenebene ist ein einheitlicher Katalog, der Metadaten für jedes Objekt im Lake Storage bereitstellt und dabei hilft, die Daten im System zu organisieren und mit Informationen zu versehen. Diese Ebene bietet auch ACID-Transaktionen, Datei-Caching und Indexierung für schnellere Abfragen. Benutzer können hier vordefinierte Schemata implementieren, die Data Governance und Auditing-Funktionen ermöglichen.

API-Schicht

Ein Data Lakehouse verwendet Programmierschnittstellen (APIs), um die Aufgabenverarbeitung zu verbessern und fortschrittlichere Analysen durchzuführen. Insbesondere bietet diese Schicht Verbrauchern und/oder Entwicklern die Möglichkeit, eine Reihe von Sprachen und Bibliotheken, wie TensorFlow, auf einer abstrakten Ebene zu verwenden. Die APIs sind für die Nutzung von Datenassets optimiert.

Datennutzungsebene

Diese letzte Ebene der Data-Lakehouse-Architektur hostet Apps und Tools und hat Zugriff auf alle im Lake gespeicherten Metadaten und Daten. Dadurch wird der Datenzugriff für Benutzer im gesamten Unternehmen eröffnet, die das Lakehouse nutzen können, um Aufgaben wie  Business-Intelligence-Dashboards, Datenvisualisierung und Jobs im Bereich maschinelles Lernen auszuführen.

Entdecken Sie IBM Data Lakehouse Patterns for Hybrid Cloud

Das Data Lakehouse für generative KI

Erfahren Sie, wie Sie mit watsonx.data auf Daten über verteilte Datenquellen zugreifen und diese vereinheitlichen können, vektorisierte Einbettungen für RAG speichern und vieles mehr.

IBM wurde im 3. Quartal 2025 als führend bei der Integration von iPaaS und Forrester Wave™ ausgezeichnet

Lesen Sie den Bericht, um zu erfahren, warum Forrester IBM in der Kategorie Current Offering als führend eingestuft hat. Erfahren Sie, wie diese Führungsrolle IBM webMethods MFT stärkt, indem sie sichere, skalierbare Dateiübertragungen im Rahmen einer breiteren Unternehmensintegrationsstrategie bereitstellt.

Was ist ein Data Lakehouse?

Autoren

Was ist ein Data Lakehouse?

Ein Data Lakehouse ist eine Datenplattform, die flexiblen Datenspeicher von Data Lakes mit den leistungsstarken Analysefunktionen von Data Warehouses kombiniert.

Die Entstehung von Data Lakehouses

Die neuesten Erkenntnisse und Insights zu KI

Data Warehouse vs. Data Lake vs. Data Lakehouse

Data Warehouse

Data Lake

Data Lakehouse

Vorteile eines Data Lakehouse

Reduzieren der Datenredundanz

Geringere Kosten

Unterstützung einer Vielzahl von Workloads

Verbesserung der Data Governance

Verbesserung der Skalierbarkeit

Aktivieren des Echtzeit-Streamings

Ist Datenverwaltung das Geheimnis generativer KI?

Was ist Delta Lake?

Das hybride, offene Data Lakehouse für KI

Ebenen der Data-Lakehouse-Architektur

Aufnahmeschicht

Speicherschicht

Metadatenschicht

API-Schicht

Datennutzungsebene

Ressourcen