Qu’est-ce qu’un data lakehouse ?

L’objectif des data lakehouses est de résoudre les principales difficultés rencontrées dans les entrepôts de données et les data lakes afin d’offrir une solution optimisée de gestion des données aux organisations. Il s’agit de la prochaine évolution des solutions de gestion des données sur le marché.

Un data lakehouse est une plateforme de données qui regroupe les meilleurs aspects des entrepôts de données et des data lakes dans une seule solution de gestion des données. Les entrepôts de données sont en général plus performants que les data lakes, mais ils peuvent être plus coûteux et limités en termes d’évolutivité. Les data lakehouses tentent de résoudre ce problème en tirant parti du stockage d’objets cloud pour stocker un plus large éventail de types de données : données structurées, données non structurées et données semi-structurées. Ces avantages étant réunis dans une architecture de données unique, les équipes de données peuvent accélérer le traitement de leurs données, car elles n’ont plus besoin de basculer entre deux systèmes de données disparates pour exécuter et dimensionner des analyses plus avancées, comme le machine learning.

Pourquoi la gouvernance de l’IA constitue un impératif pour déployer l’intelligence artificielle dans les entreprises

Découvrez les obstacles à l’adoption de l’IA, en particulier le manque de solutions de gouvernance de l’IA et de gestion des risques.

Contenu connexe

S'inscrire pour recevoir l'e-book sur les workflows en matière d'IA responsable

Entrepôt de données, data lake et data lakehouse

Les data lakehouses sont apparus en réponse aux défis posés par les entrepôts de données et les data lakes. Il est donc utile de définir ces différents référentiels de données et d’en comprendre les différences.

Entrepôt de données

Un entrepôt de données rassemble les données brutes de plusieurs sources dans un référentiel central et les organise dans une infrastructure de base de données relationnelle. Ce système de gestion des données prend principalement en charge l’analytique des données et les applications de Business Intelligence, comme le reporting d’entreprise. Il utilise des processus ETL pour extraire, transformer et charger des données vers leur destination. Cependant, il est limité par son inefficacité et son coût, encore plus quand le nombre de sources de données et leur quantité augmentent.

Lac de données

Les data lakes sont généralement créés sur des plateformes de big data comme Apache Hadoop. Ils sont connus pour leur faible coût et la flexibilité de leur stockage, car ils ne sont pas régis par les schémas prédéfinis des entrepôts de données traditionnels. Ils hébergent également différents types de données : audio, vidéo et texte. Et comme les producteurs de données génèrent en grande partie des données non structurées, il s’agit d’une distinction importante, car ces data lakes sont également adaptés à une plus grande diversité de projets de science des données et d’intelligence artificielle (IA). Ils permettent d’obtenir des informations plus novatrices et d’améliorer la prise de décision au sein des organisations. Cependant, les data lakes ont aussi leurs inconvénients. Leur taille et leur complexité peuvent nécessiter davantage de ressources techniques, par exemple des data scientists et des ingénieurs de données, pour gérer la quantité de données stockées. De plus, étant donné que la gouvernance des données est mise en œuvre plus en aval dans ces systèmes, les data lakes ont tendance à cloisonner davantage les données dans différents silos, qui risquent de se transformer en marécage de données. Dans ce cas de figure, le data lake peut devenir inutilisable.

Les data lakes et les entrepôts de données sont généralement utilisés en tandem. Les data lakes agissent comme un système fourre-tout pour les nouvelles données, et les entrepôts de données appliquent une structure en aval à des données spécifiques qui en proviennent. Mais coordonner ces systèmes pour fournir des données fiables peut s’avérer coûteux en temps et en ressources. Les longs délais de traitement contribuent à l’obsolescence des données et les couches supplémentaires d’ETL introduisent plus de risques en termes de qualité.

Data Lakehouse

Les data lakehouses compensent les lacunes des entrepôts de données et des data lakes pour créer un meilleur système de gestion des données. Ils offrent aux organisations un stockage rapide et économique pour leurs données d’entreprise, avec une flexibilité suffisante pour prendre en charge les workloads d’analytique des données et de machine learning.

Solutions connexes

Solutions de gestion des données

Solutions de lac de données

Fonctionnalités principales d’un data lakehouse

Comme indiqué précédemment, les data lakehouses combinent les meilleures fonctionnalités des entrepôts de données avec celles des data lakes. Ils tirent parti de structures de données similaires à celles des entrepôts de données et les associent à un stockage aussi économique et flexible que celui des data lakes, permettant aux organisations de stocker et d’accéder au big data plus rapidement et plus efficacement, tout en atténuant les problèmes potentiels de qualité des données. Ils prennent en charge divers jeux de données, structurées et non structurées, répondant ainsi aux besoins des workflows de Business Intelligence et de science des données. Ils sont également compatibles avec les langages de programmation comme Python, R et SQL haute performance.

Les data lakehouses prennent également en charge les transactions ACID sur des workloads de données plus importants. ACID est synonyme d’atomicité, de cohérence, d’isolement et de durabilité : autant de propriétés clés qui définissent les transactions pour garantir l’intégrité des données. L’atomicité, c’est comme si toutes les modifications apportées aux données étaient effectuées en une seule opération. On parle de cohérence lorsque les données sont dans un état cohérent au début et à la fin d’une transaction. L’isolement fait référence à l’état intermédiaire de la transaction, qui est invisible pour les autres transactions. De ce fait, les transactions qui s’exécutent simultanément semblent être sérialisées. La durabilité signifie qu’après l’exécution d’une transaction, les modifications apportées aux données persistent et ne sont pas annulées, même en cas de défaillance du système. Cette fonctionnalité est critique pour la cohérence des données, car plusieurs utilisateurs lisent et écrivent des données simultanément.

Architecture de data lakehouse

Un data lakehouse se compose généralement de cinq couches : ingestion, stockage, métadonnées, API et consommation. Elles constituent le modèle architectural des data lakehouses.

Couche d’ingestion

Cette première couche rassemble des données provenant de différentes sources et les transforme dans un format pouvant être stocké et analysé dans un data lakehouse. La couche d'ingestion peut utiliser des protocoles pour se connecter à des sources internes et externes telles que des systèmes de gestion de bases de données, des bases de données NoSQL, des réseaux sociaux, etc. Comme son nom l’indique, cette couche est responsable de l’ingestion des données.

Couche de stockage

Dans cette couche, les données structurées, non structurées et semi-structurées sont stockées dans des formats de fichier open source, tels que Parquet ou Optimized Row Columnar (ORC). Le véritable avantage d’un lakehouse, c’est sa capacité à accepter tous les types de données à un coût abordable.

Couche de métadonnées

La couche de métadonnées constitue la base du data lakehouse. Il s’agit d’un catalogue unifié qui fournit des métadonnées pour chaque objet du stockage de data lake. Il permet d’organiser et de fournir des informations sur les données du système. Cette couche donne également à l’utilisateur la possibilité d’utiliser des fonctionnalités de gestion telles que les transactions ACID, la mise en cache des fichiers et l’indexation, pour un traitement des requêtes plus rapide. Les utilisateurs peuvent mettre en œuvre des schémas prédéfinis au sein de cette couche, à des fins de gouvernance des données et d’audit.

Couche API

Un data lakehouse utilise des API pour améliorer le traitement des tâches et effectuer des analyses plus avancées. Plus précisément, cette couche permet aux consommateurs et/ou aux développeurs d’utiliser tout un éventail de langages et de bibliothèques, comme TensorFlow, à un niveau abstrait. Les API sont optimisées pour la consommation des actifs de données.

Couche de consommation de données

Cette dernière couche de l’architecture de data lakehouse héberge les applications et outils clients. En d’autres termes, elle a accès à toutes les métadonnées et données stockées dans le data lake. Les utilisateurs de toute une organisation peuvent utiliser le lakehouse et effectuer des tâches analytiques telles que la création de tableaux de bord de Business Intelligence , la visualisation de données et d’autres tâches de machine learning.

Avantages des data lakehouses

Les data lakehouses ont été conçus pour rassembler les meilleures caractéristiques des entrepôts de données et des data lakes. Ils présentent donc des avantages clés spécifiques pour ses utilisateurs. Notamment :

Redondance des données réduite : Le système de stockage des données unique offre une plateforme rationalisée qui répond à toutes les demandes en matière de données métier. Les data lakehouses simplifient également l’observabilité des données en réduisant la quantité de données transitant par les pipelines de données vers divers systèmes.
Rentabilité : Étant donné que les data lakehouses profitent des coûts réduits du stockage d’objets cloud, leurs coûts d’exploitation sont comparativement inférieurs à ceux des entrepôts de données. En outre, l’architecture hybride d’un data lakehouse évite d’avoir à gérer plusieurs systèmes de stockage de données, ce qui réduit les coûts d’exploitation.
Grande variété de workloads pris en charge : Les data lakehouses peuvent être adaptés à différents cas d’utilisation tout au long du cycle de vie de la gestion des données. Ils peuvent également prendre en charge les workflows de Business Intelligence et de visualisation des données, ou les workflows de science des données plus complexes.
Gouvernance améliorée : L’architecture de data lakehouse atténue les problèmes de gouvernance standard inhérents aux data lakes. Par exemple, lorsque les données sont ingérées et chargées, elle peut s’assurer que les données répondent aux exigences des schémas définis, réduisant ainsi les problèmes de qualité des données en aval.
Meilleure évolutivité : Dans les entrepôts de données traditionnels, le calcul et le stockage étaient couplés, ce qui augmentait les coûts d’exploitation. Les data lakehouses séparent le stockage et le calcul, ce qui permet aux équipes chargées des données d’accéder au même stockage de données tout en utilisant différents nœuds informatiques pour différentes applications. Il en résulte une évolutivité et une flexibilité accrues.
Prise en charge du streaming : Les data lakehouses sont conçus pour les entreprises et les technologies d’aujourd'hui, et de nombreuses sources de données utilisent le streaming en temps réel directement à partir des appareils utilisés. Le système d’un lakehouse prend en charge cette ingestion en temps réel, qui ne va faire que gagner en popularité.

Produits associés

Data Lakehouse

IBM watsonx.data

Mettez vos workloads d’IA à l’échelle pour toutes vos données, partout. IBM watsonx.data est le seul magasin de données ouvert du secteur qui vous permet de tirer parti de plusieurs moteurs de requête pour exécuter vos workloads gouvernés, où qu’ils se trouvent, afin d’optimiser l’utilisation des ressources et de réduire vos coûts.

Découvrir IBM watsonx.data

Voir la démo interactive

Gestion de données

IBM Db2

Grâce à des décennies d’innovation en matière de sécurité, d’évolutivité et de disponibilité des données, vos applications et analyses sont protégées, hautement performantes et résilientes, où que vous soyez, avec IBM Db2.

Découvrir IBM Db2

Gestion de données

Netezza Performance Server

L’entrepôt de données cloud natif avancé conçu pour obtenir une analytique et des informations unifiées et évolutives, partout. Grâce à une évolutivité élastique granulaire et à des fonctionnalités de pause et de reprise, Netezza Performance Server vous permet de contrôler les coûts et les ressources à l’échelle d’une grande entreprise.

Découvrir Netezza Performance Server

Ressources sur les data lakehouses

AIOps Essential to Unified Resiliency Management in Data Lakehouses

D’après IBM Research, l’approche unifiée des data lakehouses représente une opportunité unique dans le domaine de la gestion unifiée de la résilience des données.

The Forrester Wave : Gestion des données pour l'analytique, QI 2023

Les solutions IBM fournissent des capacités à même de résoudre les problèmes liés à l’environnement d’analyse. Découvrez pourquoi IBM est nommé leader de la gestion des données pour les solutions d’analyse.

Trinité des plateformes de données : concurrentes ou complémentaires ?

Découvrez comment ces trois concepts peuvent être reliés ou utilisés en tandem.

Presto, qu’est-ce que c’est ?

Apprenez-en plus sur le moteur de requête open source rapide et flexible disponible avec l’architecture de data lakehouse ouverte de watsonx.data.

Passez à l’étape suivante

Faites évoluer les workloads d’IA pour toutes vos données n’importe où avec IBM watsonx.data, un entrepôt de données adapté à vos besoins basé sur une architecture data lakehouse ouverte.

Découvrir watsonx.data

Réserver une démo en direct

Notes de bas de page

¹ Lakehouse: A New Generation of Open Platforms that Unify
Data Warehousing and Advanced Analytics (lien externe à ibm.com), Stanford, 2021