Accueil les sujets data warehouse Qu’est-ce qu’un entrepôt de données ?
Découvrir la solution d’entrepôt de données d’IBM S’abonner aux mises à jour sur l’IA
Illustration par un collage de pictogrammes représentant des nuages, un diagramme circulaire, des pictogrammes de graphique
Qu’est-ce qu’un entrepôt de données ?

Un entrepôt de données, ou entrepôt de données d’entreprise (EDW), est un système qui agrège les données de différentes sources dans un magasin de données unique, centralisé et cohérent pour l’analyse des données, le data mining, l’intelligence artificielle (IA) et le machine learning.

 

Avec un système d’entrepôt de données, une organisation peut exécuter des analyses puissantes sur de grands volumes de données (plusieurs pétaoctets), ce dont les bases de données standard ne sont pas capables.

Les systèmes d’entreposage des données font partie des solutions de Business Intelligence (BI) depuis plus de trente ans, mais ils ont connu des évolutions récentes avec l’émergence de nouveaux types de données et de nouvelles méthodes d’hébergement. Auparavant, les entrepôts de données étaient hébergés sur site, souvent sur un mainframe, et ils étaient principalement utilisés pour extraire des données à partir d’autres sources, les nettoyer et les préparer, ainsi que pour charger et gérer ces données dans une base de données relationnelle. Désormais, les entrepôts de données peuvent être hébergés sur une appliance dédiée ou dans le cloud, et la plupart d’entre eux intègrent des capacités d’analyse et des outils de visualisation et de présentation des données.

Créez des fworkflows d’IA responsables avec la gouvernance de l’IA

Découvrez les éléments constitutifs et les bonnes pratiques pour aider vos équipes à accélérer l’IA responsable.

Contenu connexe

Obtenir l’eBook sur Presto

Architecture des entrepôts de données

D’une manière générale, les entrepôts de données ont une architecture à trois niveaux :
 

  • Niveau inférieur : Le niveau inférieur se compose d’un serveur d’entrepôt de données, généralement un système de base de données relationnelle, qui collecte, nettoie et transforme les données provenant de plusieurs sources via un processus d’extraction, transformation et chargement (ETL) ou un processus d’extraction, chargement et transformation (ELT). Pour la plupart des organisations qui utilisent l’ETL, le processus repose sur l’automatisation, et il est efficace, bien défini, continu et géré par lots.
     

  • Niveau intermédiaire : Le niveau intermédiaire est constitué d’un serveur OLAP (traitement analytique en ligne) pour un traitement rapide des requêtes. Trois types de modèles OLAP peuvent être utilisés à ce niveau : ROLAP, MOLAP et HOLAP. Le type de modèle OLAP utilisé dépend du type de système de base de données existant.
     

  • Niveau supérieur : Le niveau supérieur se présente sous forme d’une sorte d’interface utilisateur front-end ou d’un outil de reporting, qui permet aux utilisateurs finaux d’exécuter des analyses ad hoc de leurs données métier.

Bref historique de l’architecture des entrepôts de données

La plupart des entrepôts de données sont créés autour d’un système de base de données relationnelle, sur site ou dans le cloud, où les données sont à la fois stockées et traitées. Ils comptent d’autres composants comme un système de gestion des métadonnées et une couche de connectivité API permettant à l’entrepôt d’extraire des données à partir de sources organisationnelles et de fournir un accès à des outils d’analyse et de visualisation.

Un entrepôt de données type comprend quatre composants principaux : une base de données centrale, des outils ETL, des métadonnées et des outils d’accès. Tous ces composants sont conçus pour être rapides et ainsi vous permettre d’obtenir tout aussi rapidement des résultats et d’analyser les données à la volée.

Les entrepôts de données existent depuis des dizaines d’années. Nés dans les années 1980, ils ont été créés pour répondre aux besoins de l’époque en matière d’optimisation de l’analytique des données. Avec la croissance des applications métier des entreprises et celle des données générées ou stockées, le besoin de systèmes d’entrepôt de données capables à la fois de gérer les données et de les analyser s’est fait sentir. À un niveau global, les administrateurs de bases de données pouvaient extraire les données de leurs systèmes opérationnels et y ajouter un schéma via une opération de transformation avant de les charger dans leur entrepôt de données.

Avec l’évolution et la montée en popularité des architectures d’entrepôts de données, de plus en plus de professionnels ont commencé à les utiliser dans leurs entreprises pour accéder aux données, et l’entrepôt de données leur facilitait la tâche grâce à ses données structurées. C’est à ce stade que les métadonnées ont pris toute leur importance. Le reporting et la création de tableaux de bord sont devenus des cas d’utilisation essentiels, et le langage SQL (langage de requête structuré) est devenu le moyen de facto d’interagir avec ces données.

Composants de l’architecture d’un entrepôt de données

Examinons chaque composant de plus près.

etl

Lorsque les analystes de bases de données souhaitent déplacer des données d’une source de données vers leur entrepôt de données, voici le processus qu’ils suivent. En bref, l’ETL convertit les données dans un format utilisable afin qu’une fois dans l’entrepôt de données, elles puissent être analysées/interrogées/etc. 

Métadonnées

Les métadonnées sont des données sur les données. Pour parler simplement, elles décrivent toutes les données qui sont stockées dans un système pour en permettre la recherche. Parmi les exemples de métadonnées, citons les auteurs, les dates ou les lieux d’un article, la date de création d’un fichier, sa taille, etc. Considérez ces métadonnées comme les titres d’une colonne dans une feuille de calcul. Les métadonnées vous permettent d’organiser vos données pour les rendre utilisables, afin que vous puissiez les analyser pour créer des tableaux de bord et des rapports.

Traitement des requêtes SQL

SQL est le langage standard de facto pour l’interrogation de vos données. Il s’agit du langage que les analystes utilisent pour extraire des informations à partir des données stockées dans l’entrepôt. En général, les entrepôts de données intègrent des technologies propriétaires de traitement des requêtes SQL étroitement liées aux ressources de calcul. Cela permet d’obtenir des performances très élevées pour l’analytique. Une chose à noter, cependant, c’est que le coût d’un entrepôt de données peut commencer à augmenter avec le volume de données et la quantité de ressources de calcul SQL.

Couche de données

La couche de données représente le niveau d’accès qui permet aux utilisateurs d’atteindre les données. C’est à cet endroit que l’on trouve généralement un datamart. En partitionnant vos données en segments en fonction des personnes auxquelles vous souhaitez accorder l’accès, cette couche vous apporte une grande précision dans l’attribution des droits au sein de votre organisation. Par exemple, vous pourriez vouloir refuser l’accès aux données de votre équipe RH à votre équipe commerciale, et vice versa.

Gouvernance et sécurité

Cet aspect est lié à la couche de données en ce sens que vous devez pouvoir appliquer des stratégies d’accès et de sécurité précises à toutes les données de votre organisation. En règle générale, les entrepôts de données intègrent des fonctionnalités robustes de gouvernance et de sécurité des données, de sorte qu’il n’est pas nécessaire d’effectuer un gros travail d’ingénierie des données pour les intégrer. Il est important de planifier la gouvernance et la sécurité à mesure que vous ajoutez des données à votre entrepôt et que votre entreprise se développe.

+ Outils d’accès aux entrepôts de données

Bien que les outils d’accès ne soient pas intégrés à votre entrepôt de données, ils peuvent être considérés comme une interface conviviale pour les utilisateurs professionnels. C’est à cet endroit que vous trouverez les outils de reporting et de visualisation, utilisés par les analystes de données et les utilisateurs professionnels pour interagir avec les données, extraire des informations et créer des visualisations que le reste de l’entreprise pourra utiliser. Parmi ces outils, citons Tableau, Looker et Qlik.

Comprendre l’OLAP et l’OLTP dans les entrepôts de données

L’OLAP (traitement analytique en ligne) est un logiciel qui permet d’effectuer des analyses multidimensionnelles à grande vitesse sur de grands volumes de données provenant d’un magasin de données unifié et centralisé, tel qu’un entrepôt de données. L’OLTP (traitement transactionnel en ligne), permet l’exécution en temps réel d’un grand nombre de transactions de bases de données par un grand nombre de personnes, généralement sur Internet. La principale différence entre l’OLAP et l’OLTP réside dans leur nom : l’OLAP est de nature analytique et l’OLTP est transactionnel.

Les outils OLAP sont conçus pour l’analyse multidimensionnelle des données dans un entrepôt de données, qui contient à la fois des données historiques et transactionnelles. Les utilisations courantes de l’OLAP comprennent l’exploration de données et d’autres applications de Business Intelligence, les calculs analytiques complexes et les scénarios prédictifs, ainsi que les fonctions de production de rapports d’entreprise comme l’analyse financière, la budgétisation et la planification prévisionnelle.

L’OLTP est conçu pour prendre en charge les applications orientées transactions en traitant les transactions récentes aussi rapidement et précisément que possible. Les utilisations courantes de l’OLTP incluent les guichets automatiques, les logiciels de commerce électronique, le traitement des données de paiement par carte de crédit, les réservations en ligne, les systèmes de réservation et les outils de tenue de dossiers.

Pour en savoir plus sur les différences entre ces approches, consultez l’article « OLAP et OLTP : quelle est la différence ? » 

Schémas dans les entrepôts de données

Les schémas sont les procédés par lesquels les données sont organisées au sein d’une base ou d’un entrepôt de données. Il existe deux principaux types de structures de schéma, le schéma en étoile et le schéma en flocon de neige, qui auront une influence sur la conception de votre modèle de données.

Schéma en étoile : Ce schéma se compose d’une table de faits qui peut être reliée à un certain nombre de tables de dimension dénormalisées. Il est considéré comme le type de schéma le plus simple et le plus courant, et ses utilisateurs l’apprécient pour sa rapidité de traitement des requêtes.

Schéma en flocon de neige : Même s’il n’est pas aussi largement adopté, le schéma en flocon de neige est une autre structure d’organisation des entrepôts de données. Dans ce schéma, la table de faits est reliée à un certain nombre de tables de dimension normalisées, et ces tables de dimension ont des tables enfants. Les utilisateurs d’un schéma en flocon de neige profitent d’une redondance des données réduite, mais les performances du traitement des requêtes s’en ressentent. 

Comparaison des entrepôts de données avec les bases de données, les data lakes et les datamarts

Entrepôt de données, base de données, data lake et datamart, autant de termes qui ont tendance à être utilisés de manière interchangeable. Mais malgré leur similarité, il existe des différences importantes :

Entrepôt de données et data lake
 

En s’appuyant sur un pipeline de données, les entrepôts de données rassemblent les données brutes de plusieurs sources dans un référentiel central et structuré à partir de schémas prédéfinis conçus pour l’analytique des données. Un data lake est un entrepôt de données, mais sans les schémas prédéfinis. Par conséquent, il permet d’effectuer plus de types d’analyses qu’un entrepôt de données. Les data lakes sont généralement créés sur des plateformes de big data comme Apache Hadoop.

Entrepôt de données et datamart
 

Un datamart est un sous-ensemble d’entrepôt de données qui contient des données propres à un secteur d’activité ou à un département. Parce qu’ils contiennent un sous-ensemble plus restreint de données, les datamarts permettent à un département ou à un secteur d’activité de découvrir des informations plus ciblées plus rapidement qu’en travaillant avec le jeu de données plus vaste de l’entrepôt.

Entrepôt de données et base de données
 

Une base de données est conçue principalement pour un traitement rapide des requêtes et des transactions, et non pour l’analytique. Une base de données sert généralement de magasin de données ciblé pour une application spécifique, tandis qu’un entrepôt de données stocke les données de plusieurs applications (voire de la totalité des applications) de votre organisation.

Les bases de données se concentrent sur la mise à jour des données en temps réel, tandis que les entrepôts de données ont une portée plus large : ils capturent les données actuelles et historiques à des fins d’analyse prédictive, de machine learning et d’autres types d’analyse avancés.

Types d’entrepôts de données

Entrepôt de données cloud
 

Un entrepôt de données cloud est un entrepôt de données spécialement conçu pour fonctionner dans le cloud. Il est proposé aux clients en tant que service géré. Les entrepôts de données basés sur le cloud ont gagné en popularité au cours des cinq ou sept dernières années, car de plus en plus d’entreprises ont recours à des services de cloud computing et cherchent à réduire l’encombrement de leurs centres de données sur site.

Dans ce cas de figure, l’infrastructure physique de l’entrepôt de données est gérée par l’entreprise cloud. En d’autres termes, le client n’a pas besoin de réaliser d’investissement initial dans du matériel ou des logiciels ni de gérer la solution d’entrepôt de données ou d’en assurer la maintenance.

Logiciel d’entrepôt de données (sur site/licence)
 

Une entreprise peut acheter une licence d’entrepôt de données, puis déployer ce dernier sur sa propre infrastructure sur site. Même s’il est généralement plus coûteux qu’un service d’entrepôt de données cloud, il peut s’agir d’une option plus adaptée pour les entités gouvernementales, les institutions financières ou d’autres organisations qui souhaitent avoir plus de contrôle sur leurs données ou qui doivent se conformer à des normes ou réglementations strictes en matière de sécurité ou de confidentialité des données.

Appliance d’entrepôt de données
 

Une appliance d’entrepôt de données est un ensemble pré-intégré de matériel et de logiciels (processeurs, stockage, système d’exploitation et logiciel d’entrepôt de données) qu’une entreprise peut connecter à son réseau et commencer à utiliser tel quel. Une telle appliance se situe quelque part entre les implémentations cloud et sur site en termes de coût initial, de rapidité de déploiement, d’évolutivité et de contrôle de la gestion des données.

Avantages d’un entrepôt de données

Un entrepôt de données présente les avantages suivants :

  • Qualité des données améliorée : Un entrepôt de données centralise les données provenant de diverses sources, telles que des systèmes transactionnels, des bases de données opérationnelles et des fichiers plats. Il nettoie ensuite les données opérationnelles, élimine les doublons et les normalise pour créer une source unique de vérité.

  • Informations métier obtenues plus rapidement : Les données provenant de sources disparates limitent la capacité des décideurs à définir des stratégies métier en toute confiance. Les entrepôts de données permettent l’intégration des données, donnant la possibilité aux utilisateurs professionnels de tirer parti de toutes les données de l’entreprise dans chaque décision métier. Les données de l’entrepôt permettent de créer des rapports sur des thèmes, des tendances, des agrégations et d’autres relations entre les données collectées à partir d’une application de gestion du cycle de vie de l’ingénierie (ELM).

  • Prise de décision plus intelligente :  Les entrepôts de données prennent en charge des fonctions de BI à grande échelle telles que le data mining (recherche de tendances et de relations invisibles dans les données), l’intelligence artificielle et le machine learning, des outils que les professionnels des données et les chefs d’entreprise peuvent utiliser pour obtenir des preuves tangibles pour prendre des décisions plus intelligentes dans pratiquement tous les domaines de l’organisation, des processus métier à la gestion financière en passant par la gestion des stocks.

  • Obtenir un avantage concurrentiel et le développer : Tous ces éléments se combinent pour aider les organisations à exploiter davantage d’opportunités dans le domaine des données, plus rapidement qu’il n’est possible de le faire à partir de magasins de données disparates.
Défis liés à l’architecture des entrepôts de données

Les entreprises hébergent de plus en plus de données et ont besoin de capacités analytiques plus avancées et d’un plus large éventail de données. Les entrepôts de données deviennent ainsi de plus en plus coûteux et de moins en moins flexibles. Si vous souhaitez analyser des données non structurées ou semi-structurées, un entrepôt de données ne fera pas l’affaire. Nous constatons que de plus en plus d’entreprises se tournent vers des architectures de data lakehouse, qui leur permettent de résoudre ces problèmes. Les data lakehouses ouverts prennent en charge les workloads d’entrepôt sur toutes sortes de données dans une architecture ouverte et flexible. Ces données peuvent également être utilisées par les data scientists et les ingénieurs qui les étudient pour en extraire des informations métier. Contrairement à des systèmes étroitement liés, les data lakehouses sont beaucoup plus flexibles et peuvent également gérer des données non structurées et semi-structurées telles que des photos, des vidéos, des données IdO, etc.

Les data lakehouses peuvent également prendre en charge vos workloads de science des données, de ML et d’IA en plus de vos workloads de création de rapports et de tableaux de bord. Si vous envisagez de mettre à niveau votre architecture d’entrepôt de données, le développement d’un data lakehouse ouvert est la solution.

Solutions connexes
Solutions d’entrepôt de données

Les solutions d’entrepôts de données d’IBM offrent les performances et la flexibilité nécessaires à la prise en charge des données structurées et non structurées pour les workloads analytiques, y compris le machine learning.

Découvrez les solutions d’entrepôt de données
Db2 Warehouse on Cloud

Découvrez les capacités d’un entrepôt de données cloud élastique entièrement géré, conçu pour l’analytique et l’IA hautes performances.

Découvrir Db2 Warehouse on Cloud
IBM Cloud Pak for Data

IBM Cloud Pak for Data est un ensemble modulaire de composants logiciels intégrés, destiné à l’analyse, à l’organisation et à la gestion des données dans les silos de l’entreprise, sur site et dans le cloud.

Découvrir IBM Cloud Pak for Data
Ressources Trouver le bon entrepôt de données d’entreprise pour relever le défi des données et de l’IA

L’IA peut présenter un certain nombre de défis que les entrepôts de données d’entreprise et les datamarts peuvent vous aider à surmonter. Découvrez comment évaluer la valeur ajoutée totale d’une telle solution.

Comment choisir le bon entrepôt de données pour l’IA

Pour choisir un entrepôt de données d’entreprise, les organisations doivent tenir compte de l’impact de l’IA, des principaux facteurs de différenciation des entrepôts de données et de la variété des modèles de déploiement. Cet eBook vous permettra de vous y retrouver.

La différence par les données

Un guide sur le développement d’une organisation fondée sur les données et la création d’un avantage métier.

Passez à l’étape suivante

Faites évoluer les workloads d’IA pour toutes vos données n’importe où avec IBM watsonx.data, un entrepôt de données adapté à vos besoins basé sur une architecture data lakehouse ouverte.

Découvrir watsonx.data Réserver une démo en direct