Qu’est-ce qu’une plateforme de données moderne ?

Une plateforme de données moderne est une suite de produits logiciels cloud natifs et cloud-first conçue pour permettre aux entreprises de collecter, de nettoyer, de transformer et d’analyser leurs données afin d’optimiser la prise de décision.

Toujours plus complexes, les pipelines de données d’aujourd’hui s’avèrent incontournables pour l’analyse des données et la prise de décision axée sur les données. Pensées pour fiabiliser ces données, les plateformes modernes ingèrent, stockent, traitent et transforment afin de garantir l’exactitude des informations, d’accélérer leur mise à disposition, de réduire les silos de données, de favoriser le libre-service et d’améliorer la qualité des données.

Également appelée « pile de données moderne », la plateforme de données moderne comporte cinq couches essentielles : stockage et traitement des données, ingestion des données, transformation des données, Business Intelligence (BI) et analyse, et observabilité des données.

Les plateformes de données modernes s’appuient sur deux principes fondamentaux :

Disponibilité : les données sont facilement disponibles dans un data lake ou des entrepôts de données, qui séparent le stockage et le calcul. Le fractionnement de ces fonctions permet de stocker de grandes quantités de données pour un coût relativement faible.
Élasticité : les fonctions de calcul sont basées sur le cloud, ce qui favorise une évolutivité automatique. Par exemple, si la plupart des données et des analyses sont consommées tel jour à telle heure, le traitement peut être automatiquement augmenté pour améliorer l’expérience utilisateur, et réduit lorsque la charge de travail diminue.

Réservez votre démo IBM Databand

Découvrez comment l'observabilité proactive des données peut vous aider à détecter les incidents de données plus tôt et à les résoudre plus rapidement.

Contenu connexe

Abonnez-vous à la newsletter IBM

Philosophies modernes des plateformes de données

Les plateformes de données modernes s’appuient non seulement sur la technologie, mais aussi sur les principes DevOps, DataOps et Agile. Bien que leurs objectifs soient différents, le DevOps et le DataOps sont tous deux proches de la philosophie Agile, qui vise à accélérer les projets.

Le DevOps est axé sur le développement de produits, tandis que le DataOps consiste à mettre en œuvre et à maintenir une architecture de données distribuée qui apporte de la valeur à ces dernières.

Agile est une approche du développement logiciel qui vise à apporter rapidité et efficacité sans éliminer le facteur « humain ». Cette philosophie met l’accent sur les échanges en face à face afin de renforcer la communication, mais aussi sur l’automatisation afin de réduire le risque d’erreur.

Stockage et traitement des données

La première couche fondamentale d'une plateforme de données moderne est le stockage et le traitement.

Les systèmes modernes de stockage de données sont axés sur l'utilisation optimale des données, ce qui implique de savoir où stocker les données et comment les traiter. Les deux formats de stockage les plus populaires sont les entrepôts de données et les data lakes, bien que les data lakehouses et les data mesh gagnent en popularité.

L'entrepôt de données

Les entrepôts de données sont conçus pour gérer des données structurées avec des cas d'utilisation clairs et définis.

L'utilisation des entrepôts de données remonte aux années 1990, lorsque les bases de données étaient utilisées pour stocker des données. Ils se trouvaient dans les locaux de l'entreprise et avaient une capacité de stockage très limitée.

Vers 2013, les entrepôts de données ont commencé à migrer vers le cloud, où l'évolutivité était soudainement devenue possible. Les entrepôts de données hébergés sur le cloud restent le système de stockage de données privilégié car ils optimisent la puissance de calcul et la vitesse de traitement.

Pour qu'un entrepôt de données fonctionne correctement, les données doivent être collectées, reformatées, nettoyées et téléchargées dans l'entrepôt. Les données qui ne peuvent pas être reformatées risquent d'être perdues.

Le data lake

En janvier 2008, Yahoo a publié Hadoop (basé sur NoSQL) en tant que projet open source à l'Apache Software Foundation. À l'origine, les data lakes étaient basés sur Hadoop. Ils étaient évolutifs et conçus pour une utilisation sur site. Malheureusement, l'écosystème Hadoop est extrêmement complexe et difficile à utiliser. Les data lakes ont commencé à migrer vers le cloud vers 2015, ce qui les a rendus beaucoup moins coûteux et plus intuitifs.

Les data lakes ont été conçus à l'origine pour collecter des données brutes et non structurées sans imposer de schémas (formats) afin que les chercheurs puissent obtenir davantage d'informations à partir d'un large éventail de données. En raison de problèmes liés à l'analyse des informations obsolètes, inexactes ou inutiles, les data lakes peuvent devenir des « marécages de données » moins fiables.

Dans une architecture typique de data lake, les données sont stockées sur un Object Storage tel qu'Amazon S3 d'AWS, associé à un outil tel que Spark pour traiter les données.

Le data lakehouse

Les data lakehouses associent la flexibilité, la rentabilité et les capacités d'évolutivité des data lakes aux fonctionnalités ACID (atomicité, cohérence, isolation et durabilité) des transactions et des fonctionnalités de gestion des données des entrepôts de données. (ACID est l’acronyme de l’ensemble des 4 propriétés clés qui définissent une transaction : l’atomicité, la cohérence, l’isolation et la durabilité.)

Les entrepôts de données soutiennent la BI et le machine learning, et l'un des principaux atouts de l'entrepôt de données est qu'il utilise des couches de métadonnées. Les data lakehouse utilisent également un nouveau moteur de requête, conçu pour les recherches SQL hautes performances.

Data mesh

Contrairement aux entrepôts de données, aux data lakes et aux data lakehouses, le data mesh décentralise la propriété des données. Avec ce modèle architectural, un domaine spécifique (par exemple un partenaire commercial ou un département) n'est pas propriétaire de ses données, mais les partage librement avec d'autres domaines. Cela signifie que toutes les données du système du data mesh doivent conserver un format uniforme.

Les systèmes de data mesh peuvent être utiles pour les entreprises qui prennent en charge plusieurs domaines de données. Le concept de data mesh comprend une couche de gouvernance des données et une couche d'observabilité. Il existe également une couche d'interopérabilité universelle.

Le data mesh peut être utile aux organisations qui se développent rapidement et qui ont besoin d'une certaine évolutivité pour le stockage des données.

Intégration des données

Le processus consistant à placer des données dans un système de stockage en vue d'une utilisation ultérieure s'appelle l'intégration des données. Il constitue la deuxième couche d'une plateforme de données moderne.

En d'autres termes, l'intégration des données consiste à déplacer des données provenant de diverses sources vers un emplacement central. Les données peuvent ensuite être utilisées à des fins d'archivage ou de traitement et d'analyse ultérieurs, qui dépendent tous deux de l'accessibilité, de la cohérence et de l'exactitude des données.

Les organisations prennent des décisions commerciales en utilisant les données de leur infrastructure analytique. La valeur de ces données dépend de la manière dont elles sont intégrées. Si des problèmes surviennent au cours du processus d'intégration, tels que des groupes de données manquants ou obsolètes, toutes les étapes du processus d'analyse en pâtiront. C'est particulièrement vrai en ce qui concerne le big data.

Modèles de traitement de données

L'intégration des données peut se faire de différentes manières, et la façon dont une couche d'intégration de données particulière est conçue peut être basée sur différents modèles de traitement. Les données peuvent provenir d'une variété de sources distinctes, y compris les plateformes SaaS, les appareils de l'internet des objets (IoT) et les appareils mobiles. Un bon modèle de traitement de données constitue la base d'une stratégie efficace en matière de données, et les organisations doivent donc déterminer quel modèle est le mieux adapté à leur situation.

Le traitement par lots est la forme la plus courante d'intégration des données, bien qu'il ne soit pas conçu pour un traitement en temps réel. En revanche, il collecte et regroupe les données sources par lots, qui sont envoyés vers la destination. Le traitement par lots peut être initié à l'aide d'un simple calendrier ou activé lorsque certaines conditions prédéterminées sont réunies. Il est généralement utilisé lorsque des données en temps réel ne sont pas nécessaires, car il nécessite moins de travail et est moins coûteux.
Le traitement en temps réel (également appelé traitement en continu) ne regroupe pas les données. Au contraire, les données sont obtenues, transformées et chargées dès leur identification. Le traitement en temps réel est plus coûteux car il nécessite une surveillance constante des sources de données et accepte automatiquement les nouvelles informations.

Transformation des données

La couche suivante, la transformation des données, concerne la modification des valeurs, de la structure et du format des données, ce qui est souvent nécessaire pour les projets d'analyse des données. Les données peuvent être transformées avant ou après leur arrivée à leur emplacement de stockage lors de l'utilisation d'un pipeline de données.

Jusqu'à récemment, les modèles modernes d'intégration de données utilisaient une procédure ETL (extraction, transformation, chargement) pour extraire les données de leur source, les reformater et les transporter vers leur emplacement. Cette approche avait du sens lorsque les entreprises devaient utiliser des systèmes d'analyse internes coûteux. Le fait d'effectuer le travail préparatoire avant la livraison, y compris les transformations, a permis de réduire les coûts. Les organisations qui utilisent encore des entrepôts de données sur site ont normalement recours à un processus ETL.

De nombreuses organisations préfèrent aujourd'hui les entrepôts de données basés sur le cloud (IBM, Snowflake, Google BigQuery, Microsoft Azure et autres). Elles peuvent en effet moduler les ressources de calcul et de stockage en fonction de leurs besoins. L'évolutivité du cloud permet de contourner les transformations de préchargement, de sorte que les données brutes puissent être envoyées plus rapidement à l'entrepôt de données. Les données sont ensuite transformées après leur arrivée à l'aide d'un modèle ELT (extraction, chargement, transformation), généralement lors de la réponse à une requête.

À ce stade, les données peuvent être converties en format SQL et exécutées dans l'entrepôt de données pendant la recherche.

La transformation des données présente plusieurs avantages :

Facilité d'utilisation : en normalisant les données et en les plaçant dans la bonne structure, votre équipe d'ingénierie des données peut générer de la valeur commerciale à partir de données qui seraient autrement inutilisables et non analysées.

Qualité des données : la transformation des données brutes permet d'identifier et de corriger les erreurs, les incohérences et les valeurs manquantes, ce qui permet d'obtenir des données plus fiables et plus précises.
Meilleure organisation : les données transformées sont plus faciles à traiter pour les personnes et les ordinateurs.

Business intelligence et analytique

La quatrième couche de la plateforme de données moderne est constituée par les outils de business intelligence (BI) et d'analytique.

En 1865, Richard Millar Devens a introduit la notion de « business intelligence » dans le « Cyclopædia of Commercial and Business Anecdotes ». Il a utilisé ce terme pour décrire la manière dont le banquier Sir Henry Furnese profitait des informations en les recueillant et en les utilisant avant ses concurrents.

Actuellement, une grande partie des informations commerciales est recueillie à partir de l'analyse commerciale et de l'analyse des données. Les outils de BI et d'analytique peuvent être utilisés pour accéder aux données, les analyser et les transformer en représentations visuelles qui fournissent des informations compréhensibles. Fournir aux chercheurs et aux data scientists des informations détaillées peut les aider à prendre des décisions commerciales tactiques et stratégiques.

Observabilité des données

La dernière des cinq couches fondamentales d'une plateforme de données moderne est l'observabilité des données.

L'observabilité des données décrit la capacité de surveiller et d'observer l'état des données et leur fiabilité. Elle couvre un certain nombre d'activités et de technologies qui, lorsqu'elles sont combinées, permettent à l'utilisateur d'identifier et de résoudre les difficultés liées aux données en temps quasi réel.

L'observabilité permet aux équipes d'ingénierie des données de répondre à des questions spécifiques sur ce qui se passe dans les coulisses des systèmes extrêmement distribués. Elle peut révéler où les données circulent lentement et ce qui est défaillant.

Les responsables, les équipes chargées des données et diverses autres parties prenantes peuvent recevoir des alertes concernant des problèmes potentiels afin de pouvoir les résoudre de manière proactive. Si la fonction de prévisibilité peut être utile, elle ne garantit pas que tous les problèmes seront détectés.

Pour que l'observabilité des données soit utile, elle doit inclure ces fonctionnalités :

Suivi SLA : mesure les métadonnées du pipeline et la qualité des données par rapport aux normes prédéfinies.
Surveillance : tableau de bord détaillé qui affiche les métriques opérationnelles d'un système ou d'un pipeline.
Enregistrement : les enregistrements historiques (suivi, comparaisons, analyse) des événements sont conservés pour être comparés aux anomalies nouvellement découvertes.
Alertes : des alertes sont envoyées en cas d'anomalies et d'événements prévus.
Analyse : un processus de détection automatisé qui s'adapte à votre système.
Suivi : permet de contrôler des indicateurs et des événements spécifiques.
Comparaisons : fournit un historique et des alertes en cas d'anomalie.

Pour de nombreuses organisations, l'observabilité est un processus hiérarchisé, ce qui signifie que seuls certains services peuvent accéder aux données. D'un point de vue philosophique, un système de data mesh permet de résoudre ce problème en exigeant que les données soient partagées, ce qui est généralement déconseillé dans les systèmes de stockage et de traitement classiques.

Autres couches des plateformes de données modernes

Outre les cinq couches fondamentales susmentionnées, d'autres couches sont souvent présentes dans une pile de données moderne :

Découverte de données

Les données inaccessibles sont essentiellement des données inutiles. La découverte des données permet de s'assurer qu'elles ne restent pas inactives. Il s'agit de collecter, d'évaluer et d'explorer des données provenant de différentes sources afin d'aider les chefs d'entreprise à comprendre les tendances et les modèles qui se dégagent des données. Elle permet de traiter et de préparer les données et est parfois associée à la BI car elle permet de rassembler des données hiérarchisées à des fins d'analyse.

Gouvernance des données

Les plateformes de données modernes mettent l'accent sur la gouvernance et la sécurité des données afin de protéger les informations sensibles, de garantir la conformité réglementaire et de gérer la qualité des données. Les outils qui prennent en charge cette couche sont le contrôle d'accès aux données, le chiffrement, l'audit et la traçabilité des données.

Gestion du catalogue de données et des métadonnées

Le catalogage des données et la gestion des métadonnées sont essentiels pour identifier et interpréter les données disponibles. Cela aide les utilisateurs à trouver les bonnes données pour leur analyse.

Machine learning et IA

Certaines plateformes de données modernes intègrent des capacités de machine learning et d'IA pour l'analyse prédictive, la détection d'anomalies et la prise de décision automatisée.

Produits associés

IBM Databand

Conçu pour les entrepôts et les pipelines de données, IBM^® Databand^® est un logiciel d’observabilité qui collecte automatiquement les métadonnées afin de créer des lignes de base historiques, de détecter les anomalies et de trier les alertes permettant de résoudre les problèmes de qualité des données.

Découvrir Databand

IBM DataStage

En prenant en charge les modèles ETL et ELT, IBM DataStage offre une intégration flexible et en temps quasi réel des données sur site et dans le cloud.

Explorer DataStage

IBM Knowledge Catalog

IBM^® Knowledge Catalog est un catalogue de données intelligent optimisé pour l'IA, conçu pour faciliter l’accès, le classement et le partage des données, des actifs de connaissances et de leurs relations, où qu’ils se trouvent.

Explorer Knowledge Catalog

Ressources

Qu’est-ce que l’observabilité des données ?

Pour aller plus loin, découvrez la notion d’observabilité des données, son importance, son évolution parallèle à celle des systèmes de données modernes, ainsi que les bonnes pratiques à appliquer pour mettre en œuvre un cadre d’observabilité des données.

Qu'est-ce que l'ELT (extraction, chargement, transformation) ? Guide du débutant

Découvrez ce qu'est l'ELT, comment fonctionne ce processus, en quoi il diffère de l'ETL, quels sont ses défis et ses limites, et quelles sont les meilleures pratiques pour mettre en œuvre des pipelines ELT.

Une plateforme de données cloud moderne est la base de toutes les chaînes d'approvisionnement intelligentes

Pendant des années, les chaînes d'approvisionnement des entreprises ont reposé sur des bases fragiles de données isolées, invérifiables et inopportunes. Des données fiables et accessibles sont à la base des opérations de la chaîne d'approvisionnement moderne.

Qu’est-ce que la science des données ?

Découvrez comment la science des données peut fournir des informations métier, accélérer la transformation numérique et permettre une prise de décision fondée sur les données.

Passez à l’étape suivante

Mettez en œuvre une observabilité proactive des données avec IBM® Databand dès aujourd’hui afin d’être au courant des problèmes d’intégrité des données avant vos utilisateurs.

Découvrir Databand