L’observabilité des données est une pratique qui associe surveillance, gestion et maintenance des données afin de garantir leur qualité, leur disponibilité et leur fiabilité à travers les différents processus, systèmes et pipelines de l’entreprise.
L’observabilité vise à offrir une réelle visibilité sur l’hygiène et l’état des données de votre écosystème. Assurée au moyen de diverses pratiques, l’observabilité des données est bien plus qu’une simple surveillance, qui ne fait que décrire les problèmes. Elle permet d’identifier, d’examiner et de résoudre les problèmes liés aux données en temps quasi réel.
L’observabilité des données est essentielle pour anticiper les problèmes de qualité des données afin de pouvoir garantir leur fiabilité. Les outils d’observabilité facilitent la surveillance automatique, les alertes, le suivi, la comparaison, l’analyse des causes racines, la journalisation, le suivi des SLA et la traçabilité des données. Ensemble, toutes ces pratiques permettent d’évaluer la qualité des données de bout en bout, et notamment leur fiabilité.
Mettre en œuvre une solution d’observabilité s’avère particulièrement utile pour les équipes modernes, qui exploitent les données pour obtenir des informations, développer des modèles de machine learning et stimuler l’innovation. C’est ce qui leur permet de garantir que les données demeurent un actif précieux au lieu de devenir un poids mort.
L’observabilité des données doit être intégrée de bout en bout, de manière cohérente, tout au long du cycle de vie des données. Toutes les activités inhérentes à la gestion des données sont ainsi normalisées et centralisées pour offrir une visibilité accrue et continue sur les problèmes et leurs impacts sur l’entreprise.
L’observabilité des données se place dans la continuité de la démarche qualité des données, qui rend possible la méthode de gestion des données DataOps.
Découvrez les avantages qu’une stratégie de data lakehouse saura apporter à votre architecture de données, tels que la mise à l’échelle de l’IA et l’optimisation des coûts.
Tout simplement parce que la plupart des entreprises estiment que leurs données ne sont pas fiables :
L’impact de cette mauvaise qualité de données n’est pas négligeable. En mai 2022, après avoir ingéré des données de mauvaise qualité provenant de l’un de ses principaux clients, Unity Software a vu son action chuter de 30 %3 et son chiffre d’affaires baisser de 110 millions de dollars4.
Identifier les données de mauvaise qualité avant qu’il ne soit trop tard était jusque-là difficile. Contrairement aux applications défaillantes, qui affectent des milliers d’utilisateurs immédiatement, les données de mauvaise qualité peuvent rester longtemps inaperçues. À titre d’exemple, si un tableau de bord Salesforce ne se charge pas, l’équipe commerciale s’en aperçoit immédiatement, mais on ignore combien de temps il lui faudrait pour se rendre compte que les données affichées sont incorrectes.
L’observabilité des données est la meilleure solution pour bloquer le passage des données de mauvaise qualité. Elle permet de surveiller les pipelines de données pour assurer une livraison complète, prompte et efficace de ces dernières, éviter les temps d’arrêt, respecter les accords de niveau de service associés et garantir la qualité des données avec lesquelles l’entreprise interagit.
Dotés d’un large éventail de fonctionnalités, les systèmes de données modernes offrent aux utilisateurs diverses options pour stocker et interroger leurs données. Il va de soi, plus vos fonctionnalités sont nombreuses, plus il est difficile de veiller au bon fonctionnement de votre système. Cette complexité s’explique par :
Une multiplication des sources de données
Auparavant, les infrastructures étaient conçues pour gérer de petites quantités de données, opérationnelles et provenant de diverses sources internes pour la plupart, et les données étaient peu susceptibles de changer. Aujourd’hui, bon nombre de produits axés sur les données s’appuient sur des sources internes et externes. Le volume et la vitesse de collecte peuvent entraîner des dérives, des changements de schéma, des transformations et des retards.
Une complication des transformations
Ingérer davantage de données provenant de sources externes vous oblige à les transformer, à les structurer et à les agréger dans d’autres formats pour les rendre exploitables. Pire encore, la moindre modification de ces formats entraîne par effet domino des défaillances en aval, car la logique de programmation est trop stricte pour s’adapter au nouveau schéma.
Une priorisation excessive de l’ingénierie analytique
Les pipelines d’ingestion complexes ont favorisé l’émergence d’outils conçus pour simplifier ce processus de bout en bout, principalement en automatisant l’ingestion, ainsi que l’extraction, la transformation et le chargement (ETL). En les combinant, vous obtenez une plateforme de données que le secteur analytique surnomme la « pile de données moderne », ou MDS. Cette dernière vise à réduire le délai nécessaire pour rendre les données exploitables par les utilisateurs finaux (généralement des analystes). Cependant, plus vous automatisez, moins vous contrôlez la fourniture de données. Les entreprises doivent créer des pipelines de données personnalisés pour s’assurer que les données sont fournies correctement.
Les workflows DataOps associent pipeline de livraison agile et boucle de rétroaction pour permettre aux entreprises de créer et de maintenir leurs produits plus efficacement. Grâce à l’approche DataOps, elles peuvent utiliser les mêmes outils et stratégies tout au long de leurs projets d’analyse, du prototypage au déploiement.
Le cycle DataOps décrit les principales pratiques à mettre en œuvre pour améliorer la gestion des données au sein du workflow DataOps. Ce cycle comprend trois étapes distinctes : détection, information et itération.
Détection
Il est important que ce cycle commence par la détection, car la méthode DataOps repose fondamentalement sur l’amélioration de la qualité des données.
Cette première étape du cycle DataOps est axée sur la validation. Ce sont les mêmes contrôles de qualité des données qui sont mis en place depuis la création de l’entrepôt de données, à savoir la validation par rapport aux colonnes d’un schéma et ligne par ligne. Il s’agit essentiellement de veiller à ce que tous les jeux de données respectent les règles métier de votre système de données.
Le cadre de qualité des données appliqué pendant la phase de détection est important, mais foncièrement rétrograde. C’est ce qui vous permet de vérifier la conformité des données stockées (et probablement utilisées) dans votre data lake ou dans votre entrepôt de données.
Il convient également de noter que vous validez les jeux de données et que vous suivez les règles métier que vous connaissez. Sans connaître les causes des problèmes, vous ne pourrez établir aucune nouvelle règle métier à suivre par vos ingénieurs. Cette réalité appelle à intégrer une approche d’observabilité continue à chaque étape du cycle de vie de vos données, en commençant par vos données source.
Connaissance
La connaissance est une étape DataOps axée sur la visibilité. C’est là que la gouvernance des données prend tout son sens et qu’une approche centrée sur les métadonnées est adoptée. Centraliser et standardiser les métadonnées des pipelines et des jeux de données de votre écosystème offre aux équipes une visibilité sur les problèmes à l’échelle de l’entreprise.
La centralisation des métadonnées s’avère indispensable pour pouvoir évaluer de bout en bout l’état des données au sein de l’entreprise. C’est ce qui vous permettra d’adopter une approche plus proactive de la résolution des problèmes liés aux données. Si des données de mauvaise qualité pénètrent dans votre « domaine », vous pourrez retracer l’erreur jusqu’à un certain point de votre système de données. Par exemple, l’équipe d’ingénierie des données A peut désormais examiner les pipelines de l’équipe d’ingénierie des données B pour tâcher d’identifier le problème et de le résoudre en étroite collaboration.
L’inverse est également valable. L’équipe d’ingénierie des données B est en mesure de détecter les problèmes et de déterminer son impact sur les dépendances en aval. L’équipe d’ingénierie des données A saura ainsi qu’un problème est susceptible de se produire et pourra prendre les mesures nécessaires pour le contenir.
Itération
Ici, les équipes se concentrent sur les données en tant que code. Cette phase du cycle est axée sur le processus. Il s’agit d’appliquer systématiquement des normes reproductibles et durables pendant le développement des données pour garantir leur fiabilité à la fin de ces pipelines.
Associer détection des problèmes, connaissance des causes racines en amont et processus d’itération efficaces permet désormais d’améliorer progressivement l’intégrité des plateformes de données.
Si elle est mise en œuvre efficacement, votre stratégie d’observabilité des données vous permettra d’améliorer la qualité de vos données, la prise de décision, la fiabilité et la performance globale de votre entreprise. Vous bénéficierez notamment des avantages suivants :
L’observabilité des données permet de détecter des problèmes tels que les valeurs manquantes, les doublons et l’incohérence des formats, et ce avant qu’ils n’affectent les dépendances en aval. En améliorant la qualité de leurs données, les entreprises sont en mesure d’améliorer leur prise de décision, leurs opérations, la satisfaction client, ainsi que leur performance globale.
L’observabilité des données permet aux équipes d’associer détection des anomalies, surveillance en temps réel et alertes pour identifier rapidement les erreurs ou les écarts présents dans les données. Accélérer l’identification et la résolution des problèmes permet de réduire le coût et l’ampleur des temps d’arrêt.
Les tableaux de bord partagés proposés par les plateformes d’observabilité des données offrent aux différentes parties prenantes une visibilité accrue sur l’état des jeux de données critiques et favorisent une meilleure collaboration entre les différentes équipes.
Les outils d’observabilité des données permettent d’identifier les goulots d’étranglement, ainsi que les problèmes de performance, et d’optimiser les systèmes pour favoriser une meilleure utilisation des ressources et accélérer les délais de traitement. Qui plus est, l’automatisation aide à réduire le temps et les efforts nécessaires pour assurer l’intégrité des données. Vous pourrez ainsi libérer vos ingénieurs de données, analystes et data scientists pour leur permettre de se concentrer sur la valorisation de vos données.
L’observabilité des données permet aux entreprises des secteurs hautement réglementés tels que la finance, la santé et les télécommunications, de s’assurer que leurs données répondent aux exigences d’exactitude, de cohérence et de sécurité. Cela leur permet d’éviter le risque de non-conformité, ainsi que les sanctions associées.
La qualité des données est essentielle pour comprendre les besoins, les préférences et le comportement de vos clients, afin de leur proposer une expérience personnalisée, plus adaptée. L’observabilité vous permettra de tenir vos données à jour et de garantir leur exactitude afin d’améliorer la satisfaction de vos clients et de les fidéliser.
Grâce à l’observabilité, les entreprises peuvent améliorer la qualité de leurs données pour en tirer davantage d’informations, identifier les tendances et diversifier leurs sources de revenus. Exploiter pleinement leurs données leur permet d’augmenter leur chiffre d’affaires et d’assurer leur croissance.
Ensemble, les cinq piliers de l’observabilité fournissent des informations importantes sur la qualité et la fiabilité de vos données.
1. Fraîcheur
La fraîcheur porte sur le caractère actuel de vos données et sur la fréquence de leur mise à jour. Lorsque cette dernière est faible, on parle de données périmées. L’interruption des pipelines de données est souvent liée à un problème de fraîcheur.
2. Distribution
Véritable indicateur d’intégrité au niveau des champs, la distribution permet d’établir si les données rentrent ou non dans la plage prévue. Les écarts de distribution indiquent la présence d’un problème de qualité, d’une erreur ou encore d’un changement survenu dans les sources de données sous-jacentes.
3. Volume
Le volume désigne la quantité de données générées, ingérées, transformées et déplacées par le biais de divers processus et pipelines. Il porte également sur l’exhaustivité de vos tableaux de données. Le volume est un indicateur clé qui permet de savoir si votre consommation de données atteint ou non les seuils prévus.
4. Schéma
Le schéma décrit la manière dont vos données sont organisées. Si le schéma est modifié, les données sont susceptibles d’être endommagées. L’observabilité permet de garantir que vos données sont organisées de manière cohérente, qu’elles restent compatibles à travers vos différents systèmes et qu’elles conservent leur intégrité tout au long de leur cycle de vie.
5. Traçabilité
La traçabilité permet de répondre à la question « Où ? » en cas de détérioration des données. Ces dernières sont examinées de leur source jusqu’à leur emplacement final, et chaque modification est notée : ce qui a changé, pour quelle raison et comment. Ce traçage est généralement représenté visuellement.
L’observabilité des données permet de veiller à la qualité de ces dernières. Il convient toutefois de rappeler qu’il s’agit de deux aspects bien distincts de la gestion des données.
Les pratiques d’observabilité mettent en évidence les problèmes de qualité des jeux de données, sans pour autant garantir à elles seules leur qualité. Pour cela, il faut s’efforcer de résoudre les problèmes et de les empêcher de se produire. Il est également vrai de dire qu’une entreprise peut avoir des données de qualité sans adopter l’approche d’observabilité.
Surveiller la qualité des données permet de déterminer si l’état du jeu de données est suffisamment bon pour être utilisé dans les applications opérationnelles et analytiques. Les données sont évaluées selon différents critères de qualité tels que l’exactitude, l’exhaustivité, la cohérence, la validité, la fiabilité et l’actualité.
L'observabilité des données et la gouvernance des données sont des processus complémentaires qui se soutiennent mutuellement.
La gouvernance des données vise à garantir que les données de l’entreprise sont disponibles, utilisables, cohérentes et sécurisées, et qu’elles sont utilisées conformément aux normes et aux politiques internes. Les programmes de gouvernance intègrent souvent des actions pensées pour améliorer la qualité des données, ou y sont étroitement liés.
Un programme de gouvernance des données solide permet d’éliminer les silos de données, ainsi que les problèmes d’intégration et de qualité susceptibles de réduire l’efficacité des pratiques d’observabilité.
L’observabilité peut à son tour renforcer le programme de gouvernance en surveillant les variations de qualité, la disponibilité et la traçabilité des données.
Il y a différents degrés d’observabilité des données. Le niveau de contexte que vous pouvez atteindre dépend des métadonnées que vous collectez et de la visibilité que vous êtes en mesure de fournir. C’est ce que l’on appelle la hiérarchie de l’observabilité des données. Chaque niveau sert de base au suivant et permet d’affiner progressivement l’observabilité.
Une bonne visibilité sur l’état de vos opérations et de vos jeux de données constitue une base solide pour votre cadre d’observabilité des données.
Données au repos
Surveiller l’état d’un jeu de données, c’est surveiller le jeu de données dans son ensemble. Vous prenez connaissance de l’état de vos données lorsqu’elles se trouvent dans un emplacement fixe. On parle alors de « données au repos ».
La surveillance des jeux de données permet de répondre aux questions suivantes :
Données en mouvement
La surveillance opérationnelle consiste à surveiller l’état de vos pipelines pour connaître l’état de vos données au fur et à mesure qu’elles se transforment et se déplacent dans vos pipelines. On parle alors de « données en mouvement ».
La surveillance des pipelines permet de répondre aux questions suivantes :
Bien qu'en général, la surveillance des jeux de données et des pipelines de données se fasse distinctement, associer les deux s'avère indispensable pour obtenir une base d'observabilité solide. Ces deux états sont hautement interconnectés et interdépendants. Affecter ces deux activités à des équipes ou des outils différents réduira la visibilité sur l’état de vos données.
Le profilage des colonnes est la clé de cette hiérarchie. Après avoir posé une base solide à cet effet, vous pourrez obtenir les informations nécessaires pour mettre en place de nouvelles règles métier et appliquer les règles actuelles au niveau non seulement des lignes, mais aussi des colonnes.
Ce niveau de connaissance vous offrira l’exploitabilité nécessaire pour améliorer votre cadre de qualité des données.
Vous pourrez répondre aux questions suivantes :
Ensuite, vous pourrez passer au dernier niveau d’observabilité : la validation des lignes. Il s’agit de vérifier si la valeur des données présentes sur chaque ligne est exacte.
Ce type d’observabilité prend en compte les aspects suivants :
Une vision étroite sur la validation des lignes, c’est l’arbre qui cache la forêt. En élaborant un cadre d’observabilité qui commence par la surveillance des opérations et des jeux de données, vous bénéficierez d’une visibilité accrue sur l’état de vos données et vous pourrez déterminer les causes profondes des problèmes, ainsi que leur impact en aval.
Vous trouverez ci-dessous les principales étapes à suivre pour réussir votre pipeline d’observabilité. Le processus implique l’intégration de divers outils et technologies, ainsi que la collaboration de différentes équipes au sein de l’entreprise.
Créer un pipeline d’observabilité est synonyme d’apprentissage et de perfectionnement continus. Il est essentiel de commencer petit, d’apprendre de votre expérience et d’étendre progressivement vos capacités d’observabilité.
Conçu pour les entrepôts et les pipelines de données, IBM Databand est un logiciel d’observabilité qui collecte automatiquement les métadonnées afin de créer des lignes de base historiques, de détecter les anomalies et de trier les alertes permettant de résoudre les problèmes de qualité des données.
IBM DataStage prend en charge les modèles ETL et ELT pour offrir une intégration flexible des données sur site et dans le cloud, et ce en temps quasi réel.
Optimisé pour l’IA, le catalogue de données intelligent IBM Knowledge Catalog a été conçu pour faciliter l’accès, le classement et le partage des données, des connaissances et de leurs relations, où qu’elles se trouvent.
Découvrez les avantages de l’observabilité des données et comment elle s’intègre dans une architecture de données comme la data fabric.
Consultez ce guide pour découvrir l’ingestion de données, son rôle, ses différents types, ainsi que quelques bonnes pratiques à suivre pour garantir son efficacité.
Découvrez ce qu'est l'ELT, comment fonctionne ce processus, en quoi il diffère de l'ETL, quels sont ses défis et ses limites, et quelles sont les meilleures pratiques pour mettre en œuvre des pipelines ELT.
1 Data Integrity Trends: Chief Data Officer Perspectives in 2021 (lien externe à ibm.com), Precisely, juin 2021
2 The data powered enterprise: Why organizations must strengthen their data mastery (lien externe à ibm.com), Capgemini, février 2021
3 Unity Software's stock plunges nearly 30% on weak revenue guidance (lien externe à ibm.com), MarketWatch, 10 mai 2022
4 2 Reasons Unity Software’s Virtual World is Facing a Stark Reality (lien externe à ibm.com), The Motley Fool, 17 juillet 2022