Qu’est-ce que l’observabilité des données ?

L’observabilité des données est une pratique qui associe surveillance, gestion et maintenance des données afin de garantir leur qualité, leur disponibilité et leur fiabilité à travers les différents processus, systèmes et pipelines de l’entreprise.

L’observabilité vise à offrir une réelle visibilité sur l’hygiène et l’état des données de votre écosystème. Assurée au moyen de diverses pratiques, l’observabilité des données est bien plus qu’une simple surveillance, qui ne fait que décrire les problèmes. Elle permet d’identifier, d’examiner et de résoudre les problèmes liés aux données en temps quasi réel.

L’observabilité des données est essentielle pour anticiper les problèmes de qualité des données afin de pouvoir garantir leur fiabilité. Les outils d’observabilité facilitent la surveillance automatique, les alertes, le suivi, la comparaison, l’analyse des causes racines, la journalisation, le suivi des SLA et la traçabilité des données. Ensemble, toutes ces pratiques permettent d’évaluer la qualité des données de bout en bout, et notamment leur fiabilité.

Mettre en œuvre une solution d’observabilité s’avère particulièrement utile pour les équipes modernes, qui exploitent les données pour obtenir des informations, développer des modèles de machine learning et stimuler l’innovation. C’est ce qui leur permet de garantir que les données demeurent un actif précieux au lieu de devenir un poids mort.

L’observabilité des données doit être intégrée de bout en bout, de manière cohérente, tout au long du cycle de vie des données. Toutes les activités inhérentes à la gestion des données sont ainsi normalisées et centralisées pour offrir une visibilité accrue et continue sur les problèmes et leurs impacts sur l’entreprise.

L’observabilité des données se place dans la continuité de la démarche qualité des données, qui rend possible la méthode de gestion des données DataOps.

Le magasin de données pour l'IA

Découvrez les avantages qu’une stratégie de data lakehouse saura apporter à votre architecture de données, tels que la mise à l’échelle de l’IA et l’optimisation des coûts.

Pourquoi l’observabilité des données est-elle essentielle ?

Tout simplement parce que la plupart des entreprises estiment que leurs données ne sont pas fiables :

Elles sont 82 % à estimer que la mise en œuvre de leurs projets d’intégration des données est freinée par la qualité de ces dernières¹
80 % des dirigeants ne font pas confiance à leurs données²

L’impact de cette mauvaise qualité de données n’est pas négligeable. En mai 2022, après avoir ingéré des données de mauvaise qualité provenant de l’un de ses principaux clients, Unity Software a vu son action chuter de 30 %³ et son chiffre d’affaires baisser de 110 millions de dollars⁴.

Identifier les données de mauvaise qualité avant qu’il ne soit trop tard était jusque-là difficile. Contrairement aux applications défaillantes, qui affectent des milliers d’utilisateurs immédiatement, les données de mauvaise qualité peuvent rester longtemps inaperçues. À titre d’exemple, si un tableau de bord Salesforce ne se charge pas, l’équipe commerciale s’en aperçoit immédiatement, mais on ignore combien de temps il lui faudrait pour se rendre compte que les données affichées sont incorrectes.

L’observabilité des données est la meilleure solution pour bloquer le passage des données de mauvaise qualité. Elle permet de surveiller les pipelines de données pour assurer une livraison complète, prompte et efficace de ces dernières, éviter les temps d’arrêt, respecter les accords de niveau de service associés et garantir la qualité des données avec lesquelles l’entreprise interagit.

Évolution de l’observabilité des données

Dotés d’un large éventail de fonctionnalités, les systèmes de données modernes offrent aux utilisateurs diverses options pour stocker et interroger leurs données. Il va de soi, plus vos fonctionnalités sont nombreuses, plus il est difficile de veiller au bon fonctionnement de votre système. Cette complexité s’explique par :

Une multiplication des sources de données

Auparavant, les infrastructures étaient conçues pour gérer de petites quantités de données, opérationnelles et provenant de diverses sources internes pour la plupart, et les données étaient peu susceptibles de changer. Aujourd’hui, bon nombre de produits axés sur les données s’appuient sur des sources internes et externes. Le volume et la vitesse de collecte peuvent entraîner des dérives, des changements de schéma, des transformations et des retards.

Une complication des transformations

Ingérer davantage de données provenant de sources externes vous oblige à les transformer, à les structurer et à les agréger dans d’autres formats pour les rendre exploitables. Pire encore, la moindre modification de ces formats entraîne par effet domino des défaillances en aval, car la logique de programmation est trop stricte pour s’adapter au nouveau schéma.

Une priorisation excessive de l’ingénierie analytique

Les pipelines d’ingestion complexes ont favorisé l’émergence d’outils conçus pour simplifier ce processus de bout en bout, principalement en automatisant l’ingestion, ainsi que l’extraction, la transformation et le chargement (ETL). En les combinant, vous obtenez une plateforme de données que le secteur analytique surnomme la « pile de données moderne », ou MDS. Cette dernière vise à réduire le délai nécessaire pour rendre les données exploitables par les utilisateurs finaux (généralement des analystes). Cependant, plus vous automatisez, moins vous contrôlez la fourniture de données. Les entreprises doivent créer des pipelines de données personnalisés pour s’assurer que les données sont fournies correctement.

Observabilité des données et mouvement DataOps

Les workflows DataOps associent pipeline de livraison agile et boucle de rétroaction pour permettre aux entreprises de créer et de maintenir leurs produits plus efficacement. Grâce à l’approche DataOps, elles peuvent utiliser les mêmes outils et stratégies tout au long de leurs projets d’analyse, du prototypage au déploiement.

Le cycle DataOps décrit les principales pratiques à mettre en œuvre pour améliorer la gestion des données au sein du workflow DataOps. Ce cycle comprend trois étapes distinctes : détection, information et itération.

Détection

Il est important que ce cycle commence par la détection, car la méthode DataOps repose fondamentalement sur l’amélioration de la qualité des données.

Cette première étape du cycle DataOps est axée sur la validation. Ce sont les mêmes contrôles de qualité des données qui sont mis en place depuis la création de l’entrepôt de données, à savoir la validation par rapport aux colonnes d’un schéma et ligne par ligne. Il s’agit essentiellement de veiller à ce que tous les jeux de données respectent les règles métier de votre système de données.

Le cadre de qualité des données appliqué pendant la phase de détection est important, mais foncièrement rétrograde. C’est ce qui vous permet de vérifier la conformité des données stockées (et probablement utilisées) dans votre data lake ou dans votre entrepôt de données.

Il convient également de noter que vous validez les jeux de données et que vous suivez les règles métier que vous connaissez. Sans connaître les causes des problèmes, vous ne pourrez établir aucune nouvelle règle métier à suivre par vos ingénieurs. Cette réalité appelle à intégrer une approche d’observabilité continue à chaque étape du cycle de vie de vos données, en commençant par vos données source.

Connaissance

La connaissance est une étape DataOps axée sur la visibilité. C’est là que la gouvernance des données prend tout son sens et qu’une approche centrée sur les métadonnées est adoptée. Centraliser et standardiser les métadonnées des pipelines et des jeux de données de votre écosystème offre aux équipes une visibilité sur les problèmes à l’échelle de l’entreprise.

La centralisation des métadonnées s’avère indispensable pour pouvoir évaluer de bout en bout l’état des données au sein de l’entreprise. C’est ce qui vous permettra d’adopter une approche plus proactive de la résolution des problèmes liés aux données. Si des données de mauvaise qualité pénètrent dans votre « domaine », vous pourrez retracer l’erreur jusqu’à un certain point de votre système de données. Par exemple, l’équipe d’ingénierie des données A peut désormais examiner les pipelines de l’équipe d’ingénierie des données B pour tâcher d’identifier le problème et de le résoudre en étroite collaboration.

L’inverse est également valable. L’équipe d’ingénierie des données B est en mesure de détecter les problèmes et de déterminer son impact sur les dépendances en aval. L’équipe d’ingénierie des données A saura ainsi qu’un problème est susceptible de se produire et pourra prendre les mesures nécessaires pour le contenir.

Itération

Ici, les équipes se concentrent sur les données en tant que code. Cette phase du cycle est axée sur le processus. Il s’agit d’appliquer systématiquement des normes reproductibles et durables pendant le développement des données pour garantir leur fiabilité à la fin de ces pipelines.

Associer détection des problèmes, connaissance des causes racines en amont et processus d’itération efficaces permet désormais d’améliorer progressivement l’intégrité des plateformes de données.

Avantages de l’observabilité des données

Si elle est mise en œuvre efficacement, votre stratégie d’observabilité des données vous permettra d’améliorer la qualité de vos données, la prise de décision, la fiabilité et la performance globale de votre entreprise. Vous bénéficierez notamment des avantages suivants :

Une meilleure qualité des données

L’observabilité des données permet de détecter des problèmes tels que les valeurs manquantes, les doublons et l’incohérence des formats, et ce avant qu’ils n’affectent les dépendances en aval. En améliorant la qualité de leurs données, les entreprises sont en mesure d’améliorer leur prise de décision, leurs opérations, la satisfaction client, ainsi que leur performance globale.

Résolution accélérée

L’observabilité des données permet aux équipes d’associer détection des anomalies, surveillance en temps réel et alertes pour identifier rapidement les erreurs ou les écarts présents dans les données. Accélérer l’identification et la résolution des problèmes permet de réduire le coût et l’ampleur des temps d’arrêt.

Collaboration améliorée

Les tableaux de bord partagés proposés par les plateformes d’observabilité des données offrent aux différentes parties prenantes une visibilité accrue sur l’état des jeux de données critiques et favorisent une meilleure collaboration entre les différentes équipes.

Une efficacité accrue

Les outils d’observabilité des données permettent d’identifier les goulots d’étranglement, ainsi que les problèmes de performance, et d’optimiser les systèmes pour favoriser une meilleure utilisation des ressources et accélérer les délais de traitement. Qui plus est, l’automatisation aide à réduire le temps et les efforts nécessaires pour assurer l’intégrité des données. Vous pourrez ainsi libérer vos ingénieurs de données, analystes et data scientists pour leur permettre de se concentrer sur la valorisation de vos données.

Conformité renforcée

L’observabilité des données permet aux entreprises des secteurs hautement réglementés tels que la finance, la santé et les télécommunications, de s’assurer que leurs données répondent aux exigences d’exactitude, de cohérence et de sécurité. Cela leur permet d’éviter le risque de non-conformité, ainsi que les sanctions associées.

Amélioration de l’expérience client

La qualité des données est essentielle pour comprendre les besoins, les préférences et le comportement de vos clients, afin de leur proposer une expérience personnalisée, plus adaptée. L’observabilité vous permettra de tenir vos données à jour et de garantir leur exactitude afin d’améliorer la satisfaction de vos clients et de les fidéliser.

Augmentation des revenus

Grâce à l’observabilité, les entreprises peuvent améliorer la qualité de leurs données pour en tirer davantage d’informations, identifier les tendances et diversifier leurs sources de revenus. Exploiter pleinement leurs données leur permet d’augmenter leur chiffre d’affaires et d’assurer leur croissance.

Les 5 piliers de l’observabilité des données

Ensemble, les cinq piliers de l’observabilité fournissent des informations importantes sur la qualité et la fiabilité de vos données.

1. Fraîcheur

La fraîcheur porte sur le caractère actuel de vos données et sur la fréquence de leur mise à jour. Lorsque cette dernière est faible, on parle de données périmées. L’interruption des pipelines de données est souvent liée à un problème de fraîcheur.

2. Distribution

Véritable indicateur d’intégrité au niveau des champs, la distribution permet d’établir si les données rentrent ou non dans la plage prévue. Les écarts de distribution indiquent la présence d’un problème de qualité, d’une erreur ou encore d’un changement survenu dans les sources de données sous-jacentes.

3. Volume

Le volume désigne la quantité de données générées, ingérées, transformées et déplacées par le biais de divers processus et pipelines. Il porte également sur l’exhaustivité de vos tableaux de données. Le volume est un indicateur clé qui permet de savoir si votre consommation de données atteint ou non les seuils prévus.

4. Schéma

Le schéma décrit la manière dont vos données sont organisées. Si le schéma est modifié, les données sont susceptibles d’être endommagées. L’observabilité permet de garantir que vos données sont organisées de manière cohérente, qu’elles restent compatibles à travers vos différents systèmes et qu’elles conservent leur intégrité tout au long de leur cycle de vie.

5. Traçabilité

La traçabilité permet de répondre à la question « Où ? » en cas de détérioration des données. Ces dernières sont examinées de leur source jusqu’à leur emplacement final, et chaque modification est notée : ce qui a changé, pour quelle raison et comment. Ce traçage est généralement représenté visuellement.

Observabilité des données et qualité des données

L’observabilité des données permet de veiller à la qualité de ces dernières. Il convient toutefois de rappeler qu’il s’agit de deux aspects bien distincts de la gestion des données.

Les pratiques d’observabilité mettent en évidence les problèmes de qualité des jeux de données, sans pour autant garantir à elles seules leur qualité. Pour cela, il faut s’efforcer de résoudre les problèmes et de les empêcher de se produire. Il est également vrai de dire qu’une entreprise peut avoir des données de qualité sans adopter l’approche d’observabilité.

Surveiller la qualité des données permet de déterminer si l’état du jeu de données est suffisamment bon pour être utilisé dans les applications opérationnelles et analytiques. Les données sont évaluées selon différents critères de qualité tels que l’exactitude, l’exhaustivité, la cohérence, la validité, la fiabilité et l’actualité.

Observabilité des données et gouvernance des données

L'observabilité des données et la gouvernance des données sont des processus complémentaires qui se soutiennent mutuellement.

La gouvernance des données vise à garantir que les données de l’entreprise sont disponibles, utilisables, cohérentes et sécurisées, et qu’elles sont utilisées conformément aux normes et aux politiques internes. Les programmes de gouvernance intègrent souvent des actions pensées pour améliorer la qualité des données, ou y sont étroitement liés.

Un programme de gouvernance des données solide permet d’éliminer les silos de données, ainsi que les problèmes d’intégration et de qualité susceptibles de réduire l’efficacité des pratiques d’observabilité.

L’observabilité peut à son tour renforcer le programme de gouvernance en surveillant les variations de qualité, la disponibilité et la traçabilité des données.

Hiérarchie de l’observabilité des données

Il y a différents degrés d’observabilité des données. Le niveau de contexte que vous pouvez atteindre dépend des métadonnées que vous collectez et de la visibilité que vous êtes en mesure de fournir. C’est ce que l’on appelle la hiérarchie de l’observabilité des données. Chaque niveau sert de base au suivant et permet d’affiner progressivement l’observabilité.

Surveillance de l’état opérationnel, des données au repos et en mouvement

Une bonne visibilité sur l’état de vos opérations et de vos jeux de données constitue une base solide pour votre cadre d’observabilité des données.

Données au repos

Surveiller l’état d’un jeu de données, c’est surveiller le jeu de données dans son ensemble. Vous prenez connaissance de l’état de vos données lorsqu’elles se trouvent dans un emplacement fixe. On parle alors de « données au repos ».

La surveillance des jeux de données permet de répondre aux questions suivantes :

Le jeu de données est-il arrivé dans les délais ?
Le jeu de données est-il mis à jour aussi souvent que nécessaire ?
Le volume de données attendu est-il disponible dans ce jeu de données ?

Données en mouvement

La surveillance opérationnelle consiste à surveiller l’état de vos pipelines pour connaître l’état de vos données au fur et à mesure qu’elles se transforment et se déplacent dans vos pipelines. On parle alors de « données en mouvement ».

La surveillance des pipelines permet de répondre aux questions suivantes :

Comment la performance du pipeline affecte-elle la qualité du jeu de données ?
Quelles sont les conditions d’une exécution réussie ?
Quelles sont les opérations qui transforment le jeu de données avant son arrivée dans le data lake ou l’entrepôt de données ?

Bien qu'en général, la surveillance des jeux de données et des pipelines de données se fasse distinctement, associer les deux s'avère indispensable pour obtenir une base d'observabilité solide. Ces deux états sont hautement interconnectés et interdépendants. Affecter ces deux activités à des équipes ou des outils différents réduira la visibilité sur l’état de vos données.

Profilage des colonnes

Le profilage des colonnes est la clé de cette hiérarchie. Après avoir posé une base solide à cet effet, vous pourrez obtenir les informations nécessaires pour mettre en place de nouvelles règles métier et appliquer les règles actuelles au niveau non seulement des lignes, mais aussi des colonnes.

Ce niveau de connaissance vous offrira l’exploitabilité nécessaire pour améliorer votre cadre de qualité des données.

Vous pourrez répondre aux questions suivantes :

Quelle est la plage attendue pour chaque colonne ?
Quel est le schéma prévu pour cette colonne ?
Cette colonne est-elle unique ?

Validation ligne par ligne

Ensuite, vous pourrez passer au dernier niveau d’observabilité : la validation des lignes. Il s’agit de vérifier si la valeur des données présentes sur chaque ligne est exacte.

Ce type d’observabilité prend en compte les aspects suivants :

Le format des valeurs présentes sur chaque ligne est-il correct ?
Les valeurs ont-elles la longueur prévue ?
Au vu du contexte, y a-t-il suffisamment d’informations pour l’utilisateur final ?

Une vision étroite sur la validation des lignes, c’est l’arbre qui cache la forêt. En élaborant un cadre d’observabilité qui commence par la surveillance des opérations et des jeux de données, vous bénéficierez d’une visibilité accrue sur l’état de vos données et vous pourrez déterminer les causes profondes des problèmes, ainsi que leur impact en aval.

Mettre en œuvre un cadre d’observabilité des données

Vous trouverez ci-dessous les principales étapes à suivre pour réussir votre pipeline d’observabilité. Le processus implique l’intégration de divers outils et technologies, ainsi que la collaboration de différentes équipes au sein de l’entreprise.

Définir les indicateurs clés : commencez par identifier les indicateurs essentiels à suivre. Exemples : qualité des données et volumes, latence, taux d’erreur et utilisation des ressources. Le choix des indicateurs dépendra des besoins de votre entreprise et de la nature de votre pipeline de données.
Choisir les outils appropriés : sélectionnez les outils nécessaires pour collecter, stocker et analyser les données, ainsi que pour émettre des alertes. Veillez à ce que ces outils, y compris ceux qui sont open source, soient compatibles avec votre infrastructure actuelle et capables de gérer vos opérations à l’échelle.
Standardiser les bibliothèques : mettez en place une infrastructure qui permette aux équipes d’échanger aisément et ouvertement autour des problèmes. Veillez à inclure des bibliothèques standardisées pour la gestion des API et des données (par exemple, interroger un entrepôt de données, lire/écrire à partir du data lake, extraire des données à partir des API, etc.), ainsi que pour la qualité des données.
Instrumenter le pipeline de données : l’instrumentation consiste à intégrer des bibliothèques ou des agents de collecte de données dans votre pipeline. C’est ce qui vous permettra de collecter les indicateurs définis lors des différentes étapes de votre pipeline. L’objectif étant d’acquérir une visibilité complète, il est essentiel d’instrumenter chaque étape essentielle.
Mettre en place une solution de stockage de données : les indicateurs collectés doivent être stockés dans une base de données ou sur une plateforme de séries temporelles capable d’évoluer en même temps que la quantité de vos données. Veillez à choisir une solution de stockage adaptée au volume et à la vitesse de vos données.
Mettre en œuvre des outils d’analyse des données : grâce à ces outils, vous pourrez obtenir des informations à partir des indicateurs stockés. Pour approfondir davantage l’analyse, optez pour des outils qui permettent une visualisation intuitive et qui prennent en charge les requêtes complexes.
Configurer alertes et notifications : mettez en place un système qui envoie automatiquement des alertes lorsque les seuils prédéfinis sont atteints ou qu’une anomalie est détectée. Votre équipe pourra réagir promptement aux problèmes et réduire les temps d’arrêt.
Intégrer les plateformes de gestion des incidents : l’observabilité permet non seulement de détecter les problèmes, mais aussi de les gérer efficacement. N’hésitez pas à intégrer votre pipeline d’observabilité à un système de gestion des incidents pour rationaliser vos workflows de réponse.
Vérifier et mettre à jour régulièrement le pipeline d’observabilité : vos données et vos exigences évoluent en même temps que votre entreprise. S’il est vérifié et mis à jour régulièrement, votre pipeline d’observabilité continuera à fournir les informations et le niveau de performance dont vous avez besoin.

Créer un pipeline d’observabilité est synonyme d’apprentissage et de perfectionnement continus. Il est essentiel de commencer petit, d’apprendre de votre expérience et d’étendre progressivement vos capacités d’observabilité.

Solutions connexes

IBM Databand

Conçu pour les entrepôts et les pipelines de données, IBM Databand est un logiciel d’observabilité qui collecte automatiquement les métadonnées afin de créer des lignes de base historiques, de détecter les anomalies et de trier les alertes permettant de résoudre les problèmes de qualité des données.

Découvrir Databand

IBM DataStage

IBM DataStage prend en charge les modèles ETL et ELT pour offrir une intégration flexible des données sur site et dans le cloud, et ce en temps quasi réel.

Explorer DataStage

IBM Knowledge Catalog

Optimisé pour l’IA, le catalogue de données intelligent IBM Knowledge Catalog a été conçu pour faciliter l’accès, le classement et le partage des données, des connaissances et de leurs relations, où qu’elles se trouvent.