La qualité des données mesure dans quelle mesure un jeu de données répond aux critères d’exactitude, d’exhaustivité, de validité, de cohérence, d’unicité, d’actualité et d’adéquation à l’objectif, et elle est essentielle à toutes les initiatives de gouvernance des données au sein d’une organisation.
Les normes de qualité des données garantissent que les entreprises prennent des décisions fondées sur les données afin d’atteindre leurs objectifs commerciaux. Si les problèmes de données, tels que les données en double, les valeurs manquantes, les données aberrantes, ne sont pas correctement résolus, les entreprises augmentent leur risque d’obtenir des résultats commerciaux négatifs. Selon un rapport Gartner, la mauvaise qualité des données coûte en moyenne 12,9 millions de dollars par an aux organisations 1. En conséquence, des outils de qualité des données sont apparus pour atténuer l’impact négatif associé à une mauvaise qualité des données.
Lorsque la qualité des données répond aux normes d’utilisation prévues, les consommateurs de données peuvent faire confiance aux données et les exploiter pour améliorer la prise de décision, ce qui conduit au développement de nouvelles stratégies commerciales ou à l’optimisation des stratégies existantes. Cependant, lorsqu’une norme n’est pas respectée, les outils de qualité des données apportent une valeur ajoutée en aidant les entreprises à diagnostiquer les problèmes sous-jacents liés aux données. Une analyse des causes profondes permet aux équipes de remédier rapidement et efficacement aux problèmes de qualité des données.
La qualité des données n’est pas seulement une priorité pour les opérations commerciales quotidiennes. À mesure que les entreprises intègrent l’intelligence artificielle (IA) et les technologies d’automatisation dans leurs workflows, des données de haute qualité seront cruciales pour l’adoption efficace de ces outils. Comme l’explique le principe GIGO, des données d’entrée défectueuses ou absurdes produisent des sorties absurdes ou « déchets », ce qui est également vrai pour les algorithmes de machine learning. Si l’algorithme apprend à prédire ou à classer des données de mauvaise qualité, on peut s’attendre à ce qu’il produise des résultats inexacts.
Découvrez les éléments constitutifs et les bonnes pratiques pour aider vos équipes à accélérer l’IA responsable.
Lire le guide à l’intention des responsables des données
La qualité des données, l’intégrité des données et le profilage des données sont interdépendants. La qualité des données correspond à une catégorie plus large de critères que les organisations utilisent pour évaluer l’exactitude, l’exhaustivité, la validité, la cohérence, la singularité, la rapidité et la pertinence par rapport à un objectif donné. L’intégrité des données se concentre uniquement sur un sous-ensemble de ces attributs, en particulier l’exactitude, la cohérence et l’exhaustivité. Elle se concentre également sur cette question davantage sous l’angle de la sécurité des données, en mettant en œuvre des mesures de protection pour prévenir l’altération des données par des acteurs malveillants.
Le profilage des données, quant à lui, se concentre sur le processus d’examen et de nettoyage des données afin de maintenir des normes de qualité des données au sein de l’organisation. Cela peut également englober les technologies qui prennent en charge ces processus.
La qualité des données est évaluée à partir d’un certain nombre d’aspects, qui peuvent différer en fonction de la source d’information. Ces dimensions sont utilisées pour classer les indicateurs de qualité des données :
Ces indicateurs aident les équipes à évaluer la qualité des données au sein de leurs organisations afin de déterminer dans quelle mesure les données sont informatives et utiles dans un but donné.
Au cours de la dernière décennie, les développements du cloud hybride, de l’intelligence artificielle, de l’Internet des objets (IdO) et de l’edge computing ont conduit à la croissance exponentielle du big data. Par conséquent, la pratique de la master data management (MDM) est devenue plus complexe, nécessitant davantage de gestionnaires de données et des garanties rigoureuses pour garantir la bonne qualité des données.
Les entreprises s’appuient sur la gestion de la qualité des données pour soutenir leurs initiatives d’analyse de données, telles que les tableaux de bord de veille stratégique. Sans cela, les conséquences peuvent être dévastatrices, même éthiques, selon le secteur d’activité (par exemple, de santé). Des solutions de qualité des données existent pour aider les entreprises à maximiser l’utilisation de leurs données, et elles en ont tiré des principaux avantages, tels que :
Lisez un guide IBM sur les éléments constitutifs de la gouvernance et de la confidentialité des données.
Découvrez auprès des experts dans ce guide détaillé comment adopter une approche axée sur les valeurs en matière de qualité des données et de pratiques d’IA.
IBM nommé leader en matière d’outils d’intégration de données, pour la 18e année consécutive, dans l’édition 2023 du rapport Magic Quadrant™ de Gartner
1 Gartner, « How to Improve Your Data Quality » (lien externe à ibm.com), 14 juillet 2021