Accueil Thèmes Qualité des données Qu’est-ce que la qualité des données ?
Découvrir la solution de qualité des données d’IBM S’inscrire pour recevoir les dernières informations sur l’IA
 Illustration avec collage de pictogrammes de nuages, graphique circulaire et pictogrammes graphiques
Qu’est-ce que la qualité des données ?

La qualité des données mesure dans quelle mesure un jeu de données répond aux critères d’exactitude, d’exhaustivité, de validité, de cohérence, d’unicité, d’actualité et d’adéquation à l’objectif, et elle est essentielle à toutes les initiatives de gouvernance des données au sein d’une organisation.

Les normes de qualité des données garantissent que les entreprises prennent des décisions fondées sur les données afin d’atteindre leurs objectifs commerciaux. Si les problèmes de données, tels que les données en double, les valeurs manquantes, les données aberrantes, ne sont pas correctement résolus, les entreprises augmentent leur risque d’obtenir des résultats commerciaux négatifs. Selon un rapport Gartner, la mauvaise qualité des données coûte en moyenne 12,9 millions de dollars par an aux organisations 1. En conséquence, des outils de qualité des données sont apparus pour atténuer l’impact négatif associé à une mauvaise qualité des données.

Lorsque la qualité des données répond aux normes d’utilisation prévues, les consommateurs de données peuvent faire confiance aux données et les exploiter pour améliorer la prise de décision, ce qui conduit au développement de nouvelles stratégies commerciales ou à l’optimisation des stratégies existantes. Cependant, lorsqu’une norme n’est pas respectée, les outils de qualité des données apportent une valeur ajoutée en aidant les entreprises à diagnostiquer les problèmes sous-jacents liés aux données. Une analyse des causes profondes permet aux équipes de remédier rapidement et efficacement aux problèmes de qualité des données.

La qualité des données n’est pas seulement une priorité pour les opérations commerciales quotidiennes. À mesure que les entreprises intègrent l’intelligence artificielle (IA) et les technologies d’automatisation dans leurs workflows, des données de haute qualité seront cruciales pour l’adoption efficace de ces outils. Comme l’explique le principe GIGO, des données d’entrée défectueuses ou absurdes produisent des sorties absurdes ou « déchets », ce qui est également vrai pour les algorithmes de machine learning. Si l’algorithme apprend à prédire ou à classer des données de mauvaise qualité, on peut s’attendre à ce qu’il produise des résultats inexacts.

 

Créez des fworkflows d’IA responsables avec la gouvernance de l’IA

Découvrez les éléments constitutifs et les bonnes pratiques pour aider vos équipes à accélérer l’IA responsable.

Contenu connexe

Lire le guide à l’intention des responsables des données

Qualité des données, intégrité des données et profilage des données

La qualité des données, l’intégrité des données et le profilage des données sont interdépendants. La qualité des données correspond à une catégorie plus large de critères que les organisations utilisent pour évaluer l’exactitude, l’exhaustivité, la validité, la cohérence, la singularité, la rapidité et la pertinence par rapport à un objectif donné. L’intégrité des données se concentre uniquement sur un sous-ensemble de ces attributs, en particulier l’exactitude, la cohérence et l’exhaustivité. Elle se concentre également sur cette question davantage sous l’angle de la sécurité des données, en mettant en œuvre des mesures de protection pour prévenir l’altération des données par des acteurs malveillants.

Le profilage des données, quant à lui, se concentre sur le processus d’examen et de nettoyage des données afin de maintenir des normes de qualité des données au sein de l’organisation. Cela peut également englober les technologies qui prennent en charge ces processus.

Dimensions de la qualité des données

La qualité des données est évaluée à partir d’un certain nombre d’aspects, qui peuvent différer en fonction de la source d’information. Ces dimensions sont utilisées pour classer les indicateurs de qualité des données :

  • Exhaustivité : il s’agit de la quantité de données utilisables ou complètes. Un pourcentage élevé de valeurs manquantes peut conduire à une analyse biaisée ou trompeuse si les données ne sont pas représentatives d’un échantillon de données typique.
  • Unicité : il s’agit de la quantité de données dupliquées dans un jeu de données. Par exemple, lors de l’examen des données clients, vous devez vous attendre à ce que chaque client dispose d’un identifiant client unique.
  •  Validité : cette dimension mesure la quantité de données qui correspond au format requis pour toutes les règles commerciales. Le formatage inclut généralement des métadonnées, telles que les types de données valides, les plages, les modèles, etc.
  • Rapidité : cette dimension fait référence à la disponibilité des données dans un délai prévu. Par exemple, les clients s’attendent à recevoir un numéro de commande immédiatement après avoir effectué un achat, et ces données doivent être générées en temps réel.
  • Exactitude : cette dimension fait référence à l’exactitude des valeurs des données sur la base de la « source de vérité » convenue. Étant donné que plusieurs sources peuvent faire état des mêmes indicateurs, il est important de désigner une source de données primaire. D’autres sources de données peuvent être utilisées pour confirmer l’exactitude de la source primaire. Par exemple, les outils peuvent vérifier que chaque source de données évolue dans la même direction pour renforcer la confiance dans l’exactitude des données.
  • Cohérence : cette dimension évalue les enregistrements de données de deux jeux de données différents. Comme mentionné précédemment, plusieurs sources peuvent être identifiées pour générer des rapports sur un seul indicateur. L’utilisation de différentes sources pour vérifier la cohérence des tendances et des comportements des données permet aux organisations de faire confiance à toutes les informations exploitables de leurs analyses. Cette logique peut également s’appliquer aux relations entre les données. Par exemple, le nombre d’employés d’un service ne doit pas dépasser le nombre total d’employés d’une entreprise.
  • Conformité aux besoins : enfin, la conformité aux besoins permet de s’assurer que l’actif de données répond à un besoin métier. Cette dimension peut s’avérer difficile à évaluer, en particulier avec les nouveaux jeux de données émergents.                                                                                                          

Ces indicateurs aident les équipes à évaluer la qualité des données au sein de leurs organisations afin de déterminer dans quelle mesure les données sont informatives et utiles dans un but donné.

Pourquoi la qualité des données est-elle importante ?

Au cours de la dernière décennie, les développements du cloud hybride, de l’intelligence artificielle, de l’Internet des objets (IdO) et de l’edge computing ont conduit à la croissance exponentielle du big data. Par conséquent, la pratique de la master data management (MDM) est devenue plus complexe, nécessitant davantage de gestionnaires de données et des garanties rigoureuses pour garantir la bonne qualité des données.

Les entreprises s’appuient sur la gestion de la qualité des données pour soutenir leurs initiatives d’analyse de données, telles que les tableaux de bord de veille stratégique. Sans cela, les conséquences peuvent être dévastatrices, même éthiques, selon le secteur d’activité (par exemple, de santé). Des solutions de qualité des données existent pour aider les entreprises à maximiser l’utilisation de leurs données, et elles en ont tiré des principaux avantages, tels que :

  • De meilleures décisions métier : des données de qualité permettent aux organisations d’identifier des indicateurs clés de performance (KPI) applicables aux différents programmes, ce qui permet aux équipes de les améliorer ou de les développer plus efficacement. Les organisations qui donnent la priorité à la qualité des données ont tout à gagner, en particulier face à la concurrence.
  • Amélioration des processus opérationnels : des données de qualité permettent également aux équipes d’identifier les défaillances dans les workflows opérationnels. Cela est particulièrement vrai pour le secteur de la chaîne d’approvisionnement, qui s’appuie sur des données en temps réel pour déterminer l’inventaire approprié et son emplacement après l’expédition.
  • Augmentation de la satisfaction client : une qualité de données élevée offre aux organisations, en particulier aux équipes marketing et commerciales, un aperçu incroyable de leurs acheteurs cibles. Ils sont capables d’intégrer différentes données dans l’entonnoir de vente et de marketing, ce qui leur permet de vendre leurs produits de manière plus efficace. Par exemple, la combinaison des données démographiques et du comportement sur le Web peut aider les organisations à créer leurs messages, à investir leur budget marketing ou à constituer leurs équipes de vente pour servir leurs clients existants ou potentiels.
Ressources
Gouvernance et confidentialité des données pour les responsables des données

Lisez un guide IBM sur les éléments constitutifs de la gouvernance et de la confidentialité des données.

Qualité des données et performance de l’IA en trois étapes

Découvrez auprès des experts dans ce guide détaillé comment adopter une approche axée sur les valeurs en matière de qualité des données et de pratiques d’IA.

Gartner Magic Quadrant

IBM nommé leader en matière d’outils d’intégration de données, pour la 18e année consécutive, dans l’édition 2023 du rapport Magic Quadrant™ de Gartner

Passer à l’étape suivante

Faites évoluer les workloads d’IA pour toutes vos données n’importe où avec IBM watsonx.data, un entrepôt de données adapté à vos besoins basé sur une architecture data lakehouse ouverte.

Découvrir watsonx.data Réserver une démo en direct
Références

1 Gartner, « How to Improve Your Data Quality » (lien externe à ibm.com), 14 juillet 2021