Vérification de la qualité des données

Les données sont rarement parfaites. En fait, la plupart des données contiennent des erreurs de codage, des valeurs manquantes ou d'autres types d'incohérence qui compliquent parfois l'analyse. Pour éviter les pièges, menez une analyse approfondie de la qualité des données disponibles avant la modélisation.

Les outils de création de rapports de IBM® SPSS Modeler (tels que Data Audit, Table et autres noeuds de sortie) peuvent vous aider à rechercher les types de problème suivants :

  • Les données manquantes comprennent les valeurs vides ou codées comme une absence de réponse (telles que $null$, ? ou 999).
  • Les erreurs de données sont généralement des erreurs typographiques faites lors de la saisie des données.
  • Les erreurs de mesure représentent notamment les données saisies correctement, mais basées sur une méthode de mesure erronée.
  • Les incohérences de codage concernent généralement les unités de mesure non standard ou les incohérences dans les valeurs, telles que l'utilisation de M et de masculin pour le sexe.
  • Les métadonnées erronées représentent notamment les discordances entre la signification apparente d'un champ et celle énoncée dans le nom ou la définition du champ.

Veillez à noter ces problèmes de qualité. Pour plus d'informations, voir la rubrique Elaboration d'un rapport sur la qualité des données.