Qu’est-ce que l’analyse exploratoire des données

Qu’est-ce que l’EDA ?

L’analyse exploratoire des données (EDA) est utilisée par les data scientists pour analyser et étudier des jeux de données et résumer leurs principales caractéristiques, souvent à l’aide de méthodes de visualisation des données.

L’EDA permet de déterminer la meilleure façon de manipuler les sources de données pour obtenir les réponses recherchées. Elle permet aux data scientists de plus facilement découvrir des schémas, repérer des anomalies, tester des hypothèses ou vérifier des suppositions.

L’EDA est principalement utilisée pour découvrir ce que les données peuvent révéler au-delà de la modélisation formelle ou du test d’hypothèses, et elle permet de mieux comprendre les variables des jeux de données et les relations entre elles. Elle permet également de déterminer si les techniques statistiques que vous envisagez d’utiliser pour l’analyse des données sont adaptées. Développées à l’origine par le mathématicien américain John Tukey dans les années 1970, les techniques d’EDA restent aujourd’hui une méthode largement utilisée dans le processus de découverte de données.

Guide du responsable des données

Découvrez comment exploiter les bases de données adéquates pour les applications, les analyses et l’IA générative.

Contenu connexe

Obtenir l’e-book sur l’IA générative

Pourquoi l’analyse exploratoire des données est-elle importante dans le domaine de la science des données ?

L’objectif principal de l’EDA, c’est de vous aider à examiner les données avant de faire des suppositions. Elle peut permettre d’identifier les erreurs évidentes, de mieux comprendre les schémas dans les données, de détecter les données aberrantes ou les événements anormaux, et de trouver des relations intéressantes entre les variables.

Les data scientists peuvent utiliser l’analyse exploratoire pour s’assurer que les résultats produits sont valides et applicables à tous les résultats commerciaux et objectifs métier visés. L’EDA permet également aux parties prenantes de confirmer qu’elles posent les bonnes questions. L’EDA peut vous aider à répondre aux questions que vous avez sur les écarts-types, les variables nominales et les intervalles de confiance. Une fois l’EDA terminée et les informations déduites, ses fonctionnalités peuvent être utilisées pour une analyse ou une modélisation des données plus sophistiquée, y compris le machine learning.

Outils d’analyse exploratoire des données

Les fonctions et techniques statistiques spécifiques que vous pouvez exécuter avec les outils EDA sont notamment les suivantes :

Les techniques de clustering et de réduction de la dimensionnalité, qui permettent de créer des représentations graphiques des données de grande dimension comptant de nombreuses variables.
La visualisation univariée de chaque champ du jeu de données brutes, avec des statistiques récapitulatives.
Des visualisations bivariées et des statistiques récapitulatives qui vous permettent d’évaluer la relation entre chaque variable du jeu de données et la variable cible examinée.
Visualisations multivariées, pour mapper et comprendre les interactions entre les différents champs des données.
Le partitionnement en k-moyennes ou k-means clustering est une méthode utilisée dans l’apprentissage non supervisé où les points de données sont divisés en k groupes, c’est-à-dire le nombre de clusters, en fonction de la distance par rapport au centroïde de chaque groupe. Les points de données les plus proches d’un centroïde particulier seront regroupés dans la même catégorie. Le clustering en k-moyennes est couramment utilisé dans la segmentation du marché, la reconnaissance de formes et la compression d’images.
Les modèles prédictifs, tels que la régression linéaire, utilisent des statistiques et des données pour prédire des résultats.

Types d’analyses exploratoires des données

Il existe quatre principaux types d’EDA :

Univariée sans représentation graphique. Il s’agit de la forme la plus simple d’analyse des données, où les données analysées sont constituées d’une seule variable. De ce fait, il n’existe aucune cause ni relation à traiter. L’objectif principal de l’analyse univariée, c’est de décrire les données et d’y trouver des schémas.
Univariée avec représentation graphique. Les méthodes sans représentation graphique ne fournissent pas une image complète des données. Des méthodes avec représentations graphiques sont donc nécessaires. Les types courants d’analyses univariées avec représentations graphiques sont les suivants :
- Le diagramme branche-et-feuille, qui affiche toutes les valeurs de données et la forme de la distribution.
- L’histogramme, un diagramme à barres dans lequel chaque barre représente la fréquence (nombre) ou la proportion (nombre/nombre total) de cas pour une plage de valeurs.
- La boîte à moustaches, ou diagramme en boîte, qui représente sous forme graphique le résumé en cinq chiffres du minimum, du premier quartile, de la médiane, du troisième quartile et du maximum.
Multivariée sans représentation graphique. Les données multivariées proviennent de plusieurs variables. Les techniques d’EDA multivariée sans représentation graphique montrent généralement la relation entre deux ou plusieurs variables des données sous forme de tableaux croisés ou de statistiques.
Multivariée avec représentation graphique. Les données multivariées utilisent des graphiques pour afficher les relations entre deux jeux de données ou plus. Le graphique le plus utilisé pour ce type d’analyse est le diagramme à barres groupées, chaque groupe représentant un niveau de l’une des variables et chaque barre d’un groupe représentant les niveaux de l’autre variable.

Les autres types courants d’analyses multivariées avec représentations graphiques sont les suivants :

Le diagramme de dispersion, utilisé pour représenter des points de données sur un axe horizontal et un axe vertical afin de montrer dans quelle mesure une variable est affectée par une autre.
Un graphique multivarié, qui est une représentation graphique des relations entre des facteurs et une réponse.
Le diagramme de séquence, qui est un line graph de données représentées dans le temps.
Le graphique à bulles, qui est une visualisation des données qui contient plusieurs cercles (bulles) dans une représentation en deux dimensions.
La carte thermique, qui est une représentation graphique des données où les valeurs sont représentées par des couleurs.

Outils d’analyse exploratoire des données

Voici quelques-uns des outils de science des données les plus couramment utilisés dans le contexte de l’EDA :

Python : Un langage de programmation interprété orienté objet avec une sémantique dynamique. Ses structures de données intégrées globales, associées au typage et à la liaison dynamiques, le rendent très intéressant pour le développement rapide d’applications, ainsi que comme langage de script ou de liaison pour connecter des composants existants entre eux. Python et l’EDA peuvent être utilisés ensemble pour identifier les valeurs manquantes dans un jeux de données. Ceci est essentiel pour vous aider à déterminer comment gérer ces valeurs manquantes pour le machine learning.
R : Un langage de programmation open source et un environnement logiciel libre pour les calculs et les graphiques statistiques, soutenus par la R Foundation for Statistical Computing. Le langage R est largement utilisé par les statisticiens en science des données pour développer des observations statistiques et des analyses de données.

Pour en savoir plus sur les différences entre ces approches, consultez l’article «Python et R : quelle est la différence ?»

Solutions connexes

IBM Watson Studio

Faites appel à IBM Watson Studio pour déterminer si les techniques statistiques que vous envisagez d’utiliser pour l’analyse des données sont adaptées.

Découvrir IBM Watson Studio dès aujourd'hui

Ressources

Progrès dans l’analyse exploratoire des données, la visualisation et la qualité pour les systèmes d’IA centrés sur les données

Découvrez l’importance et le rôle de l’EDA et des techniques de visualisation des données dans la détection des problèmes de qualité des données, et dans la préparation des données pour la création de pipelines de ML.

Analyse exploratoire des données pour le machine learning

Apprenez les techniques courantes pour récupérer vos données, les nettoyer, y appliquer l’ingénierie des caractéristiques et les préparer pour l’analyse préliminaire et le test d’hypothèses.

Passez à l’étape suivante

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio professionnel de nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai

Réserver une démo en direct