Home topics Che cos'è l'analisi esplorativa dei dati? Cos'è l'analisi esplorativa dei dati (EDA)?
Esplora la soluzione EDA di IBM Abbonati per ricevere gli aggiornamenti sull'AI
Illustrazione con collage di pittogrammi di nuvole, grafico a torta, pittogrammi grafici su quanto segue
Cos'è l'EDA?

L'analisi esplorativa dei dati (EDA) viene utilizzata dai data scientist per analizzare e indagare i set di dati e riassumerne le caratteristiche principali, spesso impiegando metodi di visualizzazione dei dati.

L'EDA consente di determinare il modo migliore per manipolare le fonti di dati al fine di ottenere le risposte desiderate, facilitando ai data scientist la scoperta dei pattern, l'individuazione di anomalie, il test o la verifica di un'ipotesi.

L'EDA viene utilizzata principalmente per vedere cosa i dati possono rivelare, al di là della modellazione formale o dell'attività di test delle ipotesi e fornisce una migliore comprensione delle variabili del set di dati e delle relazioni tra di esse. Può anche aiutare a determinare se le tecniche statistiche che prendi in considerazione per l'analisi dei dati sono appropriate. Sviluppate originariamente dal matematico americano John Tukey negli anni '70, le tecniche EDA continuano a essere un metodo ampiamente utilizzato nel processo di data discovery ancora oggi.

Una guida per i leader dei dati

Scopri come utilizzare i database giusti per le applicazioni, l'analytics e l'AI generativa.

Contenuti correlati

Registrati per l'ebook sull'AI generativa

Perché l'analisi esplorativa dei dati è importante nella data science?

Lo scopo principale dell’EDA è quello di esaminare i dati prima di fare qualsiasi ipotesi. Può aiutare a identificare errori evidenti, ma anche a comprendere meglio i pattern all'interno dei dati, a rilevare degli outlier o eventi anomali e a trovare relazioni interessanti tra le variabili.

I data scientist possono utilizzare l'analisi esplorativa per garantire che i risultati prodotti siano validi e applicabili a tutti gli esiti e agli obiettivi aziendali desiderati. Inoltre, l'EDA aiuta gli stakeholder confermando la correttezza delle domande che si stanno ponendo. L'EDA può aiutare a rispondere alle domande su deviazioni standard, variabili categoriche e intervalli di confidenza. Una volta che l'EDA è completa e gli insight estratti, è possibile utilizzarli per l'analytics o la modellazione dei dati più sofisticate, tra cui il machine learning.

Strumenti di analisi esplorativa dei dati

Le funzioni e le tecniche statistiche specifiche che è possibile eseguire con gli strumenti EDA includono:

  • Tecniche di clustering e riduzione delle dimensioni, che consentono di creare visualizzazioni grafiche di dati ad alta dimensionalità contenenti molte variabili.
  • Visualizzazione univariata di ciascun campo nel set di dati grezzi, con statistiche riepilogative.
  • Visualizzazioni bivariate e statistiche di riepilogo che consentono di valutare la relazione tra ciascuna variabile nel set di dati e la variabile di destinazione che stai osservando.
  • Visualizzazioni multivariate, per mappare e comprendere le interazioni tra i diversi campi dei dati.
  • K-means Clustering è un metodo di clustering in apprendimento non supervisionato in cui i punti dati vengono assegnati a gruppi K, ovvero al numero di cluster, in base alla distanza dal centroide di ciascun gruppo. I punti dati più vicini a un particolare centroide verranno raggruppati nella stessa categoria. Il clustering K-means è comunemente utilizzato nella segmentazione del mercato, nel riconoscimento dei pattern e nella compressione delle immagini.
  • Modelli predittivi, come la regressione lineare, utilizzano statistiche e dati per prevedere i risultati.
Tipologie di analisi esplorativa dei dati

Esistono quattro tipi principali di EDA:

  • Univariata non grafica. Questa è la forma più semplice di analisi dei dati, in cui i dati analizzati sono costituiti da una sola variabile. Poiché è una singola variabile, non si occupa di cause o relazioni. Lo scopo principale dell'analisi univariata è descrivere i dati e trovare pattern esistenti al loro interno.
  • Univariata grafica. I metodi non grafici non offrono un quadro completo dei dati. Sono quindi necessari metodi grafici. Le comuni tipologie di grafica univariata comprendono:
    • Diagrammi a ramo e foglia, che mostrano tutti i valori dei dati e la forma della distribuzione.
    • Istogrammi, un grafico a barre in cui ogni barra rappresenta la frequenza (conteggio) o proporzione (conteggio/conteggio totale) di casi per un intervallo di valori.
    • Diagrammi a scatola, che rappresentano graficamente il riepilogo di cinque numeri: minimo, primo quartile, mediana, terzo quartile e massimo.
  • Multivariata non grafica: i dati multivariati provengono da più di una variabile. Le tecniche EDA multivariate non grafiche generalmente mostrano la relazione tra due o più variabili dei dati attraverso tabulazioni incrociate o statistiche.
  • Multivariata grafica: i dati multivariati utilizzano i grafici per visualizzare le relazioni tra due o più serie di dati. Il grafico più usato è un diagramma a barre raggruppate o un grafico a barre con ogni gruppo che rappresenta un livello di una delle variabili e ogni barra all'interno di un gruppo che rappresenta i livelli dell'altra variabile.

Altri tipi comuni di grafica multivariata comprendono:

  • Grafico a dispersione, utilizzato per tracciare punti dati su un asse orizzontale e uno verticale per mostrare quanto una variabile è influenzata da un'altra.
  • Grafico multivariato, che è una rappresentazione grafica delle relazioni tra fattori e una risposta.
  • Grafico di esecuzione, che è un grafico a linee di dati tracciati nel tempo.
  • Grafico a bolle, che è una visualizzazione dei dati che mostra più cerchi (bolle) in un grafico bidimensionale.
  • Mappa di calore, che è una rappresentazione grafica dei dati in cui i valori sono rappresentati da un colore.
Strumenti di analisi esplorativa dei dati

Alcuni degli strumenti di data science più comuni utilizzati per creare un'EDA includono:

  • Python: un linguaggio di programmazione interpretato e orientato agli oggetti con semantica dinamica. Le sue strutture dati integrate di alto livello, combinate con la digitazione dinamica e l'associazione dinamica, lo rendono molto interessante per lo sviluppo rapido di applicazioni, nonché per l'uso come linguaggio di scripting o "collante" per connettere insieme componenti esistenti. Python ed EDA possono essere utilizzati insieme per identificare i valori mancanti in un set di dati, un aspetto importante per poter decidere come gestire i valori mancanti per il machine learning.
  • R: un linguaggio di programmazione open-source e un ambiente software gratuito per il calcolo statistico e i grafici supportato da R Foundation for Statistical Computing. Il linguaggio R è ampiamente utilizzato dagli statistici nella data science per sviluppare osservazioni statistiche e analisi dei dati.

Per un'analisi approfondita delle differenze tra questi approcci, consulta "Confronto tra Python e R: qual è la differenza?"

Soluzioni correlate
IBM Watson Studio

Utilizza IBM Watson Studio per determinare se le tecniche statistiche che stai prendendo in considerazione per l'analisi dei dati sono appropriate.

Esplora subito IBM Watson Studio
Risorse Progressi nell'analisi, nella visualizzazione e nella qualità dei dati esplorativi per i sistemi di AI incentrati sui dati

Scopri l'importanza e il ruolo dell'EDA e delle tecniche di visualizzazione dei dati per trovare problemi di qualità dei dati e per la data preparation, rilevanti per la creazione di pipeline di apprendimento automatico (ML).

Analisi esplorativa dei dati per il machine learning

Scopri le tecniche più comuni per recuperare i dati, pulirli, applicare l'ingegneria delle funzionalità e tenerli pronti per l'analisi preliminare e la verifica delle ipotesi.

Fasi successive

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Esplora watsonx.ai Prenota una demo live