Cos'è la qualità dei dati?

Ripresa di due uomini d'affari che utilizzano un laptop durante una riunione in un ufficio moderno

Cos'è la qualità dei dati?

La qualità dei dati stabilisce in che misura un set di dati soddisfa i criteri di accuratezza, completezza, validità, coerenza, unicità, tempestività e idoneità allo scopo ed è fondamentale per tutte le iniziative di governance dei dati all'interno di un'organizzazione.

Gli standard di qualità dei dati garantiscono che le aziende prendano decisioni basate sui dati per raggiungere i propri obiettivi aziendali. Se i problemi relativi ai dati, come dati duplicati, missing values e outlier, non vengono risolti correttamente, le aziende aumentano il rischio di risultati aziendali negativi. Secondo un report di Gartner, una scarsa qualità dei dati costa alle organizzazioni una media di 12,9 milioni di dollari all'anno 1. Proprio per questo motivo, sono emersi strumenti di qualità dei dati per mitigare l'impatto negativo associato alla scarsa qualità dei dati.

Quando la qualità dei dati soddisfa gli standard per l'uso previsto, i consumatori di dati possono fidarsi dei dati e sfruttarli per migliorare il processo decisionale, portando allo sviluppo di nuove strategie aziendali o all'ottimizzazione di quelle esistenti. Tuttavia, quando uno standard non viene soddisfatto, gli strumenti di qualità dei dati forniscono un valore aggiunto aiutando le aziende a diagnosticare i problemi di fondo dei dati. Un'analisi delle cause principali consente ai team di risolvere i problemi di qualità dei dati in modo rapido ed efficace.

La qualità dei dati non è solo una priorità per le operazioni aziendali quotidiane: man mano che le aziende integrano le tecnologie di intelligenza artificiale (AI) e di automazione nei loro flussi di lavoro, i dati di alta qualità saranno fondamentali per l'adozione efficace di questi strumenti. Come dice il vecchio detto: "garbage in, garbage out". E questo vale anche per gli algoritmi di apprendimento automatico. Se l'algoritmo sta imparando a prevedere o classificare in base a dati errati, possiamo aspettarci che produca risultati imprecisi.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Qualità dei dati, integrità dei dati e profilazione dei dati

La qualità, l'integrità e la profilazione dei dati sono tutte correlate tra loro. La qualità dei dati è una categoria più ampia di criteri che le organizzazioni utilizzano per valutare l'accuratezza, la completezza, la validità, la coerenza, l'unicità, la tempestività e l'idoneità allo scopo dei loro dati. L'integrità dei dati si concentra solo su un sottoinsieme di questi attributi, in particolare accuratezza, coerenza e completezza. Inoltre, si concentra maggiormente su questo aspetto dal punto di vista della sicurezza dei dati, implementando misure di protezione per prevenire la corruzione dei dati da parte di soggetti malintenzionati.

La profilazione dei dati, invece, si concentra sul processo di revisione e pulizia dei dati per mantenere gli standard di qualità dei dati all'interno di un'organizzazione. Ciò può comprendere anche la tecnologia che supporta questi processi.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Dimensioni della qualità dei dati

La qualità dei dati viene valutata in base a diverse dimensioni, che possono variare a seconda della fonte delle informazioni. Queste dimensioni vengono utilizzate per categorizzare le metriche della qualità dei dati:

  • Completezza: rappresenta la quantità di dati utilizzabili o completi. Un'alta percentuale di valori mancanti (missing values) può portare a un'analisi distorta o fuorviante se i dati non sono rappresentativi di un campione tipico.
  • Unicità: questo aspetto riguarda la quantità di dati duplicati in un set di dati. Ad esempio, quando si esaminano i dati dei clienti, ci si dovrebbe aspettare che ogni cliente abbia un ID cliente univoco.
  • Validità: questa dimensione misura la quantità di dati che corrispondono al formato richiesto per qualsiasi business rules. La formattazione include in genere i metadati, ad esempio tipi di dati validi, intervalli, modelli e altro ancora.
  • Tempestività: questa dimensione si riferisce alla disponibilità dei dati in un arco di tempo previsto. Ad esempio, i clienti si aspettano di ricevere un numero d'ordine subito dopo aver effettuato un acquisto e che i dati devono essere generati in tempo reale.
  • Accuratezza: questa dimensione si riferisce alla correttezza dei valori dei dati in base alla "fonte affidabile" concordata. Poiché possono esserci più fonti che riportano la stessa metrica, è importante designare una fonte di dati primaria; altre fonti di dati possono essere utilizzate per confermare l'accuratezza di quella primaria. Ad esempio, gli strumenti possono verificare che ogni fonte di dati abbia una tendenza nella stessa direzione per rafforzare la fiducia nell'accuratezza dei dati.
  • Coerenza: questa dimensione valuta i record di dati provenienti da due serie di dati diverse. Come accennato in precedenza, è possibile identificare più fonti per generare rapporti su una singola metrica. L'utilizzo di diverse fonti per verificare tendenze e comportamenti coerenti dei dati consente alle organizzazioni di affidarsi a tutte le informazioni fruibili derivanti dalle loro analisi. Questa logica può essere applicata anche alle relazioni tra dati. Ad esempio, il numero di dipendenti in un reparto non deve superare il numero totale di dipendenti in un'azienda.
  • Idoneità allo scopo: infine, l'idoneità allo scopo aiuta a garantire che l'asset di dati soddisfi un'esigenza aziendale. Questa dimensione può essere difficile da valutare, in particolare con set di dati nuovi ed emergenti. Queste metriche aiutano i team a condurre valutazioni della qualità dei dati all'interno delle loro organizzazioni per valutare il livello di informazione e utilità dei dati per un determinato scopo.

Queste metriche aiutano i team a condurre valutazioni della qualità dei dati all'interno delle loro organizzazioni per valutare il livello di informazione e utilità dei dati per un determinato scopo.

Perché la qualità dei dati è importante?

Nell'ultimo decennio, gli sviluppi nell'ambito dell'hybrid cloud, dell'intelligenza artificiale, dell'Internet of Things (IoT) e dell'edge computing hanno portato a una crescita esponenziale dei big data. Di conseguenza, la pratica del master data management (MDM) è diventata più complessa e richiede più amministratori dei dati e garanzie rigorose per assicurare una buona qualità dei dati.

Le aziende si affidano alla gestione della qualità dei dati per supportare le loro iniziative di analisi dei dati, come le dashboard di business intelligence. In caso contrario, le conseguenze possono essere devastanti, anche dal punto di vista etico, a seconda del settore (ad esempio, quello sanitario). Le soluzioni per la qualità dei dati servono ad aiutare le aziende a massimizzare l'uso dei propri dati e hanno apportato vantaggi chiave, come:

  • Migliori decisioni aziendali: dati di alta qualità consentono alle organizzazioni di identificare gli indicatori chiave di prestazione (KPI) per misurare le prestazioni di vari programmi, il che consente ai team di migliorarli o farli crescere in modo più efficace. Le organizzazioni che danno priorità alla qualità dei dati avranno senza dubbio un vantaggio rispetto ai loro concorrenti.
  • Miglioramento dei processi aziendali: la disponibilità di dati validi consente inoltre ai team di individuare le interruzioni nei flussi di lavoro operativi. Ciò è particolarmente vero per il settore della supply chain, che si basa su dati in tempo reale per determinare l'inventario appropriato e la relativa ubicazione dopo la spedizione.
  • Aumento della soddisfazione dei clienti: un'elevata qualità dei dati fornisce alle organizzazioni, in particolare ai team di marketing e di vendita, un'incredibile conoscenza dei loro acquirenti target. Possono integrare diversi dati nel funnel di vendita e marketing, il che gli consente di vendere i loro prodotti in modo più efficace. Ad esempio, la combinazione di dati demografici e comportamento sul web può fornire alle organizzazioni preziose informazioni su come creare i propri messaggi, investire il loro budget di marketing o assegnare personale ai loro team di vendita per servire i clienti esistenti o potenziali.
Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati Scopri watsonx.data