Cos'è la riduzione dei dati?

Autori

Phill Powell

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

Che cos'è la riduzione dei dati?

La riduzione dei dati è il processo mediante il quale un'organizzazione si propone di limitare la quantità di dati che memorizza.

Le tecniche di riduzione dei dati hanno l'obiettivo di contenere le ridondanze rilevate nel set di dati originale, in modo che la mole dei dati originari possa essere memorizzata in modo più efficiente sotto forma di dati ridotti.

Innanzitutto, va sottolineato che il termine "riduzione dei dati" non equivale automaticamente a una perdita di informazioni. In molti casi, riduzione dei dati significa soltanto che i dati vengono ora memorizzati in modo più intelligente, magari dopo essere stati sottoposti a un processo di ottimizzazione ed essere stati riassemblati in una configurazione più fruibile.

La riduzione dei dati non è sinonimo di deduplicazione, un processo che consiste nell'eliminazione di copie in eccesso dei medesimi dati per ottimizzare lo spazio di archiviazione. Nello specifico, la riduzione dei dati combina singoli aspetti di diverse attività, come appunto la deduplicazione e il consolidamento dei dati, per raggiungere i propri scopi.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 

Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think.

Una visione dei dati più ampia

Quando si parla di dati nel contesto della loro riduzione spesso si parla di "dato" nella sua forma singolare, in contrapposizione alla forma plurale tipicamente utilizzata. Un aspetto della riduzione dei dati, ad esempio, riguarda la definizione delle dimensioni fisiche effettive dei singoli punti dati.

I principi della data science giocano un ruolo di primo piano nelle attività di riduzione dei dati. Il materiale può essere abbastanza complesso e difficile da riassumere in modo conciso e questo dilemma ha generato un termine proprio: l'interpretabilità, ovvero la capacità di un essere umano di intelligenza media di comprendere un particolare modello di apprendimento automatico.

Afferrare il significato di alcuni di questi termini non è semplice, perché si tratta di dati visti da una prospettiva quasi microscopica. Di solito parliamo di dati nella loro forma "macro", ma in ambito di riduzione dei dati ci riferiamo a essi nell'accezione più "micro". Per essere più precisi, la maggior parte delle discussioni su questo argomento richiederà sia analisi a livello macro che a livello micro.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Vai all'episodio

I vantaggi della riduzione dei dati

Quando un'organizzazione riduce il volume dei propri dati, in genere è in grado di realizzare notevoli risparmi di costi, in quanto riduce sia il proprio fabbisogno in termini di spazio di archiviazione che la spesa complessiva che deve sostenere.

I metodi di riduzione dei dati offrono anche ulteriori vantaggi, come ad esempio l'aumento dell'efficienza. Una volta ottenuta la riduzione, i dati che ne risultano possono essere utilizzati più facilmente dai metodi di intelligenza artificiale (AI) in vari modi, comprese sofisticate applicazioni analytics dei dati che possono semplificare notevolmente le attività del processo-decisionale.

Ad esempio, quando la storage virtualization viene utilizzata correttamente, essa contribuisce al coordinamento tra gli ambienti server e desktop, migliorandone l'efficienza complessiva e rendendoli più affidabili.

Le attività di riduzione dei dati svolgono un ruolo chiave nelle attività di data mining. I dati devono essere il più possibile ripuliti e preparati prima di essere estratti e utilizzati per le attività di analisi.

Tipologie di riduzione dei dati

A seguire riportiamo alcune delle metodologie che un'organizzazione può usare per ridurre i propri dati.

Riduzione della dimensionalità

Alla base del concetto, la nozione di dimensionalità del dato. La dimensionalità si riferisce al numero di attributi (o caratteristiche) assegnati a un singolo set di dati. Tuttavia, qui è presente un punto di disequilibrio: maggiore è la dimensionalità, maggiore sarà lo spazio di archiviazione necessario per quel set di dati. Inoltre, maggiore è la dimensionalità, più i dati tendono a essere sparsi, complicando la necessaria analisi degli outlier.

La riduzione della dimensionalità contrasta questo fenomeno limitando il "rumore" nei dati e consentendone una migliore visualizzazione. Un primo esempio di riduzione della dimensionalità è il metodo della trasformata wavelet, che aiuta la compressione dell'immagine mantenendo la distanza relativa che esiste tra gli oggetti a vari livelli di risoluzione.

L'estrazione di funzione è un'altra possibile trasformazione dei dati, in quanto trasforma i dati originali in caratteristiche numeriche e funziona in combinazione con il machine learning. Essa si differenzia dall'analisi dei componenti principali (PCA), un altro mezzo per ridurre la dimensionalità di set di dati di grandi dimensioni, in cui un insieme considerevole di variabili viene trasformato in un insieme più piccolo pur conservando la maggior parte dei dati del set più grande.

Riduzione della numerosità

L'altro metodo prevede la selezione di un formato più piccolo per rappresentare i dati, provvisto di una minore densità. Esistono due tipi di riduzione della numerosità: quella basata su metodi parametrici e quella basata su metodi non parametrici. I metodi parametrici, come la regressione, si concentrano sui parametri del modello, escludendo i dati stessi. Allo stesso modo, è possibile impiegare un modello log-lineare che si concentra sui sottospazi all'interno dei dati. I metodi non parametrici (come gli istogrammi, che mostrano il modo in cui i dati numerici sono distribuiti) non sono basati su modelli.

Aggregazione dei cubi di dati

I "cubi" sono un metodo visivo usato per memorizzare i dati. Il termine "cubo di dati" è in realtà quasi fuorviante nella sua singolarità implicita, perché in realtà descrive un grande cubo multidimensionale composto da cuboidi più piccoli e organizzati. Ciascuno dei cuboidi rappresenta un aspetto dei dati totali all'interno di un dato cubo, in particolare le porzioni di dati riguardanti misure e dimensioni. L'aggregazione dei cubi di dati, quindi, è il consolidamento degli stessi nel formato visivo del cubo multidimensionale, che riduce la dimensionalità dei dati dotandoli di un container unico appositamente creato.

Discretizzazione dei dati

Un altro metodo utilizzato è la cosiddetta discretizzazione dei dati, in cui viene creato un insieme lineare di valori di dati in base a un insieme definito di intervalli, ciascuno dei quali corrisponde a un determinato valore di dati.

Compressione dei dati

Per limitare le dimensioni dei file e ottenere una corretta compressione dei dati è possibile utilizzare vari tipi di codifica. In generale, le tecniche di compressione dei dati si dividono in compressione senza perdita di dati o compressione con perdita di dati. Nella compressione senza perdita di dati, le dimensioni dei dati vengono ridotte attraverso tecniche e algoritmi di codifica e, se necessario, è possibile ripristinare i dati originali completi. La compressione con perdita di dati, invece, utilizza altri metodi per eseguire la compressione e, sebbene i dati così ottenuti possono comunque essere meritevoli d'essere preservati, essi non saranno una copia esatta dei dati d'origine.

Pre-elaborazione dei dati

Alcuni dati devono essere puliti, trattati ed elaborati prima di essere sottoposti ai processi di analisi e riduzione. Una parte di queste trasformazioni può comportare il cambiamento della natura del dato da analogico a digitale. Il binning è un altro esempio di pre-elaborazione dei dati, in cui i valori mediani vengono utilizzati per normalizzare vari tipi di dati e garantirne l'integrità.

IBM nominata leader nell'integrazione iPaaS, Forrester Wave™ Q3 2025

Leggi il report per scoprire perché Forrester ha classificato IBM tra i leader con il punteggio più alto nella categoria Current Offering. Scopri come questa leadership rafforza IBM WebMethods MFT, attraverso l'offerta di trasferimenti di file sicuri e scalabili all'interno di una più ampia strategia di integrazione.

Risorse

Gestione dei dati per l'AI e l'analytics su larga scala

Scopri come un approccio di data lakehouse aperto può fornire dati affidabili e un'esecuzione più rapida dell'analytics e dei progetti di AI.

Gartner Magic Quadrant for Data Integration Tools 2024

IBM è stata nominata leader per il diciannovesimo anno consecutivo nel Gartner Magic Quadrant 2024 nella categoria Data Integration Tools

The Data Differentiator

Esplora la guida per i leader dei dati che desiderano creare un'organizzazione basata sui dati e ottenere un vantaggio aziendale.

Aumenta l'adozione dell'AI con dati pronti per l'AI

Scopri perché data intelligence e integrazione dei dati basate su AI sono critiche per guidare la preparazione dei dati strutturati e non strutturati e accelerare i risultati dell'AI.

Il data lakehouse ibrido e aperto per l'AI

Semplifica l'accesso ai dati e automatizza la governance dei dati. Scopri la potenza dell'integrazione di una strategia di data lakehouse nella tua architettura di dati, con ottimizzazione dei costi dei workload e scalabilità dell'AI e dell'analytics, con tutti i tuoi dati, ovunque.

Pubblicazioni di IBM Research sulla gestione dei dati

Scopri come IBM Research regolarmente integrata in nuove funzionalità per IBM Cloud Pak for Data.

Gartner Predicts 2024: l'impatto dell'AI sugli utenti di analytics

Ottieni insight unici sul landscape in evoluzione delle soluzioni ABI, in particolare sui risultati, le ipotesi e le raccomandazioni chiave per i responsabili dei dati e dell'analytics.

Soluzioni correlate

Software e soluzioni per la gestione dei dati

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati

IBM watsonx.data™

Watsonx.data ti consente di scalare l'analytics e l'AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data

Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics

Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati

Scopri watsonx.data