Cos'è un data warehouse?

Vista aerea di veicoli a guida automatica in 3D in un data warehouse intelligente

Autori

Alexandra Jonker

Staff Editor

IBM Think

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Cos'è un data warehouse?

Un data warehouse aggrega i dati provenienti da varie fonti in un data store ottimizzato per le query e l'analytics. In genere utilizza i processi di estrazione, trasformazione e caricamento (ETL) o estrazione, caricamento e trasformazione (ELT) per pulire, preparare e organizzare i dati per la business intelligence (BI) e per altri casi d'uso di analisi dei dati.
 

I sistemi di data warehousing possono immettere grandi quantità di dati da un'ampia gamma di sistemi sorgente, tra cui database operativi, sistemi transazionali e piattaforme di customer relationship management (CRM). Gli strumenti di analytics self-service consentono agli utenti aziendali di esplorare e analizzare questi dati per ottenere insight preziosi.

Il concetto di data warehouse è emerso negli anni '80 per integrare dati disparati in un formato uniforme ai fini dell'analisi. Con l'aumento del numero di nuove fonti di dati, come il World Wide Web, i social media e l'Internet of Things (IoT), è aumentala la domanda di maggiore capacità di storage e analisi più rapide.a

I data warehouse sono configurati e ottimizzati per l'analisi quasi in tempo reale, il che significa che in genere non sono ideali per memorizzare enormi quantità di big data grezzi e non strutturati. Con l'aumento della quantità di dati in un warehouse, aumentano anche i costi e la complessità dello storage. Possono sorgere anche problemi di latenza e prestazioni.

In risposta, si sono evolute alternative più flessibili, tra cui data warehouse e data lakehouse cloud-native. (Per maggiori informazioni, vedi "Data lakehouse e data warehouse a confronto").

Come funziona il data warehousing?

I data warehouse utilizzano spesso un'architettura a tre livelli, progettata per trasformare i dati per l'analytics:

  • Livello inferiore
  • Livello intermedio
  • Livello superiore

Livello inferiore

I dati fluiscono da più sistemi di origine in un server di data warehouse, dove vengono memorizzati. Tradizionalmente, i dati attraversano un processo di integrazione dei dati di estrazione, trasformazione, caricamento (ETL), che utilizza l'automazione per pulire e organizzare i dati prima di caricarli nel data warehouse.

Poiché i data warehouse conservano principalmente dati strutturati, la trasformazione dei dati avviene prima del caricamento dei dati. Alcuni data warehouse moderni utilizzano invece processi di estrazione, caricamento, trasformazione (ELT) che caricano i dati nel data warehouse prima di trasformarli. Questo metodo è comunemente usato nei data lake, che possono memorizzare dati non strutturati e semistrutturati senza richiedere formati standardizzati.

Livello intermedio

Questo livello contiene l'analytics engine, spesso alimentato da un sistema di elaborazione analitica online (OLAP). Sebbene i database relazionali tradizionali, inclusi molti data warehouse, possano memorizzare dati multidimensionali (ad esempio, i dati di vendita possono avere diverse dimensioni come luogo, tempo e prodotto), non sono ottimizzati per le query multidimensionali.

I sistemi OLAP sono progettati per query complesse ad alta velocità e analisi multidimensionali su grandi volumi di dati. Utilizzano i "cubi" (strutture di dati multidimensionali basate su array) per consentire analisi più rapide e flessibili su più dimensioni. I casi d'uso più comuni includono data mining, analisi finanziaria, budget e pianificazione delle previsioni.

Diagramma che mostra la struttura di un cubo OLAP Un cubo OLAP con dimensioni per Prodotti, Regioni di vendita e Trimestri

OLAP e OLTP: i sistemi di elaborazione delle transazioni online (OLTP) acquisiscono e aggiornano grandi volumi di transazioni in tempo reale da parte di molti utenti. Al contrario, i sistemi OLAP analizzano i dati che sono già stati acquisiti.

Esistono tre tipi di OLAP che è possibile utilizzare in un data warehouse:

  • Elaborazione analitica multidimensionale online (MOLAP): funziona direttamente con un cubo OLAP multidimensionale ed è in genere il tipo di analisi multidimensionale dei dati più veloce e pratico.

  • Elaborazione analitica relazionale online (ROLAP): esegue un'analisi multidimensionale dei dati che opera direttamente sui dati nelle tabelle relazionali, senza prima riorganizzarli in un cubo.

  • Elaborazione analitica ibrida online (HOLAP): funzioni per creare la divisione ottimale del lavoro tra database relazionali e multidimensionali all'interno di un'unica architettura OLAP.

Livello superiore

L'ultimo livello di un data warehouse fornisce un'interfaccia utente front-end per report, dashboard e analisi ad hoc dei dati aziendali. Questi strumenti di business intelligence self-service consentono agli utenti di generare report basati su dati storici, visualizzare le tendenze e identificare i colli di bottiglia del workflow senza che siano necessarie competenze tecniche di ingegneria dei dati.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Modelli di implementazione dei data warehouse: on-premise, cloud e ibrido

I data warehouse si sono evoluti in modo significativo, passando da sistemi esclusivamente on-premise a modelli cloud e ibridi flessibili.

Data warehouse tradizionali

Storicamente, i data warehouse venivano ospitati on-premise utilizzando hardware di largo consumo. Questi sistemi erano organizzati in architetture Massively Parallel Processing (MPP) o Symmetric Multiprocessing (SMP). Venivano forniti anche come dispositivi autonomi. Queste implementazioni richiedono investimenti significativi. Tuttavia, potrebbero rappresentare una scelta valida per le organizzazioni che operano in settori con rigidi standard a livello di conformità, sicurezza dei dati o privacy dei dati.

Data warehouse su cloud

Molti data warehouse sono attualmente progettati per funzionare nel cloud. Offrono i benefici del cloud computing, come il data storage su scala petabyte, elaborazioni e storage altamente scalabili e tariffe pay-as-you-go. I data warehouse basati su cloud vengono generalmente forniti come soluzione Software as a Service (SaaS) completamente gestita, eliminando la necessità di investimenti iniziali in componenti hardware o software. Questo tipo di servizio riduce anche le risorse necessarie per la gestione dell'infrastruttura affinché le organizzazioni possano concentrarsi sull'analytics e gli insight.

I data warehouse basati su cloud sono diventati sempre più popolari poiché le organizzazioni cercano l'agilità necessaria per scalare e ridurre l'impronta dei data center on-premise e la spesa per le infrastrutture legacy.

Approcci ibridi

Alcune organizzazioni potrebbero adottare un modello ibrido, che combina il meglio dei data warehouse on-premise e cloud. Questo approccio consente loro di utilizzare al meglio la scalabilità e la flessibilità del cloud mantenendo il controllo dei workload sensibili che devono rimanere on-premise.

Quali sono i tre schemi in un data warehouse?

In un data warehouse, gli schemi  definiscono come sono organizzati i dati. Esistono tre strutture di schemi comuni: lo schema a stella, lo schema a fiocco di neve e lo schema a galassia (chiamato anche schema delle costellazioni dei fatti).

Questi schemi sono tutti modelli di dati dimensionali, progettati per ottimizzare la velocità di recupero dei dati nei sistemi OLAP. I modelli dimensionali possono aumentare la ridondanza, facilitando l'individuazione delle informazioni per la segnalazione e il recupero e migliorando le prestazioni delle query.

Questi schemi contengono tabelle dei fatti e tabelle delle dimensioni, definite di seguito:

  • Tabelle dei fatti: memorizzano dati quantitativi come i prodotti venduti o gli importi dei ricavi

  • Tabelle delle dimensioni: memorizzano informazioni contestuali e descrittive per i fatti, come le date di vendita e le categorie di prodotto

Schema a stella

Gli schemi a stella sono costituiti da un'unica tabella informativa centrale circondata da tabelle delle dimensioni. In un diagramma, la tabella dei fatti appare al centro di un motivo a stella. Lo schema a stella è considerato il tipo di schema più semplice e comune, in quanto offre agli utenti velocità di query più elevate.

Immagine raffigurante uno schema a stella Esempio di uno schema a stella

Schema a fiocco di neve

Uno schema a fiocco di neve ha una tabella dei fatti centrale collegata a molte tabelle delle dimensioni normalizzate, che possono quindi connettersi ad altre tabelle delle dimensioni tramite relazioni molti-a-uno. Questo modello più complesso e ramificato può assomigliare a un fiocco di neve. Gli schemi a fiocco di neve hanno bassi livelli di ridondanza dei dati, ma ciò comporta un rallentamento delle prestazioni delle query.

Esempio di uno schema a fiocco di neve Esempio di uno schema a fiocco di neve

Schema a galassia

Proprio come la nostra galassia contiene molte stelle, uno schema a galassia contiene molti schemi a stella che condividono tabelle delle dimensioni normalizzate per evitare la ridondanza. Lo schema a galassia è più adatto per i data warehouse altamente complessi, tuttavia gli utenti potrebbero ottenere prestazioni inferiori.

Esempio di schema a galassia Esempio di schema a galassia

Componenti dell'architettura del data warehouse

Una tipica architettura di data warehouse ha diversi componenti che interagiscono per memorizzare, gestire, elaborare e fornire dati per l'analytics.

  • Strumenti ETL/ELT
  • Livello di API
  • Livello dati (database centrale)
  • Metadati
  • Sandbox
  • Strumenti di accesso

Strumenti ETL/ELT

Gli strumenti ETL estraggono i dati dai sistemi di origine, li trasformano in un'area di staging e li caricano nel data warehouse. Nell'approccio ELT, i dati vengono trasformati dopo essere stati caricati nel data warehouse. Uno strumento di framework per l'elaborazione dei dati, come Apache Spark, può aiutare a gestire la trasformazione dei dati.

Livello di API

Un livello di connettività per le application programming interface (API) può aiutare il data warehouse a estrarre dati e a integrarli con i sistemi operativi. Le API possono anche fornire l'accesso a strumenti di visualizzazione e analytics avanzati.

Livello dati (o database centrale)

Il livello dati (o database centrale) è il cuore del data warehouse. Qui il sistema integra e memorizza dati provenienti da varie fonti, come applicazioni, elenchi di e-mail, siti web o altri database. Questo livello è supportato da pipeline di dati ETL o ELT e utilizza un sistema di gestione di database relazionali (RDBMS) o una piattaforma di data warehouse nel cloud. Le funzionalità di sicurezza e governance dei dati possono partizionare i dati in modo che gli utenti accedano solo a ciò di cui hanno bisogno.

I metadati sono dati sui dati, che descrivono i dati memorizzati in un sistema per renderli ricercabili e utilizzabili ai fini dell'analytics. Includono metadati tecnici (come la struttura della tabella e il tipo di dati) e metadati descrittivi (come l'autore, la data di creazione o la dimensione del file). I metadati sono fondamentali per un'efficace governance e gestione dei dati.

Sandbox

Alcuni data warehouse forniscono una sandbox, che è un ambiente di test protetto contenente una copia dei dati di produzione e gli strumenti di analisi pertinenti. Gli analisti dei dati e i data scientist possono sperimentare nuove tecniche analitiche nella sandbox senza influire sulle operazioni del data warehouse per gli altri utenti.

Strumenti di accesso

Gli strumenti di accesso si connettono a un data warehouse per fornire un front end intuitivo per l'utente business. Gli utenti business e gli analisti di dati possono utilizzare dashboard, app e strumenti di visualizzazione dei dati per interagire con i dati ed estrarre insight. Esempi di questi strumenti includono Tableau, Looker e Qlik.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Tipi di data warehouse

Esistono tre tipi principali di data warehouse:

  • Data warehouse enterprise (EDW)
  • Data store operativi (ODS)
  • data mart

Data warehouse enterprise (EDW)

Un data warehouse enterprise (EDW) è un data warehouse che serve l'intera azienda. Funge da repository centralizzato dei dati storici per tutti i team e tutte le aree tematiche. Un ambiente di data warehousing enterprise può anche includere un data store operativo (ODS) e data mart specifici per ogni reparto.

Data store operativo (ODS)

Un data store operativo (ODS) contiene lo snapshot più recente dei dati operativi. Un ODS viene aggiornato frequentemente e consente il rapido accesso ai dati quasi in tempo reale. Le organizzazioni spesso utilizzano un ODS per prendere decisioni operative quotidiane e per effettuare analisi in tempo reale. Può anche essere una fonte di dati per un EDW o per altri sistemi di dati.

Data mart

Un data mart è un sottoinsieme di un data warehouse esistente (o di altre fonti di dati) e contiene dati personalizzati per una linea di business o un reparto specifico anziché per l'intera azienda. Ad esempio, un'azienda può avere un data mart che si allinea con il reparto marketing. Questi utenti possono accedere a insight più mirati per la segmentazione dei clienti e le prestazioni delle campagne, senza navigare nel più ampio set di dati aziendali.

Data warehouse e altri tipi di data storage a confronto

I termini data warehouse, database, data lake e data lakehouse vengono talvolta utilizzati in modo intercambiabile, tuttavia esistono differenze importanti.

Data warehouse e database a confronto

Un database è come uno schedario costruito principalmente per l'acquisizione automatica dei dati e l'elaborazione rapida delle transazioni. Solitamente funge da storage dei dati per un'applicazione specifica. I data warehouse memorizzano i dati provenienti da un numero qualsiasi di applicazioni in un'organizzazione e sono ottimizzati per l'analytics predittiva e altre analisi avanzate.

Data warehouse e data lake a confronto

Un data lake è una soluzione di storage a basso costo per enormi quantità di dati non elaborati che utilizza un approccio basato su schema in lettura anziché uno schema predefinito. I data lake memorizzano spesso dati non strutturati e dati semistrutturati come documenti, video, log dell'Internet of Things (IoT) e post sui social.

Possono essere costruiti su piattaforme di big data come Apache Hadoop o servizi di cloud object storage come Amazon Simple storage Service (Amazon S3). In genere non puliscono, convalidano o normalizzano i dati per l'analytics, come invece fa un data warehouse.

Data lakehouse e data warehouse a confronto

Un data lakehouse fonde gli aspetti dei data warehouse e dei data lake, ossia la flessibilità a basso costo di un lake e le prestazioni elevate di un warehouse. Combinando le caratteristiche principali di data lake e data warehouse in un'unica soluzione, i data lakehouse possono contribuire ad accelerare l'elaborazione dei dati per grandi quantità di flussi di dati strutturati, non strutturati e in tempo reale, al fine di supportare workload di machine learning, data science e intelligenza artificiale (AI).

I data lakehouse potrebbero anche aggiungere caratteristiche come metadati condivisi e motori structured query language (SQL) distribuiti.

I benefici del data warehouse

I data warehouse rendono disponibili insight e informazioni agli utenti di un'organizzazione, offrendo molti benefici come:

  • Qualità dei dati migliorata
  • Supporto per l'AI e il machine learning
  • Supporto decisionale migliorato

Qualità dei dati migliorata

Tramite i processi ELT o ETL, i data warehouse preparano i dati in entrata prima che vengano memorizzati nel data warehouse. Questa preparazione include metodi di qualità dei dati come pulizia dei dati, standardizzazione e deduplicazione. Solide politiche e pratiche di governance dei dati possono anche aiutare a garantire l'accuratezza e l'integrità dei dati per tutti gli utenti.

Integrando dati di alta qualità in un unico data store, le organizzazioni creano una singola fonte affidabile e completa che aiuta a eliminare i silos di dati. Questo repository centrale consente agli utenti aziendali di accedere con sicurezza a tutti i dati pertinenti dell'organizzazione e di utilizzarli per il processo decisionale. Un data warehouse di livello aziendale potrebbe includere anche il supporto per formati open source come Apache Iceberg, Parquet e CSV, consentendo un ulteriore accesso ai dati e la condivisione dei dati in tutta l'azienda.

Supporto per AI e machine learning

I moderni data warehouse possono supportare diversi flussi di lavoro di AI e machine learning, fornendo dati puliti e affidabili. I data scientist Possono utilizzare data warehouse puliti e convalidati per costruire modelli di AI generativa proprietari o mettere a punto i modelli esistenti per soddisfare meglio le specifiche esigenze aziendali.

Un data warehouse pronto per l'AI dovrebbe essere in grado di raccogliere, pulire, organizzare e strutturare i dati, oltre a facilitare il flusso di dati verso le piattaforme di AI e machine learning. Tuttavia, non tutti i data warehouse moderni sono ottimizzati per i workload dell'AI. I data lakehouse stanno diventando sempre più le piattaforme dati preferite per le infrastrutture di AI.

Supporto decisionale migliorato

Un data warehouse centralizza e pulisce i dati provenienti da diverse fonti per creare una singola fonte affidabile, offrendo alle organizzazioni una visione completa e affidabile dei dati aziendali. Gli strumenti di BI self-service consentono agli utenti di tutta l'azienda di accedere ed eseguire query analitiche su questi dati aggregati.

In questo modo, i data warehouse consentono agli utenti business con qualsiasi livello di competenza tecnica di scoprire e riferire su temi, tendenze e aggregazioni. I leader aziendali possono utilizzare questi insight per prendere decisioni e previsioni più informate, basate su prove concrete, praticamente in ogni area dell'organizzazione, dai processi aziendali alla gestione finanziaria e dell'inventario.

Casi d'uso dei data warehouse specifici di settore

I data warehouse possono essere utilizzati per scopi specifici del settore, ad esempio:

Pubblica amministrazione

Le funzionalità analitiche di un data warehouse possono aiutare i governi a comprendere meglio fenomeni complessi come la criminalità, le tendenze demografiche e i modelli di traffico.

Settore sanitario

La capacità di centralizzare e analizzare dati eterogenei, come codici di fatturazione e diagnostici, dati demografici dei pazienti, farmaci e risultati dei test, può aiutare gli operatori sanitari a ottenere insight sugli esiti dei pazienti, sull'efficienza operativa e molto altro.

Turismo e ospitalità

Le organizzazioni possono utilizzare i dati storici relativi alle scelte di viaggio e alloggio per indirizzare con maggiore precisione pubblicità e promozioni ai propri clienti.

Produzione industriale

Le grandi aziende manifatturiere che generano enormi volumi di dati possono utilizzare soluzioni di data warehouse per creare data mart su misura per le esigenze di ogni reparto.

Soluzioni correlate
IBM StreamSets

Crea e gestisci pipeline di dati intelligenti in streaming attraverso un'interfaccia grafica intuitiva, che facilita la perfetta integrazione dei dati in ambienti ibridi e multicloud.

Esplora StreamSets
IBM watsonx.data™

Watsonx.data ti consente di scalare analytics e AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati Scopri watsonx.data