Un data mart è un sottoinsieme di un data warehouse specifico per una particolare linea di business, funzione aziendale o area tematica. I data mart possono migliorare l'efficienza del team, ridurre i costi e facilitare un processo decisionale aziendale tattico più intelligente nelle aziende.
I data mart rendono disponibili dati specifici a un gruppo definito di utenti, il che consente a tali utenti di accedere rapidamente a insight critici senza perdere tempo a cercare in un intero data warehouse. Ad esempio, molte aziende possono avere un data mart allineato a un reparto specifico dell'azienda, come finanza, vendite o marketing.
I data mart, i data warehouse e i data lake sono repository di dati centrali d'importanza chiave, ma soddisfano esigenze diverse all'interno di un'organizzazione.
Un data warehouse è un sistema che aggrega i dati provenienti da più fonti in un unico data store centrale e coerente per supportare data mining, intelligenza artificiale (AI) e machine learning, che possono potenziare l'analytics e la business intelligence. Attraverso questo processo di raccolta strategica, le soluzioni di data warehouse consolidano i dati provenienti da diverse fonti per renderli disponibili in un formato unificato.
Un data mart (come riportato sopra) è una versione specializzata di un data warehouse, contenente un sottoinsieme più piccolo di dati importanti e necessari per un singolo team o un gruppo selezionato di utenti all'interno di un'organizzazione. Un data mart viene creato a partire da un data warehouse esistente (o da altre fonti di dati) tramite una procedura complessa che coinvolge molteplici tecnologie e strumenti per progettare e costruire un database fisico, popolarlo di dati e impostare complessi protocolli di accesso e gestione.
Sebbene sia un processo impegnativo, consente a una linea di business di scoprire insight specifici più rapidamente rispetto all'utilizzo di un set di dati di data warehouse più ampio. Ad esempio, i team di marketing possono trarre vantaggio dalla creazione di un data mart a partire da un data warehouse esistente, poiché le sue attività vengono generalmente svolte indipendentemente dal resto dell'azienda. Pertanto, il team necessita di accedere a tutti i dati aziendali.
Anche un data lake è un repository di dati. Un data lake offre un enorme spazio di storage per dati non strutturati o grezzi alimentati tramite più fonti, ma le informazioni non sono ancora state elaborate o preparate per l'analisi. Grazie alla possibilità di memorizzare i dati in un formato grezzo, i data lake sono più accessibili e convenienti rispetto ai data warehouse. Non è necessario pulire ed elaborare i dati prima dell'inserimento.
Ad esempio, i governi possono utilizzare la tecnologia per tenere traccia dei dati sul comportamento del traffico, sul consumo di energia e sui corsi d'acqua e memorizzarli in un data lake mentre decidono come utilizzare i dati per creare "città più intelligenti" con servizi più efficienti.
I data mart sono progettati per soddisfare le esigenze di gruppi specifici con dati di un argomento relativamente ristretto. Sebbene un data mart possa contenere milioni di record, il suo obiettivo è quello di fornire agli utenti aziendali i dati più pertinenti nel minor tempo possibile.
Con il suo design più piccolo e mirato, un data mart presenta diversi benefici per l'utente finale, tra cui:
Esistono tre tipi di data mart che differiscono in base alla loro relazione con il data warehouse e alle rispettive fonti di dati di ciascun sistema.
Un data mart è un database relazionale orientato all'argomento che memorizza i dati transazionali in righe e colonne, il che ne facilita l'accesso, l'organizzazione e la comprensione. Poiché contiene dati storici, questa struttura rende più facile per un analista determinare le tendenze dei dati. I campi dati tipici includono ordine numerico, valore temporale e riferimenti a uno o più oggetti.
Le aziende organizzano i data mart in uno schema multidimensionale, come un blueprint, per soddisfare le esigenze delle persone che utilizzano i database per attività analitiche. I tre tipi principali di schema sono stella, fiocco di neve e vault.
Lo schema a stella è una formazione logica di tabelle in un database multidimensionale che assomiglia a una forma a stella. In questo blueprint, una tabella dei fatti, ovvero un insieme di metriche che si riferisce a un evento o processo aziendale specifico, si trova al centro della stella, circondata da diverse tabelle delle dimensioni associate.
Non esiste alcuna dipendenza tra le tabelle delle dimensioni, pertanto uno schema a stella richiede un numero inferiore di join durante la scrittura di query. Questa struttura semplifica l'esecuzione di query, pertanto gli schemi a stella sono estremamente efficienti per gli analisti che desiderano accedere e navigare in set di dati di grandi dimensioni.
Uno schema a fiocco di neve è un'estensione logica di uno schema a stella, che costruisce il blueprint con ulteriori tabelle delle dimensioni. Le tabelle delle dimensioni vengono normalizzate per proteggere l'integrità dei dati e ridurne al minimo la ridondanza.
Sebbene questo metodo richieda meno spazio per memorizzare le tabelle delle dimensioni, si tratta di una struttura complessa che può essere difficile da mantenere. Il beneficio principale dell'utilizzo dello schema a fiocco di neve è la ridotta esigenza di spazio su disco, tuttavia vi è un impatto negativo sulle prestazioni dovuto alle tabelle aggiuntive.
Il data vault è una moderna tecnica di modellazione dei database che consente ai professionisti IT di progettare data warehouse aziendali agili. Questo approccio applica una struttura a più livelli ed è stato appositamente sviluppato per combattere i problemi di agilità, flessibilità e scalabilità che si presentano quando si utilizzano gli altri modelli di schema.
Il data vault elimina la necessità di pulizia dello schema a stella e semplifica l'aggiunta di nuove fonti di dati senza alcun effetto sullo schema esistente.
I data mart guidano le decisioni aziendali più importanti a livello dipartimentale. Ad esempio, un team di marketing può utilizzare i data mart per analizzare i comportamenti dei consumatori, mentre il personale di vendita potrebbe utilizzare i data mart per compilare report trimestrali sulle vendite. Poiché queste attività si svolgono all'interno dei rispettivi reparti, i team non necessitano di accedere a tutti i dati aziendali.
In genere, un data mart viene creato e gestito dallo specifico reparto aziendale che intende utilizzarlo. Il processo di progettazione di un data mart comprende solitamente i seguenti passaggi:
Una volta svolte le attività di base, è possibile ottenere il massimo valore da un data mart utilizzando strumenti di business intelligence specializzati, come Qlik o SiSense. Queste soluzioni includono una dashboard e visualizzazioni che facilitano la comprensione degli insight dai dati, conducendo a decisioni più intelligenti a beneficio dell'azienda.
Sebbene i data mart offrano alle aziende i benefici di una maggiore efficienza e flessibilità, la crescita inarrestabile dei dati rappresenta un problema per le aziende che continuano a utilizzare una soluzione on-premise.
Con il passaggio dei data warehouse al cloud, anche i data mart seguiranno lo stesso percorso. Consolidando le risorse di dati in un unico repository che contiene tutti i data mart, le aziende possono ridurre i costi e garantire che tutti i reparti abbiano accesso illimitato ai dati di cui necessitano in tempo reale.
Le piattaforme basate su cloud consentono di creare, condividere e archiviare enormi set di dati con facilità, aprendo la strada a un accesso e un'analisi dei dati più efficienti ed efficaci. I sistemi cloud sono progettati per una crescita aziendale sostenibile; molti moderni fornitori di Software-as-a Service (SaaS) separano il data storage dal computing per migliorare la scalabilità nell'interrogazione dei dati.
Watsonx.data ti consente di scalare l'analytics e l'AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.
Scala workload di analytics e AI sempre attivi e ad alte prestazioni sui dati governati in tutta la tua organizzazione
Sfrutta tutto il valore dei dati aziendali con IBM Consulting, costruisci un'organizzazione basata su insight in grado di generare vantaggi aziendali.