Cos'è l'osservabilità dei dati?

L'osservabilità dei dati si riferisce alla pratica di monitorare, gestire e mantenere i dati per garantirne la qualità, la disponibilità e l'affidabilità nei vari processi, sistemi e pipeline all'interno di un'organizzazione.

L'osservabilità dei dati consiste nel comprendere veramente l'integrità dei dati e il loro stato in tutto l'ecosistema di dati. Comprende una serie di attività che vanno oltre il monitoraggio tradizionale, che descrive solo un problema. L'osservabilità dei dati può aiutare a identificare e risolvere i problemi relativi ai dati quasi in tempo reale.

L'utilizzo di strumenti di osservabilità dei dati è essenziale per anticipare i problemi relativi ai dati errati, che sono alla base dell'affidabilità dei dati. Questi strumenti consentono il monitoraggio automatizzato, l'assegnazione di priorità degli avvisi, il tracciamento, i confronti, l'analisi delle cause principali, la registrazione, il data lineage e il monitoraggio degli SLA (Service Level Agreement), tutti i quali collaborano per aiutare i professionisti a comprendere la qualità dei dati end-to-end, compresa l'affidabilità dei dati.

L'implementazione di una soluzione di osservabilità dei dati è particolarmente importante per i team di dati moderni, dove i dati vengono utilizzati per ottenere insight, sviluppare modelli di machine learning e promuovere l'innovazione. Garantisce che i dati rimangano un asset prezioso piuttosto che una potenziale responsabilità.

L'osservabilità dei dati deve essere integrata in modo coerente durante l'intero ciclo di vita dei dati end-to-end. In questo modo, tutte le attività di gestione dei dati coinvolte vengono standardizzate e centralizzate tra i team per una visione chiara e ininterrotta dei problemi e degli impatti all'interno dell'organizzazione.

L'osservabilità dei dati è la naturale evoluzione del movimento per la qualità dei dati, che sta rendendo possibile la pratica delle operazioni sui dati (DataOps).

Il data store per l'AI

Scopri la potenza dell’integrazione di una strategia data lakehouse nella tua architettura dei dati, compresi i miglioramenti per scalare l’AI e le opportunità di ottimizzazione dei costi.

Perché l'osservabilità dei dati è importante

Semplicemente, la maggior parte delle organizzazioni ritiene che i propri dati siano inaffidabili:

L'82% afferma che i problemi di qualità dei dati sono una barriera ai progetti di integrazione dei dati¹
L'80% dei dirigenti non si affida ai propri dati²

L'impatto dei dati errati non può essere sottovalutato. Nel maggio 2022, Unity Software ha scoperto di aver inserito dati errati provenienti da un grande cliente, il che ha portato a un calo del 30% delle azioni della società³ e alla fine è costato all'azienda 110 milioni di dollari in mancati ricavi⁴.

Tradizionalmente, è stato difficile identificare i dati errati fino a quando non è troppo tardi. A differenza di quando un'applicazione va in tilt e ciò si ripercuote immediatamente su migliaia di utenti, le aziende possono operare su dati errati inconsapevolmente per diverso tempo. Ad esempio, un team di vendita saprebbe immediatamente se una dashboard di Salesforce non si sta caricando, ma non si può dire quanto tempo impiegherebbe per capire che una dashboard mostra dati errati.

L'osservabilità dei dati è la migliore difesa contro il passaggio di dati errati. Monitora le pipeline di dati per garantire una consegna completa, accurata e tempestiva dei dati, in modo che i team di dati possano prevenire i tempi di inattività dei dati, soddisfare gli SLA dei dati e mantenere la fiducia dell'azienda nei dati che vede.

L'evoluzione dell'osservabilità dei dati

I moderni sistemi di dati offrono un'ampia varietà di funzionalità, consentendo agli utenti di memorizzare e interrogare i propri dati in molti modi diversi. Naturalmente più funzionalità vengono aggiunte, più complicato diventa garantire che il sistema funzioni correttamente. Questa complicanza include:

Più fonti di dati esterne

In passato, l'infrastruttura dei dati veniva costruita per gestire piccole quantità di dati, solitamente dati operativi provenienti da poche fonti di dati interne, e i dati non erano destinati a cambiare molto. Ora, molti prodotti di dati si basano su dati provenienti da fonti interne ed esterne e il volume e la velocità con cui vengono raccolti possono causare deviazioni impreviste, modifiche allo schema, trasformazioni e ritardi.

Trasformazioni più complicate

Una maggiore quantità di dati acquisiti da fonti di dati esterne significa che è necessario trasformare, strutturare e aggregare tutti i dati in tutti gli altri formati per renderli tutti utilizzabili. Ancora peggio, se questi formati cambiano del tutto, si verifica un effetto domino di errori a valle poiché la logica strettamente codificata non riesce ad adattarsi al nuovo schema.

Troppa attenzione all'ingegneria degli analytics

Le pipeline di inserimento complesse hanno creato un mercato di strumenti per semplificare questo processo end-to-end, automatizzando soprattutto i processi di inserimento ed ETL (Extract, Transform, Load)/ELT (Extract, Load, Transform). Combinandoli insieme, si ottiene una piattaforma di dati che il settore degli analytics ha soprannominato "modern data stack" o MDS. L'obiettivo dell'MDS è quello di ridurre il tempo necessario per rendere i dati utilizzabili dagli utenti finali (tipicamente gli analisti), in modo che possano iniziare a sfruttarli più rapidamente. Tuttavia, maggiore è l'automazione, minore è il controllo sulle modalità di consegna dei dati. Queste organizzazioni hanno bisogno di creare pipeline di dati personalizzate per poter garantire meglio che i dati vengano forniti come previsto.

Osservabilità dei dati e movimento DataOps

Le operazioni sui dati (DataOps) sono un workflow che consente una delivery pipeline e un ciclo di feedback agili in modo che le aziende possano creare e gestire i propri prodotti in modo più efficiente. DataOps consente alle aziende di utilizzare gli stessi strumenti e strategie in tutte le fasi dei propri progetti di analytics, dalla prototipazione alla distribuzione del prodotto.

Il ciclo DataOps delinea le attività fondamentali necessarie per migliorare la gestione dei dati all'interno del workflow DataOps. Questo ciclo è costituito da tre fasi distinte: rilevamento, consapevolezza e iterazione.

Rilevamento

È importante che questo ciclo inizi con il rilevamento, perché il fondamento del movimento DataOps si basa su un'iniziativa di qualità dei dati.

Questa prima fase del ciclo DataOps è incentrata sulla convalida. Si tratta degli stessi controlli di qualità dei dati che sono stati utilizzati sin dall'inizio del data warehouse. Esaminano lo schema delle colonne e le convalide a livello di riga. In sostanza, ci si assicura che tutti i set di dati rispettino le business rules nel proprio sistema dati.

Questo framework di qualità dei dati che vive nella fase di rilevamento è importante ma reazionario per sua stessa natura. Offre la possibilità di sapere se i dati già memorizzati nel data lake o data warehouse (e probabilmente già in uso) sono nella forma prevista.

È anche importante notare che si stanno convalidando set di dati e seguendo business rules che si conoscono. Se non si conoscono le cause dei problemi, non è possibile stabilire nuove business rules da seguire per i tecnici. Questa realizzazione alimenta la richiesta di un approccio continuo all'osservabilità dei dati che si collega direttamente a tutte le fasi del ciclo di vita dei dati, a partire dai dati di origine.

Consapevolezza

La consapevolezza è una fase incentrata sulla visibilità della fase DataOps. È qui che entra in gioco la conversazione sulla governance dei dati e viene introdotto un approccio incentrato sui metadati. La centralizzazione e la standardizzazione dei metadati delle pipeline e dei set di dati nell'ecosistema di dati offre ai team visibilità sui problemi all'interno dell'intera organizzazione.

La centralizzazione dei metadati è fondamentale per fornire all'organizzazione consapevolezza dell'integrità end-to-end dei propri dati. Ciò consente di passare a un approccio più proattivo alla risoluzione dei problemi relativi ai dati. Se ci sono dati errati che entrano nel proprio "dominio", è possibile rintracciare l'errore in un certo punto a monte del sistema di dati. Ad esempio, il team di ingegneria dei dati A può ora esaminare le pipeline del team di ingegneria dei dati B ed essere in grado di capire cosa sta succedendo e collaborare con loro per correggere il problema.

Vale anche il contrario. Il team di ingegneria dei dati B è in grado di rilevare un problema e di tenere traccia dell'impatto che avrà sulle dipendenze a valle. Ciò significa che il team di ingegneria dei dati A saprà che si verificherà un problema e potrà adottare le misure necessarie per contenerlo.

Iterazione

In questo caso, i team si concentrano sui dati come codice. Questa fase del ciclo è incentrata sul processo. I team si assicurano di avere standard ripetibili e sostenibili che verranno applicati a tutti gli sviluppi di dati per garantire che ottengano gli stessi dati affidabili alla fine di tali pipeline.

Il graduale miglioramento dello stato di integrità generale della piattaforma dati è ora reso possibile dal rilevamento dei problemi, dalla consapevolezza delle cause principali a monte e dall'efficienza dei processi di iterazione.

Benefici dell'osservabilità dei dati

Una strategia di osservabilità dei dati ben eseguita può offrire una serie di benefici che contribuiscono a migliorare la qualità dei dati, il processo decisionale, l'affidabilità e le prestazioni complessive dell'organizzazione. Tra questi ci sono:

Qualità dei dati superiore

L'osservabilità dei dati consente ai team di rilevare problemi quali valori mancanti, record duplicati o formati incoerenti prima che influiscano sulle dipendenze a valle. Con dati di qualità superiore, le organizzazioni sono in grado di prendere decisioni migliori e basate sui dati che portano a un miglioramento delle operazioni, della soddisfazione dei clienti e delle prestazioni complessive.

Risoluzione dei problemi più rapida

L'osservabilità dei dati consente ai team di identificare rapidamente errori o deviazioni nei dati attraverso il rilevamento di anomalie, il monitoraggio in tempo reale e gli avvisi. Una risoluzione più rapida dei problemi aiuta a ridurre al minimo i costi e la gravità dei tempi di inattività.

Migliora la collaborazione

Utilizzando dashboard condivise offerte dalle piattaforme di osservabilità dei dati, vari stakeholder possono ottenere visibilità sullo stato dei set di dati critici, il che può favorire una migliore collaborazione tra i team.

Maggiore efficienza

Gli strumenti di osservabilità dei dati aiutano a individuare i colli di bottiglia e i problemi di prestazioni, consentendo agli ingegneri di ottimizzare i propri sistemi per un migliore utilizzo delle risorse e tempi di elaborazione più rapidi. Inoltre, l'automazione riduce il tempo e gli sforzi necessari per mantenere l'integrità dei dati, consentendo a data engineer, analisti e data scientist di concentrare i propri sforzi sulla trarre valore dai dati.

Conformità migliorata

L'osservabilità dei dati può aiutare le organizzazioni in settori altamente regolamentati come la finanza, l'assistenza sanitaria e le telecomunicazioni a garantire che i dati soddisfino gli standard necessari per l'accuratezza, la coerenza e la sicurezza. Ciò riduce il rischio di non conformità e le relative sanzioni.

Esperienza del cliente migliore

I dati di alta qualità sono essenziali per comprendere le esigenze, le preferenze e i comportamenti dei clienti, che, a loro volta, consentono alle organizzazioni di offrire esperienze più personalizzate e pertinenti. L'osservabilità dei dati può aiutare le organizzazioni a mantenere dati accurati e aggiornati sui clienti, migliorando la soddisfazione e la fidelizzazione dei clienti.

Aumento del fatturato

Migliorando la qualità dei dati attraverso l'osservabilità, le organizzazioni possono sbloccare nuovi insight, identificare le tendenze e scoprire potenziali opportunità di generazione di entrate. Sfruttando al meglio i propri asset di dati, le organizzazioni possono aumentare i ricavi e la crescita.

I 5 pilastri dell'osservabilità dei dati

Insieme, i cinque pilastri dell'osservabilità dei dati offrono preziosi insight sulla qualità e l'affidabilità dei dati.

1. Freschezza

La freschezza descrive quanto sono aggiornati i tuoi dati e con quale frequenza vengono aggiornati. L'obsolescenza dei dati si verifica quando vi sono importanti intervalli di tempo in cui i dati non sono stati aggiornati. Spesso, quando le pipeline di dati si interrompono, è a causa di un problema di freschezza.

2. Distribuzione

Indicatore dell'integrità a livello di campo dei dati, la distribuzione si riferisce al fatto che i dati rientrino o meno in un intervallo accettato. Le deviazioni dalla distribuzione prevista potrebbero indicare problemi di qualità dei dati, errori o modifiche nelle origini dati sottostanti.

3. Volume

Il volume si riferisce alla quantità di dati generati, inseriti, trasformati e spostati attraverso vari processi e pipeline. Si riferisce anche alla completezza delle tabelle di dati. Il volume è un indicatore chiave per stabilire se l'acquisizione di dati soddisfa o meno le soglie previste.

4. Schema

Schema descrive l'organizzazione dei dati. Le modifiche dello schema spesso comportano l'interruzione dei dati. L'osservabilità dei dati aiuta a garantire che i dati siano organizzati in modo coerente, siano compatibili tra sistemi diversi e ne mantengano l'integrità durante tutto il loro ciclo di vita.

5. Lineage

Lo scopo del data lineage è rispondere alla domanda "Dove?" in caso di interruzione dei dati. Esamina i dati dalla loro origine fino alla posizione finale e rileva eventuali modifiche, incluso cosa è cambiato, perché è cambiato e come è cambiato lungo il percorso. Il data lineage è spesso rappresentato visivamente.

Osservabilità dei dati e qualità dei dati

L'osservabilità dei dati supporta la qualità dei dati, ma i due sono aspetti diversi della gestione dei dati.

Le pratiche di osservabilità dei dati possono evidenziare problemi di qualità nei set di dati, ma non possono garantire da sole una buona qualità dei dati. Ciò richiede sforzi per correggere i problemi dei dati e per evitare che si verifichino in primo luogo. D'altra parte, un'organizzazione può avere una forte qualità dei dati anche se non implementa un'iniziativa di osservabilità dei dati.

Il monitoraggio della qualità dei dati misura se la condizione dei set di dati è sufficiente per gli usi previsti nelle applicazioni operative e di analytics. Per effettuare tale determinazione, i dati vengono esaminati in base a varie dimensioni di qualità, quali accuratezza, completezza, coerenza, validità, affidabilità e tempestività.

Osservabilità dei dati e governance dei dati

L'osservabilità dei dati e la governance dei dati sono processi complementari che si supportano a vicenda.

La governance dei dati mira a garantire che i dati di un'organizzazione siano disponibili, utilizzabili, coerenti e sicuri e che siano utilizzati in conformità con gli standard e le politiche interne. I programmi di governance spesso incorporano o sono strettamente legati agli sforzi di miglioramento della qualità dei dati.

Un solido programma di governance dei dati aiuta a eliminare i silo di dati, i problemi di integrazione dei dati e la scarsa qualità dei dati in grado di limitare il valore delle pratiche di osservabilità dei dati.

L'osservabilità dei dati può aiutare il programma di governance monitorando i cambiamenti nella qualità dei dati, nella loro disponibilità e nel data lineage.

La gerarchia dell'osservabilità dei dati

L'osservabilità dei dati non è tutta uguale. Il livello di contesto che è possibile ottenere dipende dai metadati che è possibile raccogliere e su cui fornire visibilità. Questa è nota come gerarchia di osservabilità dei dati. Ogni livello costituisce la base per quello successivo e consente di ottenere granelli di osservabilità sempre più fini.

Monitoraggio dell'integrità operativa, i dati inattivi e in movimento

Ottenere visibilità sull'integrità operativa e del set di dati è una solida base per qualsiasi framework di osservabilità dei dati.

Dati inattivi

Il monitoraggio dello stato di integrità del set di dati si riferisce al monitoraggio completo di quest'ultimo. La consapevolezza dello stato dei dati si acquisisce mentre si trovano in una posizione fissa, ovvero quando si parla di "dati inattivi".

Il monitoraggio dei set di dati risponde a domande come:

Questo set di dati è arrivato in tempo?
Questo set di dati viene aggiornato con la frequenza necessaria?
Il volume previsto di dati è disponibile in questo set di dati?

Dati in movimento

Il monitoraggio operativo si riferisce al monitoraggio dello stato delle pipeline. Questo tipo di monitoraggio consente di conoscere lo stato dei dati durante la trasformazione e il passaggio attraverso le pipeline. Quando i dati sono in questo stato si parla di "dati in movimento".

Il monitoraggio delle pipeline risponde a domande come:

In che modo le prestazioni delle pipeline influiscono sulla qualità del set di dati?
In quali condizioni un'esecuzione è considerata riuscita?
Quali operazioni stanno trasformando il set di dati prima che raggiunga il data lake o data warehouse?

Sebbene il monitoraggio dei set di dati e delle pipeline di dati siano solitamente separati in due attività diverse, è essenziale mantenerli uniti per ottenere una solida base di osservabilità. Questi due stati sono altamente interconnessi e dipendono l'uno dall'altro. La separazione di queste due attività in strumenti o team diversi rende più difficile ottenere una visione di alto livello dell'integrità dei dati.

Profilazione a livello di colonna

La profilazione a livello di colonna è fondamentale per questa gerarchia. Una volta gettata una solida base, la profilazione a livello di colonna fornisce gli insight necessari per stabilire nuove business rules per l'organizzazione e applicare quelle esistenti a livello di colonna, anziché solo a livello di riga.

Questo livello di consapevolezza consente di migliorare il proprio framework di qualità dei dati in un modo molto attuabile.

Permette di rispondere a domande come:

Qual è l'intervallo previsto per una colonna?
Qual è lo schema previsto di questa colonna?
Quanto è unica questa colonna?

Convalida a livello di riga

Da qui è possibile passare al livello finale di osservabilità: la convalida a livello di riga. Essa esamina i valori dei dati in ogni riga e ne convalida l'accuratezza.

Questo tipo di osservabilità esamina domande come:

I valori dei dati in ogni riga sono nel formato previsto?
I valori dei dati hanno la lunghezza esatta prevista?
Dato il contesto, ci sono abbastanza informazioni per essere utili all'utente finale?

Quando le organizzazioni hanno una visione a tunnel sulla convalida a livello di riga, diventa difficile vedere il quadro complessivo. Creando un framework di osservabilità a partire dal monitoraggio operativo e dei set di dati, è possibile ottenere un contesto generale sullo stato dei dati, concentrandosi al contempo sulla causa principale dei problemi e sui loro impatti a valle.

Implementazione di un framework di osservabilità dei dati

Di seguito sono riportati i passaggi principali tipicamente coinvolti nella creazione di una pipeline di osservabilità di successo. Il processo prevede l'integrazione di vari strumenti e tecnologie, nonché la collaborazione di diversi team all'interno di un'organizzazione.

Definizione delle metriche chiave: inizia identificando le metriche critiche che devi monitorare. Ciò potrebbe includere metriche di qualità dei dati, volumi di dati, latenza, tassi di errore e utilizzo delle risorse. La scelta delle metriche dipenderà dalle specifiche esigenze aziendali e dalla natura della pipeline di dati.
Scelta degli strumenti appropriati: scegli quindi gli strumenti necessari per la raccolta, lo storage, l'analisi e gli avvisi dei dati. Assicurati che gli strumenti scelti, compresi quelli open-source, siano compatibili con l'infrastruttura esistente e in grado di gestire la scala delle tue operazioni.
Standardizzazione delle librerie: crea un'infrastruttura che consenta ai team di parlare la stessa lingua e comunicare apertamente sui problemi. Ciò include librerie standardizzate per la gestione dei dati e delle API (ad esempio, interrogazione del data warehouse, lettura/scrittura dal data lake, estrazione di dati dalle API, ecc.) e la qualità dei dati.
Strumentazione della pipeline di dati: la strumentazione implica l'integrazione di librerie o agenti di raccolta dati nella tua pipeline di dati. Ciò ti consente di raccogliere le metriche definite da varie fasi della pipeline. L'obiettivo è ottenere una visibilità completa, quindi è fondamentale garantire che ogni fase cruciale sia strumentata.
Configurazione di una soluzione di data storage: le metriche raccolte devono essere memorizzate in un database o in una piattaforma di serie temporali in grado di scalare man mano che i dati crescono. Assicurati che la soluzione di storage scelta sia in grado di gestire il volume e la velocità dei tuoi dati.
Implementazione degli strumenti di analisi dei dati: questi strumenti aiutano a ricavare insight dalle metriche memorizzate. Per un'analisi più approfondita, si consiglia di utilizzare strumenti che forniscano visualizzazioni intuitive e supportino query complesse.
Configurazione di avvisi e notifiche: stabilisci un sistema per l'invio di avvisi automatici in caso di superamento di soglie predefinite o di rilevamento di anomalie. Questo aiuterà il tuo team a rispondere tempestivamente ai problemi, riducendo al minimo i tempi di inattività potenziali.
Integrazione con le piattaforme di gestione degli incidenti: oltre a rilevare i problemi, l'osservabilità comporta anche l'efficace gestione dei problemi. L'integrazione della pipeline di osservabilità con un sistema di gestione degli incidenti può aiutare a semplificare i workflow delle risposte.
Revisione e aggiornamento regolari della pipeline di osservabilità: con l'evolversi dell'azienda, si evolvono anche i dati e i requisiti. La revisione e l'aggiornamento regolari della pipeline di osservabilità assicurano che essa continui a fornire gli insight e le prestazioni necessari.

La creazione di una pipeline di osservabilità è un processo continuo di apprendimento e perfezionamento. È fondamentale iniziare in piccolo, imparare dall'esperienza ed espandere in modo incrementale le proprie funzionalità di osservabilità.

Soluzioni correlate

IBM Databand

IBM Databand è un software di osservabilità per pipeline di dati e warehouse che raccoglie automaticamente i metadati per creare linee di base cronologiche, rilevare anomalie e valutare gli avvisi per correggere i problemi di qualità dei dati.

Esplora Databand

IBM DataStage

Supportando i modelli ETL ed ELT, IBM DataStage offre un'integrazione dati flessibile e quasi in tempo reale, sia on-premise che nel cloud.

Esplora DataStage

IBM Knowledge Catalog

Catalogo intelligente di dati per l'era dell'AI, IBM Knowledge Catalog ti consente di accedere, rendere accurati, categorizzare e condividere i dati, gli asset di conoscenza e le loro relazioni, ovunque si trovino.

Esplora il catalogo conoscenze

Risorse

Scopri i vantaggi dell’osservabilità dei dati e come si integra in un’architettura dati come data fabric.

Guida completa alla data ingestion: tipi, processi e best practice

Leggi questa guida e scopri esattamente cos’è la data ingestion, perché è importante, i diversi tipi di data ingestion e alcune best practice per una data ingestion efficace.

Cos'è l'ELT (Extract, Load, Transform)? Guida per principianti

Scopri che cos’è l’ELT, come funziona il processo, in che modo è diverso dall’ETL, le sue sfide e i suoi limiti e le best practice per l’implementazione delle pipeline ELT.

Fai il passo successivo

Implementa oggi stesso l'osservabilità proattiva dei dati con IBM Databand, in modo da individuare un problema di integrità dei dati prima che lo facciano i tuoi utenti.

Esplora Databand

Prenota una demo live

Note a piè di pagina

¹ Data Integrity Trends: Chief Data Officer Perspectives in 2021 (link esterno a ibm.com), Precisely, giugno 2021

² The data powered enterprise: Why organizations must strengthen their data mastery (link esterno a ibm.com), Capgemini, febbraio 2021

³ Unity Software's stock plunges nearly 30% on weak revenue guidance (link esterno a ibm.com), MarketWatch, 10 maggio 2022

⁴ 2 Reasons Unity Software's Virtual World is Facing a Stark Reality (link esterno a ibm.com), The Motley Fool, 17 luglio 2022