L'osservabilità dei dati si riferisce alla pratica di monitorare, gestire e mantenere i dati per garantirne la qualità, la disponibilità e l'affidabilità nei vari processi, sistemi e pipeline all'interno di un'organizzazione.
L'osservabilità dei dati consiste nel comprendere veramente l'integrità dei dati e il loro stato in tutto l'ecosistema di dati. Comprende una serie di attività che vanno oltre il monitoraggio tradizionale, che descrive solo un problema. L'osservabilità dei dati può aiutare a identificare e risolvere i problemi relativi ai dati quasi in tempo reale.
L'utilizzo di strumenti di osservabilità dei dati è essenziale per anticipare i problemi relativi ai dati errati, che sono alla base dell'affidabilità dei dati. Questi strumenti consentono il monitoraggio automatizzato, l'assegnazione di priorità degli avvisi, il tracciamento, i confronti, l'analisi delle cause principali, la registrazione, il data lineage e il monitoraggio degli SLA (Service Level Agreement), tutti i quali collaborano per aiutare i professionisti a comprendere la qualità dei dati end-to-end, compresa l'affidabilità dei dati.
L'implementazione di una soluzione di osservabilità dei dati è particolarmente importante per i team di dati moderni, dove i dati vengono utilizzati per ottenere insight, sviluppare modelli di machine learning e promuovere l'innovazione. Garantisce che i dati rimangano un asset prezioso piuttosto che una potenziale responsabilità.
L'osservabilità dei dati deve essere integrata in modo coerente durante l'intero ciclo di vita dei dati end-to-end. In questo modo, tutte le attività di gestione dei dati coinvolte vengono standardizzate e centralizzate tra i team per una visione chiara e ininterrotta dei problemi e degli impatti all'interno dell'organizzazione.
L'osservabilità dei dati è la naturale evoluzione del movimento per la qualità dei dati, che sta rendendo possibile la pratica delle operazioni sui dati (DataOps).
Scopri la potenza dell'integrazione di una strategia data lakehouse nella tua architettura dei dati, compresi i miglioramenti per scalare l'AI e le opportunità di ottimizzazione dei costi.
Semplicemente, la maggior parte delle organizzazioni ritiene che i propri dati siano inaffidabili:
L'impatto dei dati errati non può essere sottovalutato. Nel maggio 2022, Unity Software ha scoperto di aver inserito dati errati provenienti da un grande cliente, il che ha portato a un calo del 30% delle azioni della società3 e alla fine è costato all'azienda 110 milioni di dollari in mancati ricavi4.
Tradizionalmente, è stato difficile identificare i dati errati fino a quando non è troppo tardi. A differenza di quando un'applicazione va in tilt e ciò si ripercuote immediatamente su migliaia di utenti, le aziende possono operare su dati errati inconsapevolmente per diverso tempo. Ad esempio, un team di vendita saprebbe immediatamente se una dashboard di Salesforce non si sta caricando, ma non si può dire quanto tempo impiegherebbe per capire che una dashboard mostra dati errati.
L'osservabilità dei dati è la migliore difesa contro il passaggio di dati errati. Monitora le pipeline di dati per garantire una consegna completa, accurata e tempestiva dei dati, in modo che i team di dati possano prevenire i tempi di inattività dei dati, soddisfare gli SLA dei dati e mantenere la fiducia dell'azienda nei dati che vede.
I moderni sistemi di dati offrono un'ampia varietà di funzionalità, consentendo agli utenti di memorizzare e interrogare i propri dati in molti modi diversi. Naturalmente più funzionalità vengono aggiunte, più complicato diventa garantire che il sistema funzioni correttamente. Questa complicanza include:
Più fonti di dati esterne
In passato, l'infrastruttura dei dati veniva costruita per gestire piccole quantità di dati, solitamente dati operativi provenienti da poche fonti di dati interne, e i dati non erano destinati a cambiare molto. Ora, molti prodotti di dati si basano su dati provenienti da fonti interne ed esterne e il volume e la velocità con cui vengono raccolti possono causare deviazioni impreviste, modifiche allo schema, trasformazioni e ritardi.
Trasformazioni più complicate
Una maggiore quantità di dati acquisiti da fonti di dati esterne significa che è necessario trasformare, strutturare e aggregare tutti i dati in tutti gli altri formati per renderli tutti utilizzabili. Ancora peggio, se questi formati cambiano del tutto, si verifica un effetto domino di errori a valle poiché la logica strettamente codificata non riesce ad adattarsi al nuovo schema.
Troppa attenzione all'ingegneria degli analytics
Le pipeline di inserimento complesse hanno creato un mercato di strumenti per semplificare questo processo end-to-end, automatizzando soprattutto i processi di inserimento ed ETL (Extract, Transform, Load)/ELT (Extract, Load, Transform). Combinandoli insieme, si ottiene una piattaforma di dati che il settore degli analytics ha soprannominato "modern data stack" o MDS. L'obiettivo dell'MDS è quello di ridurre il tempo necessario per rendere i dati utilizzabili dagli utenti finali (tipicamente gli analisti), in modo che possano iniziare a sfruttarli più rapidamente. Tuttavia, maggiore è l'automazione, minore è il controllo sulle modalità di consegna dei dati. Queste organizzazioni hanno bisogno di creare pipeline di dati personalizzate per poter garantire meglio che i dati vengano forniti come previsto.
Le operazioni sui dati (DataOps) sono un workflow che consente una delivery pipeline e un ciclo di feedback agili in modo che le aziende possano creare e gestire i propri prodotti in modo più efficiente. DataOps consente alle aziende di utilizzare gli stessi strumenti e strategie in tutte le fasi dei propri progetti di analytics, dalla prototipazione alla distribuzione del prodotto.
Il ciclo DataOps delinea le attività fondamentali necessarie per migliorare la gestione dei dati all'interno del workflow DataOps. Questo ciclo è costituito da tre fasi distinte: rilevamento, consapevolezza e iterazione.
Rilevamento
È importante che questo ciclo inizi con il rilevamento, perché il fondamento del movimento DataOps si basa su un'iniziativa di qualità dei dati.
Questa prima fase del ciclo DataOps è incentrata sulla convalida. Si tratta degli stessi controlli di qualità dei dati che sono stati utilizzati sin dall'inizio del data warehouse. Esaminano lo schema delle colonne e le convalide a livello di riga. In sostanza, ci si assicura che tutti i set di dati rispettino le business rules nel proprio sistema dati.
Questo framework di qualità dei dati che vive nella fase di rilevamento è importante ma reazionario per sua stessa natura. Offre la possibilità di sapere se i dati già memorizzati nel data lake o data warehouse (e probabilmente già in uso) sono nella forma prevista.
È anche importante notare che si stanno convalidando set di dati e seguendo business rules che si conoscono. Se non si conoscono le cause dei problemi, non è possibile stabilire nuove business rules da seguire per i tecnici. Questa realizzazione alimenta la richiesta di un approccio continuo all'osservabilità dei dati che si collega direttamente a tutte le fasi del ciclo di vita dei dati, a partire dai dati di origine.
Consapevolezza
La consapevolezza è una fase incentrata sulla visibilità della fase DataOps. È qui che entra in gioco la conversazione sulla governance dei dati e viene introdotto un approccio incentrato sui metadati. La centralizzazione e la standardizzazione dei metadati delle pipeline e dei set di dati nell'ecosistema di dati offre ai team visibilità sui problemi all'interno dell'intera organizzazione.
La centralizzazione dei metadati è fondamentale per fornire all'organizzazione consapevolezza dell'integrità end-to-end dei propri dati. Ciò consente di passare a un approccio più proattivo alla risoluzione dei problemi relativi ai dati. Se ci sono dati errati che entrano nel proprio "dominio", è possibile rintracciare l'errore in un certo punto a monte del sistema di dati. Ad esempio, il team di ingegneria dei dati A può ora esaminare le pipeline del team di ingegneria dei dati B ed essere in grado di capire cosa sta succedendo e collaborare con loro per correggere il problema.
Vale anche il contrario. Il team di ingegneria dei dati B è in grado di rilevare un problema e di tenere traccia dell'impatto che avrà sulle dipendenze a valle. Ciò significa che il team di ingegneria dei dati A saprà che si verificherà un problema e potrà adottare le misure necessarie per contenerlo.
Iterazione
In questo caso, i team si concentrano sui dati come codice. Questa fase del ciclo è incentrata sul processo. I team si assicurano di avere standard ripetibili e sostenibili che verranno applicati a tutti gli sviluppi di dati per garantire che ottengano gli stessi dati affidabili alla fine di tali pipeline.
Il graduale miglioramento dello stato di integrità generale della piattaforma dati è ora reso possibile dal rilevamento dei problemi, dalla consapevolezza delle cause principali a monte e dall'efficienza dei processi di iterazione.
Una strategia di osservabilità dei dati ben eseguita può offrire una serie di benefici che contribuiscono a migliorare la qualità dei dati, il processo decisionale, l'affidabilità e le prestazioni complessive dell'organizzazione. Tra questi ci sono:
L'osservabilità dei dati consente ai team di rilevare problemi quali valori mancanti, record duplicati o formati incoerenti prima che influiscano sulle dipendenze a valle. Con dati di qualità superiore, le organizzazioni sono in grado di prendere decisioni migliori e basate sui dati che portano a un miglioramento delle operazioni, della soddisfazione dei clienti e delle prestazioni complessive.
L'osservabilità dei dati consente ai team di identificare rapidamente errori o deviazioni nei dati attraverso il rilevamento di anomalie, il monitoraggio in tempo reale e gli avvisi. Una risoluzione più rapida dei problemi aiuta a ridurre al minimo i costi e la gravità dei tempi di inattività.
Utilizzando dashboard condivise offerte dalle piattaforme di osservabilità dei dati, vari stakeholder possono ottenere visibilità sullo stato dei set di dati critici, il che può favorire una migliore collaborazione tra i team.
Gli strumenti di osservabilità dei dati aiutano a individuare i colli di bottiglia e i problemi di prestazioni, consentendo agli ingegneri di ottimizzare i propri sistemi per un migliore utilizzo delle risorse e tempi di elaborazione più rapidi. Inoltre, l'automazione riduce il tempo e gli sforzi necessari per mantenere l'integrità dei dati, consentendo a data engineer, analisti e data scientist di concentrare i propri sforzi sulla trarre valore dai dati.
L'osservabilità dei dati può aiutare le organizzazioni in settori altamente regolamentati come la finanza, l'assistenza sanitaria e le telecomunicazioni a garantire che i dati soddisfino gli standard necessari per l'accuratezza, la coerenza e la sicurezza. Ciò riduce il rischio di non conformità e le relative sanzioni.
I dati di alta qualità sono essenziali per comprendere le esigenze, le preferenze e i comportamenti dei clienti, che, a loro volta, consentono alle organizzazioni di offrire esperienze più personalizzate e pertinenti. L'osservabilità dei dati può aiutare le organizzazioni a mantenere dati accurati e aggiornati sui clienti, migliorando la soddisfazione e la fidelizzazione dei clienti.
Migliorando la qualità dei dati attraverso l'osservabilità, le organizzazioni possono sbloccare nuovi insight, identificare le tendenze e scoprire potenziali opportunità di generazione di entrate. Sfruttando al meglio i propri asset di dati, le organizzazioni possono aumentare i ricavi e la crescita.
Insieme, i cinque pilastri dell'osservabilità dei dati offrono preziosi insight sulla qualità e l'affidabilità dei dati.
1. Freschezza
La freschezza descrive quanto sono aggiornati i tuoi dati e con quale frequenza vengono aggiornati. L'obsolescenza dei dati si verifica quando vi sono importanti intervalli di tempo in cui i dati non sono stati aggiornati. Spesso, quando le pipeline di dati si interrompono, è a causa di un problema di freschezza.
2. Distribuzione
Indicatore dell'integrità a livello di campo dei dati, la distribuzione si riferisce al fatto che i dati rientrino o meno in un intervallo accettato. Le deviazioni dalla distribuzione prevista potrebbero indicare problemi di qualità dei dati, errori o modifiche nelle origini dati sottostanti.
3. Volume
Il volume si riferisce alla quantità di dati generati, inseriti, trasformati e spostati attraverso vari processi e pipeline. Si riferisce anche alla completezza delle tabelle di dati. Il volume è un indicatore chiave per stabilire se l'acquisizione di dati soddisfa o meno le soglie previste.
4. Schema
Schema descrive l'organizzazione dei dati. Le modifiche dello schema spesso comportano l'interruzione dei dati. L'osservabilità dei dati aiuta a garantire che i dati siano organizzati in modo coerente, siano compatibili tra sistemi diversi e ne mantengano l'integrità durante tutto il loro ciclo di vita.
5. Lineage
Lo scopo del data lineage è rispondere alla domanda "Dove?" in caso di interruzione dei dati. Esamina i dati dalla loro origine fino alla posizione finale e rileva eventuali modifiche, incluso cosa è cambiato, perché è cambiato e come è cambiato lungo il percorso. Il data lineage è spesso rappresentato visivamente.
L'osservabilità dei dati supporta la qualità dei dati, ma i due sono aspetti diversi della gestione dei dati.
Le pratiche di osservabilità dei dati possono evidenziare problemi di qualità nei set di dati, ma non possono garantire da sole una buona qualità dei dati. Ciò richiede sforzi per correggere i problemi dei dati e per evitare che si verifichino in primo luogo. D'altra parte, un'organizzazione può avere una forte qualità dei dati anche se non implementa un'iniziativa di osservabilità dei dati.
Il monitoraggio della qualità dei dati misura se la condizione dei set di dati è sufficiente per gli usi previsti nelle applicazioni operative e di analytics. Per effettuare tale determinazione, i dati vengono esaminati in base a varie dimensioni di qualità, quali accuratezza, completezza, coerenza, validità, affidabilità e tempestività.
L'osservabilità dei dati e la governance dei dati sono processi complementari che si supportano a vicenda.
La governance dei dati mira a garantire che i dati di un'organizzazione siano disponibili, utilizzabili, coerenti e sicuri e che siano utilizzati in conformità con gli standard e le politiche interne. I programmi di governance spesso incorporano o sono strettamente legati agli sforzi di miglioramento della qualità dei dati.
Un solido programma di governance dei dati aiuta a eliminare i silo di dati, i problemi di integrazione dei dati e la scarsa qualità dei dati in grado di limitare il valore delle pratiche di osservabilità dei dati.
L'osservabilità dei dati può aiutare il programma di governance monitorando i cambiamenti nella qualità dei dati, nella loro disponibilità e nel data lineage.
L'osservabilità dei dati non è tutta uguale. Il livello di contesto che è possibile ottenere dipende dai metadati che è possibile raccogliere e su cui fornire visibilità. Questa è nota come gerarchia di osservabilità dei dati. Ogni livello costituisce la base per quello successivo e consente di ottenere granelli di osservabilità sempre più fini.
Ottenere visibilità sull'integrità operativa e del set di dati è una solida base per qualsiasi framework di osservabilità dei dati.
Dati inattivi
Il monitoraggio dello stato di integrità del set di dati si riferisce al monitoraggio completo di quest'ultimo. La consapevolezza dello stato dei dati si acquisisce mentre si trovano in una posizione fissa, ovvero quando si parla di "dati inattivi".
Il monitoraggio dei set di dati risponde a domande come:
Dati in movimento
Il monitoraggio operativo si riferisce al monitoraggio dello stato delle pipeline. Questo tipo di monitoraggio consente di conoscere lo stato dei dati durante la trasformazione e il passaggio attraverso le pipeline. Quando i dati sono in questo stato si parla di "dati in movimento".
Il monitoraggio delle pipeline risponde a domande come:
Sebbene il monitoraggio dei set di dati e delle pipeline di dati siano solitamente separati in due attività diverse, è essenziale mantenerli uniti per ottenere una solida base di osservabilità. Questi due stati sono altamente interconnessi e dipendono l'uno dall'altro. La separazione di queste due attività in strumenti o team diversi rende più difficile ottenere una visione di alto livello dell'integrità dei dati.
La profilazione a livello di colonna è fondamentale per questa gerarchia. Una volta gettata una solida base, la profilazione a livello di colonna fornisce gli insight necessari per stabilire nuove business rules per l'organizzazione e applicare quelle esistenti a livello di colonna, anziché solo a livello di riga.
Questo livello di consapevolezza consente di migliorare il proprio framework di qualità dei dati in un modo molto attuabile.
Permette di rispondere a domande come:
Da qui è possibile passare al livello finale di osservabilità: la convalida a livello di riga. Essa esamina i valori dei dati in ogni riga e ne convalida l'accuratezza.
Questo tipo di osservabilità esamina domande come:
Quando le organizzazioni hanno una visione a tunnel sulla convalida a livello di riga, diventa difficile vedere il quadro complessivo. Creando un framework di osservabilità a partire dal monitoraggio operativo e dei set di dati, è possibile ottenere un contesto generale sullo stato dei dati, concentrandosi al contempo sulla causa principale dei problemi e sui loro impatti a valle.
Di seguito sono riportati i passaggi principali tipicamente coinvolti nella creazione di una pipeline di osservabilità di successo. Il processo prevede l'integrazione di vari strumenti e tecnologie, nonché la collaborazione di diversi team all'interno di un'organizzazione.
La creazione di una pipeline di osservabilità è un processo continuo di apprendimento e perfezionamento. È fondamentale iniziare in piccolo, imparare dall'esperienza ed espandere in modo incrementale le proprie funzionalità di osservabilità.
IBM Databand è un software di osservabilità per pipeline di dati e warehouse che raccoglie automaticamente i metadati per creare linee di base cronologiche, rilevare anomalie e valutare gli avvisi per correggere i problemi di qualità dei dati.
Supportando i modelli ETL ed ELT, IBM DataStage offre un'integrazione dati flessibile e quasi in tempo reale, sia on-premise che nel cloud.
Catalogo intelligente di dati per l'era dell'AI, IBM Knowledge Catalog ti consente di accedere, rendere accurati, categorizzare e condividere i dati, gli asset di conoscenza e le loro relazioni, ovunque si trovino.
Scopri i vantaggi dell'osservabilità dei dati e come si integra in un'architettura dati come data fabric.
Leggi questa guida e scopri esattamente cos'è la data ingestion, perché è importante, i diversi tipi di data ingestion e alcune best practice per una data ingestion efficace.
Scopri che cos'è l'ELT, come funziona il processo, in che modo è diverso dall'ETL, le sue sfide e i suoi limiti e le best practice per l'implementazione delle pipeline ELT.
1 Data Integrity Trends: Chief Data Officer Perspectives in 2021 (link esterno a ibm.com), Precisely, giugno 2021
2 The data powered enterprise: Why organizations must strengthen their data mastery (link esterno a ibm.com), Capgemini, febbraio 2021
3 Unity Software's stock plunges nearly 30% on weak revenue guidance (link esterno a ibm.com), MarketWatch, 10 maggio 2022
4 2 Reasons Unity Software's Virtual World is Facing a Stark Reality (link esterno a ibm.com), The Motley Fool, 17 luglio 2022