Rilevamento
È importante che questo ciclo inizi con il rilevamento, perché il fondamento del movimento DataOps si basa su un'iniziativa di qualità dei dati.
Questa prima fase del ciclo DataOps è incentrata sulla convalida. Si tratta degli stessi controlli di qualità dei dati che sono stati utilizzati sin dall'inizio del data warehouse. Esaminano lo schema delle colonne e le convalide a livello di riga. In sostanza, ci si assicura che tutti i set di dati rispettino le business rules nel proprio sistema dati.
Questo framework di qualità dei dati che vive nella fase di rilevamento è importante ma reazionario per sua stessa natura. Offre la possibilità di sapere se i dati già memorizzati nel data lake o data warehouse (e probabilmente già in uso) sono nella forma prevista.
È anche importante notare che si stanno convalidando set di dati e seguendo business rules che si conoscono. Se non si conoscono le cause dei problemi, non è possibile stabilire nuove business rules da seguire per i tecnici. Questa realizzazione alimenta la richiesta di un approccio continuo all'osservabilità dei dati che si collega direttamente a tutte le fasi del ciclo di vita dei dati, a partire dai dati di origine.
Consapevolezza
La consapevolezza è una fase incentrata sulla visibilità della fase DataOps. È qui che entra in gioco la conversazione sulla governance dei dati e viene introdotto un approccio incentrato sui metadati. La centralizzazione e la standardizzazione dei metadati delle pipeline e dei set di dati nell'ecosistema di dati offre ai team visibilità sui problemi all'interno dell'intera organizzazione.
La centralizzazione dei metadati è fondamentale per fornire all'organizzazione consapevolezza dell'integrità end-to-end dei propri dati. Ciò consente di passare a un approccio più proattivo alla risoluzione dei problemi relativi ai dati. Se ci sono dati errati che entrano nel proprio "dominio", è possibile rintracciare l'errore in un certo punto a monte del sistema di dati. Ad esempio, il team di ingegneria dei dati A può ora esaminare le pipeline del team di ingegneria dei dati B ed essere in grado di capire cosa sta succedendo e collaborare con loro per correggere il problema.
Vale anche il contrario. Il team di ingegneria dei dati B è in grado di rilevare un problema e di tenere traccia dell'impatto che avrà sulle dipendenze a valle. Ciò significa che il team di ingegneria dei dati A saprà che si verificherà un problema e potrà adottare le misure necessarie per contenerlo.
Iterazione
In questo caso, i team si concentrano sui dati come codice. Questa fase del ciclo è incentrata sul processo. I team si assicurano di avere standard ripetibili e sostenibili che verranno applicati a tutti gli sviluppi di dati per garantire che ottengano gli stessi dati affidabili alla fine di tali pipeline.
Il graduale miglioramento dello stato di integrità generale della piattaforma dati è ora reso possibile dal rilevamento dei problemi, dalla consapevolezza delle cause principali a monte e dall'efficienza dei processi di iterazione.