A observabilidade de dados refere-se à prática de monitorar, gerenciar e manter dados de uma forma que garanta sua qualidade, disponibilidade e confiabilidade em vários processos, sistemas e pipelines dentro de uma organização.
A observabilidade dos dados consiste em compreender de fato a integridade de seus dados e seu estado em todo o ecossistema de dados. Ele inclui uma variedade de atividades que vão além do monitoramento tradicional, que apenas descreve um problema. A observabilidade de dados pode ajudar a identificar, solucionar e resolver problemas de dados em quase tempo real.
A utilização de ferramentas de observabilidade de dados é essencial para se antecipar aos problemas de dados ruins, que estão no centro da confiabilidade dos dados. Essas ferramentas permitem o monitoramento automatizado, o alerta de triagem, o rastreamento, as comparações, a análise de causa raiz, o registro, a linhagem de dados e o rastreamento do contrato de nível de serviço (SLA), que trabalham juntos para ajudar os profissionais a entender a qualidade dos dados de ponta a ponta, inclusive a confiabilidade dos dados.
A implementação de uma solução de observabilidade de dados é especialmente importante para equipes de dados modernas, onde os dados são usados para obter insights, desenvolver modelos de aprendizado de máquina e impulsionar a inovação. Isso garante que os dados continuem sendo um ativo valioso em vez de um passivo potencial.
A observabilidade dos dados precisa ser integrada de forma consistente em todo o ciclo de vida dos dados de ponta a ponta. Dessa forma, todas as atividades de gerenciamento de dados envolvidas são padronizadas e centralizadas entre as equipes para uma visão clara e ininterrupta dos problemas e impactos em toda a organização.
A observabilidade de dados é a evolução natural do movimento de qualidade de dados, que está tornando possível a prática de operações de dados (DataOps).
Descubra o poder de integrar uma estratégia de data lakehouse na sua arquitetura de dados, incluindo aprimoramentos para escalar oportunidades de IA e otimização de custos.
Simples e simples, a maioria das organizações acredita que seus dados não são confiáveis:
O impacto desses dados ruins não pode ser subestimado. Em maio de 2022, a Unity Software descobriu que estava ingerindo dados incorretos de um grande cliente, o que levou a uma queda de 30% no estoque da empresa3 e, por fim, custou à empresa US$ 110 milhões em receita perdida4.
Tradicionalmente, tem sido difícil identificar dados incorretos até que seja tarde demais. Ao contrário de quando uma aplicação fica inativa e afeta milhares de usuários imediatamente, as empresas podem operar com dados ruins inconscientemente por algum tempo. Por exemplo, uma equipe de vendas saberia imediatamente se um dashboard do Salesforce não estivesse carregando, mas não há como saber quanto tempo levaria para descobrir que um dashboard estava mostrando dados incorretos.
A observabilidade dos dados é a melhor defesa contra a transmissão de dados incorretos. Ele monitora pipelines de dados para garantir a entrega completa, precisa e oportuna de dados, para que as equipes de dados possam evitar o tempo de inatividade dos dados, cumprir SLAs de dados e manter a confiança da empresa nos dados que ela vê.
Os sistemas de dados modernos fornecem uma ampla variedade de funcionalidades, permitindo que os usuários armazenem e consultem seus dados de muitas maneiras diferentes. É claro que quanto mais funcionalidades você adiciona, mais complicado se torna garantir que seu sistema funcione corretamente. Essa complicação inclui:
Mais fontes de dados externas
No passado, a infraestrutura de dados era criada para lidar com pequenas quantidades de dados - geralmente dados operacionais de algumas fontes de dados internas - e não se esperava que os dados mudassem muito. Agora, muitos produtos de dados dependem de dados de fontes internas e externas, e o grande volume e a velocidade com que esses dados são coletados podem causar desvios inesperados, mudanças de esquema, transformações e atrasos.
Transformações mais complicadas
Mais dados ingeridos de fontes de dados externas significa que você precisa transformar, estruturar e agregar todos esses dados em todos os outros formatos para torná-los utilizáveis. Pior ainda, se esses formatos mudarem, isso causará um efeito dominó de falhas no recebimento de dados, pois a lógica estritamente codificada não consegue se adaptar ao novo esquema.
Muito foco na engenharia analítica
Pipelines de ingestão complexos criaram um mercado para ferramentas para simplificar esse processo de ponta a ponta, principalmente automatizando os processos de ingestão e extração, transformação, carga (ETL)/extração, carga, transformação (ELT). Ao combiná-los, você obtém uma plataforma de dados que o setor de análise de dados apelidou de "stack de dados moderna", ou MDS. O objetivo do MDS é reduzir o tempo necessário para que os dados sejam disponibilizados para os usuários finais (normalmente analistas), para que eles possam começar a aproveitar esses dados mais rapidamente. No entanto, quanto mais automação você tiver, menos controle terá sobre como os dados são entregues. Essas organizações precisam criar pipelines de dados personalizados para garantir que os dados sejam entregues conforme o esperado.
As operações de dados (DataOps) são um fluxo de trabalho que permite um delivery pipeline ágil e um loop de feedback para que as empresas possam criar e manter seus produtos com mais eficiência. O DataOps permite que as empresas usem as mesmas ferramentas e estratégias em todas as fases de seus projetos de análise, desde a prototipagem até a implementação do produto.
O ciclo de DataOps descreve as atividades fundamentais necessárias para melhorar o gerenciamento de dados no fluxo de trabalho de DataOps. Esse ciclo consiste em três estágios distintos: detecção, conscientização e iteração.
Detecção
É importante que esse ciclo comece com a detecção, pois a base do movimento DataOps se baseia em uma iniciativa de qualidade de dados.
Esse primeiro estágio do ciclo de DataOps é focado na validação. Isso inclui as mesmas verificações de qualidade de dados usadas desde o início do data warehouse. Eles estavam analisando o esquema de coluna e as validações em nível de linha. Essencialmente, você está garantindo que todos os conjuntos de dados cumpram as business Rules em seu sistema de dados.
Essa framework de qualidade de dados que reside no estágio de detecção é importante, mas reacionária por sua própria natureza. Está dando a você a capacidade de saber se os dados que já estão armazenados em seu data lake ou data warehouse (e provavelmente já estão sendo utilizados) estão na forma que você espera.
Também é importante observar que você está validando conjuntos de dados e seguindo as business Rules que conhece. Se você não conhece as causas dos problemas, não pode estabelecer novas business Rules para seus engenheiros seguirem. Essa constatação alimenta a demanda por uma abordagem contínua de observabilidade de dados que se vincule diretamente a todos os estágios do ciclo de vida dos dados, começando pelos dados de origem.
Conscientização
A conscientização é um estágio focado na visibilidade da fase de DataOps. É aqui que a conversa sobre governança de dados entra em cena e uma abordagem que prioriza os metadados é introduzida. Centralizar e padronizar metadados de pipeline e conjunto de dados em seu ecossistema de dados oferece às equipes visibilidade dos problemas em toda a organização.
A centralização dos metadados é crucial para dar à organização consciência da integridade de ponta a ponta de seus dados. Isso permite que você adote uma abordagem mais proativa para resolver problemas de dados. Se houver dados incorretos entrando em seu "domínio", você poderá rastrear o erro até um determinado ponto upstream em seu sistema de dados. Por exemplo, a equipe de engenharia de dados A agora pode analisar os pipelines da equipe de engenharia de dados B, entender o que está acontecendo e colaborar com ela para corrigir o problema.
O vice-versa também se aplica. A Equipe B de Engenharia de Dados pode detectar um problema e rastrear o impacto que ele terá nas dependências downstream. Isso significa que a Equipe de Engenharia de Dados A saberá que um problema ocorrerá e poderá tomar todas as medidas necessárias para contê-lo.
Iteração
Aqui, as equipes se concentram em dados como código. Esta etapa do ciclo é focada no processo. As equipes estão garantindo que tenham padrões repetíveis e sustentáveis que serão aplicados a todo o desenvolvimento de dados para garantir que obtenham os mesmos dados confiáveis no final desses pipelines.
A melhoria gradual da integridade geral da plataforma de dados agora é possível pela detecção de problemas, conscientização das causas raiz upstream e processos eficientes para iteração.
Uma estratégia de observabilidade de dados bem executada pode oferecer uma série de benefícios que contribuem para uma melhor qualidade de dados, tomada de decisões, confiabilidade e desempenho organizacional geral. Isso inclui:
A observabilidade de dados permite que as equipes detectem problemas como missing Values, registros duplicados ou formatos inconsistentes desde o início, antes que afetem as dependências posteriores. Com dados de maior qualidade, as organizações podem tomar decisões melhores e baseadas em dados que levam à melhoria das operações, da satisfação do cliente e do desempenho geral.
A observabilidade dos dados permite que as equipes identifiquem rapidamente erros ou desvios nos dados por meio da detecção de anomalias, monitoramento em tempo real e alertas. A solução de problemas mais rápida e a resolução de problemas ajudam a minimizar o custo e a gravidade do tempo de inatividade.
Ao usar dashboards compartilhados oferecidos pelas plataformas de observabilidade de dados, vários stakeholders podem obter visibilidade do status de conjuntos de dados críticos, o que pode promover uma melhor colaboração entre as equipes.
As ferramentas de observabilidade de dados ajudam a identificar gargalos e problemas de desempenho, permitindo que os engenheiros otimizem seus sistemas para melhor uso de recursos e tempos de processamento mais rápidos. Além disso, a automação reduz o tempo e o esforço necessários para manter a integridade de seus dados, permitindo que engenheiros de dados, analistas e cientistas de dados concentrem seus esforços na geração de valor dos dados.
A observabilidade de dados pode ajudar organizações de setores altamente regulamentados, como finanças, saúde e telecomunicações, a garantir que seus dados atendam aos padrões necessários de precisão, consistência e segurança. Isso reduz o risco de não conformidade e penalidades associadas.
Dados de alta qualidade são essenciais para entender as necessidades, preferências e comportamentos dos clientes, o que, por sua vez, permite que as organizações ofereçam experiências mais personalizadas e relevantes. A observabilidade de dados pode ajudar as organizações a manter dados de clientes precisos e atualizados, levando a uma maior satisfação e fidelidade do cliente.
Ao melhorar a qualidade dos dados através da observabilidade, as organizações podem liberar novos insights, identificar tendências e descobrir potenciais oportunidades de geração de receitas. Aproveitando ao máximo seus ativos de dados, as organizações podem aumentar sua receita e seu crescimento.
Juntos, os cinco pilares da observabilidade de dados fornecem insights valiosos sobre a qualidade e a confiabilidade de seus dados.
1. Frescura
A atualização descreve a atualização de seus dados e a frequência com que eles são atualizados. A obsolescência dos dados ocorre quando há lacunas importantes no tempo em que os dados não foram atualizados. Muitas vezes, quando os pipelines de dados quebram, isso ocorre devido a um problema de atualização.
2. Distribuição
Um indicador da integridade em nível de campo dos dados, a distribuição refere-se ao fato de os dados estarem ou não dentro de um intervalo aceito. Desvios da distribuição esperada podem indicar problemas de qualidade de dados, erros ou alterações nas fontes de dados subjacentes.
3. Volume
O volume refere-se à quantidade de dados que estão sendo gerados, ingeridos, transformados e migrados por meio de vários processos e pipelines. Também se refere à integridade de suas tabelas de dados. O volume é um indicador-chave para saber se a ingestão de dados está ou não atingindo os limites esperados.
4. Esquema
O esquema descreve a organização dos seus dados. As alterações de esquema geralmente resultam em dados quebrados. A observabilidade dos dados ajuda a garantir que seus dados sejam organizados de forma consistente, sejam compatíveis em diferentes sistemas e mantenham sua integridade durante todo o ciclo de vida.
5. Linhagem
O objetivo do Lineage é responder à pergunta “Onde?” quando os dados quebram. Ele analisa os dados desde a origem até o local final e anota quaisquer alterações, incluindo o que mudou, por que mudou e como mudou ao longo do caminho. A linhagem é mais frequentemente representada visualmente.
A observabilidade de dados oferece suporte à qualidade dos dados, mas os dois são aspectos diferentes do gerenciamento de dados.
Embora as práticas de observabilidade de dados possam apontar problemas de qualidade em conjuntos de dados, elas não podem, por si só, garantir uma boa qualidade de dados. Isso requer esforços para corrigir problemas de dados e evitar que eles ocorram em primeiro lugar. Por outro lado, uma organização pode ter uma forte qualidade de dados mesmo que não implemente uma iniciativa de observabilidade de dados.
O monitoramento da qualidade dos dados mede se a condição dos conjuntos de dados é boa o suficiente para os usos pretendidos em aplicações operacionais e analíticas. Para fazer essa determinação, os dados são examinados com base em várias dimensões de qualidade, como precisão, integridade, consistência, validade, confiabilidade e pontualidade.
A observabilidade de dados e a governança de dados são processos complementares que se apoiam mutuamente.
A governança de dados visa garantir que os dados de uma organização estejam disponíveis, utilizáveis, consistentes e seguros, e que sejam usados em conformidade com padrões e políticas internas. Os programas de governança geralmente incorporam ou estão intimamente ligados aos esforços de melhoria da qualidade dos dados.
Um forte programa de governança de dados ajuda a eliminar os silos de dados, problemas de integração de dados e baixa qualidade de dados que podem limitar o valor das práticas de observabilidade de dados.
A observabilidade dos dados pode ajudar o programa de governança monitorando as mudanças na qualidade, disponibilidade e linhagem dos dados.
A observabilidade de dados não é toda igual. O nível de contexto que você pode alcançar depende de quais metadados você pode coletar e fornecer visibilidade. Isso é conhecido como hierarquia de observabilidade de dados. Cada nível é uma base para o próximo e permite que você atinja níveis cada vez mais refinados de observabilidade.
Obter visibilidade da integridade operacional e do conjunto de dados é uma base sólida para qualquer framework de observabilidade de dados.
Dados em repouso
Monitorar a integridade do conjunto de dados refere-se ao monitoramento do conjunto de dados como um todo. Você está percebendo o estado de seus dados enquanto eles estão em um local fixo, que é chamado de "dados em repouso".
O monitoramento de conjuntos de dados responde a perguntas como:
Dados em movimento
O monitoramento operacional refere-se ao monitoramento do estado de seus dutos. Esse tipo de monitoramento fornece conhecimento sobre o estado de seus dados enquanto eles estão se transformando e se movendo através de seus pipelines. Esse estado de dados é conhecido como "dados em movimento".
O monitoramento de pipelines responde a perguntas como:
Embora o conjunto de dados e o monitoramento do pipeline de dados sejam geralmente separados em duas atividades diferentes, é essencial mantê-los acoplados para alcançar uma base sólida de observabilidade. Esses dois estados são altamente interconectados e dependentes um do outro. Colocar essas duas atividades em ferramentas ou equipes diferentes torna mais desafiador obter uma visão de alto nível da integridade de seus dados.
A criação de perfis em nível de coluna é fundamental para essa hierarquia. Depois de estabelecer uma base sólida, a criação de perfis em nível de coluna fornece os insights necessários para estabelecer business Rules para sua organização e aplicar as existentes no nível da coluna, em vez de apenas no nível da linha.
Esse nível de conscientização permite que você melhore sua framework de qualidade de dados de uma forma muito prática.
Ele permite que você responda a perguntas como:
A partir daqui, você pode avançar para o nível final de observabilidade: validação em nível de linha. Isso analisa os valores de dados em cada linha e valida se eles são precisos.
Esse tipo de observabilidade analisa:
Quando as organizações têm uma visão de túnel na validação em nível de linha, fica difícil ver a floresta para as árvores. Ao criar uma framework de observabilidade começando com o monitoramento operacional e do conjunto de dados, você pode obter um contexto geral sobre a integridade de seus dados e, ao mesmo tempo, aprimorar a causa raiz dos problemas e seus impactos posteriores.
Abaixo estão as principais etapas normalmente envolvidas na criação de um pipeline de observabilidade bem-sucedido. O processo envolve a integração de várias ferramentas e tecnologias, bem como a colaboração de diferentes equipes dentro de uma organização.
Construir um pipeline de observabilidade é um processo contínuo de aprendizado e refinamento. É crucial começar pequeno, aprender com a experiência e expandir gradualmente seus recursos de observabilidade.
O IBM Databand é um software de observabilidade para pipelines e warehouses de dados que coleta metadados automaticamente para criar linhas de base históricas, detectar anomalias e fazer triagem de alertas para corrigir problemas de qualidade de dados.
Com suporte para os padrões ETL e ELT, o IBM DataStage oferece integração de dados flexível e quase em tempo real, tanto no local quanto na nuvem.
Um catálogo de dados inteligente para a era da IA, o IBM Knowledge Catalog permite acessar, selecionar, categorizar e compartilhar dados, ativos de conhecimento e seus relacionamentos, não importa onde residam.
Conheça os benefícios da observabilidade de dados e como ela se encaixa em uma arquitetura de dados como malha de dados.
Explore este guia e aprenda exatamente o que é a ingestão de dados, por que ela é importante, os diferentes tipos de ingestão de dados e algumas práticas recomendadas para uma ingestão de dados eficaz.
Entenda o que é ELT, como o processo funciona, qual a diferença em relação ao ETL, os desafios e limitações envolvidos e as melhores práticas para implementar pipelines de ELT.
1 Tendências da integridade de dados: Perspectivas do diretor de dados em 2021 (link reside fora de ibm.com), Precisely, Junho de 2021
2 A empresa alimentada por dados: por que as organizações devem fortalecer seu domínio de dados (link reside fora ibm.com), Capgemini, fevereiro de 2021
3 As ações da Unity Software caem quase 30% devido à fraca orientação de receita (link externo ao site ibm.com), MarketWatch, 10 de maio de 2022
4 2 razões pelas quais o mundo virtual da Unity Software está enfrentando uma dura realidade (link externo à ibm.com), The Motley Fool, 17 de julho de 2022