Início

topics

Qualidade dos dados

O que é qualidade de dados?
Explore a solução de qualidade de dados da IBM Inscreva-se para receber atualizações sobre IA
 Ilustração com colagem de pictogramas de nuvens, gráfico de pizza, pictogramas de gráficos a seguir
O que é qualidade de dados?

A qualidade dos dados mede a adequação de um conjunto de dados aos critérios de precisão, completude, validade, consistência, unicidade, oportunidade e adequação ao propósito, e é crítica para todas as iniciativas de governança de dados dentro de uma organização.

Os padrões de qualidade de dados garantem que as empresas estejam tomando decisões baseadas em dados para atingir suas metas de negócios. Se os problemas de dados, como dados duplicados, missing values, valores discrepantes, não forem abordados adequadamente, as empresas aumentarão o risco de resultados comerciais negativos. De acordo com um relatório da Gartner, a má qualidade de dados custa às organizações uma média de 12,9 milhões de dólares por ano 1. Como resultado, ferramentas de qualidade de dados surgiram para mitigar o impacto negativo associado à má qualidade de dados.

Quando a qualidade dos dados atende ao padrão para o uso pretendido, os consumidores de dados podem confiar nos dados e aproveitá-los para melhorar a tomada de decisões, levando ao desenvolvimento de novas estratégias de negócios ou à otimização de estratégias existentes. No entanto, quando um padrão não é atendido, as ferramentas de qualidade de dados fornecem valor, ajudando as empresas a diagnosticar problemas de dados subjacentes. Uma análise de causa raiz permite que as equipes corrijam problemas de qualidade de dados de forma rápida e eficaz.

A qualidade dos dados não é apenas uma prioridade para as operações comerciais diárias. À medida que as empresas integram a inteligência artificial (IA) e a tecnologia de automação em seus fluxos de trabalho, a qualidade dos dados será crucial para a adoção efetiva dessas ferramentas. Como diz o velho ditado, "entra lixo, sai lixo", e isso também vale para algoritmos de aprendizado de máquina. Se o algoritmo estiver aprendendo a prever ou classificar dados ruins, podemos esperar que ele produza resultados imprecisos.

 

Crie fluxos de trabalho de IA responsáveis com controle de IA

Aprenda os fundamentos e as melhores práticas para ajudar suas equipes a acelerar a IA responsável.

Conteúdo relacionado Leia o guia para líderes de dados
Qualidade de dados versus integridade de dados versus criação de perfis de dados

A qualidade, a integridade e o perfil dos dados estão inter-relacionados entre si. A qualidade dos dados é uma categoria mais ampla de critérios que as organizações usam para avaliar a precisão, a integridade, a validade, a consistência, a exclusividade, a atualidade e a adequação dos dados à finalidade. A integridade dos dados se concentra em apenas um subconjunto desses atributos, especificamente precisão, consistência e integridade. Ela também se concentra mais no aspecto da segurança de dados, implementando proteções para evitar a corrupção de dados por agentes mal-intencionados.

A criação de perfis de dados, por outro lado, concentra-se no processo de revisão e limpeza de dados para manter os padrões de qualidade dos dados dentro de uma organização. Isso pode abranger também a tecnologia que dá suporte a esses processos.

Dimensões da qualidade dos dados

A qualidade dos dados é avaliada com base em várias dimensões, que podem diferir com base na fonte de informações. Estas dimensões são usadas para categorizar métricas de qualidade de dados:

  • Integralidade: representa a quantidade de dados que são utilizáveis ou completos. Se houver uma alta porcentagem de missing values, isso pode levar a uma análise tendenciosa ou enganosa se os dados não forem representativos de uma amostra de dados típica.
  • Singularidade: isso leva em conta a quantidade de dados duplicados em um conjunto de dados. Por exemplo, ao analisar os dados de clientes, você deve esperar que cada cliente tenha um ID de cliente exclusivo.
  •  Validade: Essa dimensão mede a quantidade de dados que correspondem ao formato exigido por quaisquer business rules. A formatação geralmente inclui metadados, como tipos de dados válidos, intervalos, padrões e muito mais.
  • Pontualidade: essa dimensão refere-se à prontidão dos dados em um período de tempo esperado. Por exemplo, os clientes esperam receber um número de pedido imediatamente após terem feito uma compra, e esses dados precisam ser gerados em tempo real.
  • Precisão: Esta dimensão se refere à correção dos valores dos dados com base na “fonte da verdade” acordada. Como pode haver diversas fontes que relatam a mesma métrica, é importante designar uma fonte de dados primária; outras fontes de dados podem ser usadas para confirmar a precisão da fonte primária. Por exemplo, as ferramentas podem verificar se cada fonte de dados está tendendo na mesma direção para aumentar a confiança na precisão dos dados.
  • Consistência: essa dimensão avalia registros de dados de dois conjuntos de dados diferentes. Como mencionado anteriormente, várias fontes podem ser identificadas para relatar uma única métrica. O uso de diferentes fontes para verificar tendências e comportamentos de dados consistentes permite que as organizações confiem em quaisquer insights acionáveis de suas análises. Essa lógica também pode ser aplicada em relação às relações entre dados. Por exemplo, o número de funcionários em um departamento não deve exceder o número total de funcionários em uma empresa.
  • Adequação à finalidade: Por fim, a adequação à finalidade ajuda a garantir que o ativo de dados atenda a uma necessidade comercial. Essa dimensão pode ser difícil de avaliar, especialmente com conjuntos de dados novos e emergentes.                                                                                                          

Essas métricas ajudam as equipes a realizar avaliações da qualidade dos dados em suas organizações para determinar o quão informativos e úteis os dados são para um determinado propósito.

Por que a qualidade dos dados é importante?

Na última década, os desenvolvimentos na nuvem híbrida, inteligência artificial, Internet das Coisas (IoT) e computação de ponta levaram ao crescimento exponencial do big data. Como resultado, a prática de master data management (MDM) se tornou mais complexa, exigindo mais administradores de dados e proteções rigorosas para garantir a boa qualidade dos dados.

As empresas dependem da gestão da qualidade dos dados para apoiar suas iniciativas de análise de dados, como dashboards de business intelligence. Sem isso, pode haver consequências devastadoras, até mesmo éticas, dependendo do setor (por exemplo, saúde). Existem soluções de qualidade de dados para ajudar as empresas a maximizar o uso de seus dados e elas geraram benefícios importantes, como:

  • Melhores decisões de negócios: dados de alta qualidade permitem que as organizações identifiquem indicadores-chave de desempenho (KPIs) para medir o desempenho de vários programas, o que permite que as equipes os melhorem ou desenvolvam de forma mais eficaz. As organizações que priorizam a qualidade dos dados sem dúvida terão uma vantagem sobre seus concorrentes.
  • Processos de negócios aprimorados: bons dados também significam que as equipes podem identificar onde há falhas nos fluxos de trabalho operacionais. Isso é particularmente verdadeiro no setor de cadeia de suprimentos, que depende de dados em tempo real para determinar o inventário e a localização adequados após o envio.
  • Aumento da satisfação do cliente: a alta qualidade dos dados fornece às organizações, especialmente às equipes de marketing e vendas, um insight incrível de seus compradores-alvo. Eles são capazes de integrar diferentes dados em todo o funil de vendas e marketing, o que lhes permite vender seus produtos de forma mais eficaz. Por exemplo, a combinação de dados demográficos e comportamento na web pode informar como as organizações criam suas mensagens, investem seu orçamento de marketing ou contratam suas equipes de vendas para atender clientes existentes ou potenciais.
Recursos
Governança e privacidade de dados para líderes de dados

Leia um guia da IBM sobre os blocos de construção de governança de dados e privacidade.

Três passos para a qualidade de dados e desempenho de IA

Aprenda com os especialistas neste guia passo a passo sobre como adotar uma abordagem baseada em valores para a qualidade dos dados e as práticas de IA.

Quadrante Mágico da Gartner™

IBM é nomeada líder pelo 18.° ano consecutivo no Gartner Magic Quadrant™ para Ferramentas de Integração de Dados de 2023.

Dê o próximo passo

Escale cargas de trabalho de IA para todos os seus dados, em qualquer lugar, com o IBM watsonx.data, um armazenamento de dados feito sob medida, construído em uma arquitetura aberta de data lakehouse.

Explore o watsonx.data Agende uma demonstração em tempo real
Citação

1 Gartner, "How to Improve Your Data Quality" (link externo a ibm.com), 14 de julho de 2021