O que é detecção de anomalia?

Empresária trabalhando em tablet em escritório

O que é detecção de anomalias?

A detecção de anomalias, ou detecção de valor discrepante, é a identificação de observações, eventos ou pontos de dados que se desviam do que é usual, padrão ou esperado, tornando-os inconsistentes com o resto de um conjunto de dados.

A detecção de anomalias tem uma longa história no campo da estatística, onde analistas e cientistas estudavam gráficos à procura de quaisquer elementos que parecessem anormais. Hoje, a detecção de anomalias utiliza a inteligência artificial (IA) e o aprendizado de máquina (ML) para identificar automaticamente alterações inesperadas no comportamento normal de um conjunto de dados.

Dados anômalos podem sinalizar incidentes críticos que ocorrem em detalhes técnicos, como uma falha de infraestrutura, uma alteração significativa de uma fonte upstream ou ameaças à segurança. As anomalias também podem destacar oportunidades de otimização arquitetônica ou melhoria das estratégias de marketing.

A detecção de anomalias tem uma variedade de casos de uso em vários setores. Por exemplo, é usada em finanças para detecção de fraude, na fabricação para identificar defeitos ou mau funcionamento de equipamentos, em cibersegurança para detectar atividades incomuns de rede, e na saúde para identificar condições anormais de pacientes.

A detecção de valor discrepante pode ser desafiadora porque as anomalias costumam ser raras e as características do comportamento normal podem ser complexas e dinâmicas. Do ponto de vista da empresa, é essencial identificar anomalias reais em vez de falsos positivos ou ruído de dados.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Por que a detecção de anomalias é importante?

Anomalias de dados podem ter um impacto significativo no campo da ciência de dados, levando a conclusões incorretas ou enganosas. Por exemplo, um único valor discrepante pode distorcer significativamente a média de um conjunto de dados, fazendo com que ela se torne uma representação imprecisa dos dados. Além disso, as anomalias nos dados podem afetar o desempenho dos algoritmos de aprendizado de máquina, pois podem fazer com que o modelo se ajuste ao ruído em vez do padrão subjacente nos dados.

Identificar e lidar com anomalias de dados é importante por várias razões:

Melhor qualidade de dados: identificar e tratar anomalias pode melhorar significativamente a qualidade de dados, o que é essencial para uma análise precisa e confiável. Ao lidar com anomalias, os analistas podem reduzir ruídos e erros no conjunto de dados, garantindo que eles sejam mais representativos dos verdadeiros padrões subjacentes.

Tomada de decisão aprimorada: a tomada de decisão baseada em dados depende de análises precisas e confiáveis para guiar as decisões. Ao identificar e tratar anomalias de dados, os analistas podem garantir que as suas conclusões sejam mais confiáveis, levando a decisões mais bem fundamentadas e a melhores resultados.

Desempenho otimizado de aprendizado de máquina: anomalias de dados podem afetar significativamente o desempenho dos algoritmos de aprendizado de máquina, pois podem fazer com que o modelo se encaixe ao ruído em vez do padrão subjacente nos dados. Identificando e lidando com anomalias, os analistas podem otimizar o desempenho de seus modelos de aprendizado de máquina, garantindo que eles forneçam previsões precisas e confiáveis.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Tipos de anomalias

Um sistema de detecção de anomalias pode descobrir dois tipos gerais de anomalias: não intencionais e intencionais.

Anomalias não intencionais são pontos de dados que se desviam da norma devido a erros ou ruído no processo de coleta de dados. Esses erros podem ser sistemáticos ou aleatórios, originados por problemas como sensores defeituosos ou erro humano durante a entrada de dados. Anomalias não intencionais podem distorcer o conjunto de dados, dificultando a obtenção de insights precisos.

Anomalias intencionais são pontos de dados que se desviam da norma devido a ações ou eventos específicos. Essas anomalias podem fornecer insights valiosos sobre o conjunto de dados, pois podem destacar ocorrências ou tendências exclusivas. Por exemplo, um aumento repentino nas vendas durante uma época festiva pode ser considerado uma anomalia intencional, pois se desvia do padrão de vendas típico, mas é esperado devido a um evento do mundo real.

Anomalias de dados de séries temporais

Nos dados de negócios, existem três anomalias principais de dados de séries temporais: anomalias pontuais, anomalias contextuais e anomalias coletivas.

Anomalias pontuais, também conhecidas como valores discrepantes globais, são pontos de dados individuais que existem muito fora do restante do conjunto de dados. Eles podem ser intencionais ou não e podem resultar de erros, ruídos ou ocorrências únicas. Um exemplo de anomalia pontual é um saque de conta bancária que é significativamente maior do que qualquer um dos saques anteriores do usuário.

Anomalias contextuais são pontos de dados que se desviam da norma dentro de um contexto específico. Essas anomalias não são necessariamente valores discrepantes quando consideradas isoladamente, mas se tornam anômalas quando vistas dentro de seu contexto específico.

Por exemplo, considere o uso de energia doméstica. Se houver um aumento repentino no consumo de energia ao meio-dia, quando normalmente nenhum membro da família está em casa, a anomalia seria contextual. Este dado pode não ser um valor discrepante quando comparado ao consumo de energia pela manhã ou à noite (quando as pessoas geralmente estão em casa), mas é anômalo no contexto da hora do dia em que ocorreu.

Anomalias coletivas envolvem um conjunto de instâncias de dados que juntas se desviam da norma, mesmo que as instâncias individuais possam parecer normais. Um exemplo desse tipo de anomalia seria um conjunto de dados de tráfego de rede que mostra um aumento repentino no tráfego de vários endereços IP ao mesmo tempo.

Métodos de detecção de anomalias

Usar um sistema de detecção de anomalias para detectar anomalias de dados é um aspecto crítico da análise de dados, garantindo que as descobertas sejam precisas e confiáveis. Vários métodos de detecção podem ser usados na criação de um sistema de detecção de anomalias:

Visualização

A visualização é uma ferramenta poderosa para detectar anomalias de dados, pois permite que os cientistas de dados identifiquem rapidamente possíveis valores discrepantes e padrões nos dados. Ao plotar os dados usando tabelas e gráficos, os analistas podem inspecionar visualmente o conjunto de dados em busca de pontos ou tendências incomuns.

Testes estatísticos

Testes estatísticos podem ser usados por cientistas de dados para detectar anomalias comparando os dados observados com a distribuição ou padrão esperado.

Por exemplo, o teste de Grubbs pode ser usado para identificar valores discrepantes em um conjunto de dados, comparando cada ponto com a média e o desvio padrão dos dados. Da mesma forma, o teste de Kolmogorov-Smirnov pode ser usado para determinar se um conjunto de dados segue uma distribuição específica, como uma distribuição normal.

Algoritmos de aprendizado de máquina

Os algoritmos de aprendizado de máquina podem ser usados para detectar anomalias, aprendendo o padrão subjacente nos dados e, em seguida, identificando quaisquer desvios desse padrão. Alguns dos algoritmos mais comuns de detecção de anomalias de ML incluem:

  • Árvores de decisão: um tipo de árvore de decisão, a floresta de isolamento, é um método de aprendizado de conjunto que isola anomalias ao selecionar aleatoriamente uma funcionalidade e, em seguida, seleciona aleatoriamente um valor de divisão entre os valores máximo e mínimo da funcionalidade selecionada.

  • Máquina de vetores de suporte de classe única (SVM): SVM de classe única é um método de algoritmo de classificação treinado apenas nas instâncias "normais", visando criar uma fronteira que englobe os dados normais. As instâncias que estão fora desse limite são consideradas anomalias.

  • K-vizinhos mais próximos (k-NN): o k-NN é um algoritmo simples que classifica um ponto de dados com base na classe predominante de seus k vizinhos mais próximos. Instâncias que têm significativamente menos vizinhos da mesma classe podem ser consideradas anomalias.

  • Bayesiano Naive: esse método funciona definindo a probabilidade de um evento ocorrer com base na presença de fatores contribuintes e detectando relações com a mesma causa raiz.

  • Autocodificadores: um tipo de rede neural que utiliza dados com registro de tempo para prever padrões de dados e identificar anomalias que não se alinham com os dados históricos. 

  • Fator de outlier local (LOF): o LOF é um algoritmo baseado em densidade que mede o desvio de densidade local de um ponto de dados em relação aos seus vizinhos. Pontos com densidade significativamente menor em comparação com seus vizinhos são considerados valores discrepantes.

  • Agrupamento k-means: o k-means é uma técnica de agrupamento que analisa a distância média dos pontos de dados não rotulados e, em seguida, ajuda a agrupar o mesmo em grupos específicos.

Técnicas de detecção de anomalias

Um algoritmo de detecção de anomalias pode aprender a identificar padrões e detectar dados anômalos usando várias técnicas de treinamento de aprendizado de máquina. A quantidade de dados rotulados, se houver, no conjunto de dados de treinamento de uma equipe determina quais das principais técnicas de detecção de anomalias serão utilizadas – não supervisionadas, supervisionadas ou semi-supervisionadas.

Detecção de anomalias não supervisionada

Com técnicas de detecção de anomalias não supervisionada, os engenheiros de dados treinam um modelo fornecendo conjuntos de dados não rotulados usados para descobrir padrões ou anormalidades por conta própria. Embora essas técnicas sejam de longe as mais comumente usadas devido à sua aplicação mais ampla e relevante, elas exigem conjuntos de dados massivos e poder computacional. O aprendizado de máquina não supervisionado é mais frequentemente encontrado em cenários deep learning, que dependem de rede neural artificial.

Detecção de anomalias supervisionada

As técnicas de detecção de anomalias supervisionada usam um algoritmo treinado em um conjunto de dados rotulado que inclui instâncias normais e anômalas. Devido à indisponibilidade geral de dados de treinamento rotulados e à natureza inerentemente desequilibrada das classes, essas técnicas de detecção de anomalias raramente são utilizadas. 

Detecção de anomalias semissupervisionada

As técnicas semi-supervisionadas maximizam os atributos positivos da detecção de anomalias não supervisionadas e supervisionadas. Ao fornecer um algoritmo com parte dos dados rotulados, ele pode ser parcialmente treinado. Os engenheiros de dados então usam o algoritmo parcialmente treinado para rotular um conjunto maior de dados de forma autônoma, conhecido como “pseudo-rotulagem”. Supondo que sejam confiáveis, esses pontos de dados recém-rotulados são combinados com o conjunto de dados original para fazer um ajuste fino no algoritmo.

Encontrar a combinação certa de aprendizado de máquina supervisionado e não supervisionado é vital para a automação do aprendizado de máquina. Idealmente, a grande maioria das classificações de dados seria feita sem interação humana e de maneira não supervisionada. Dito isso, os engenheiros de dados ainda devem ser capazes de alimentar algoritmos com dados de treinamento que ajudarão a criar linhas de base de negócios normais. Uma abordagem semi-supervisionada permite a expansão da detecção de anomalias com a flexibilidade de fazer regras manuais em relação a anomalias específicas.

Casos de uso de detecção de anomalias

Detecção de fraudes

Os modelos de detecção de anomalias são amplamente utilizados nos setores bancário, de seguros e de negociação de ações para identificar atividades fraudulentas em tempo real, como transações não autorizadas, lavagem de dinheiro, fraude de cartão de crédito, falsas declarações de impostos e padrões de negociação anormais.

Cibersegurança

Os sistemas de detecção de intrusões (IDSs) e outras tecnologias de cibersegurança utilizam a detecção de anomalias para ajudar a identificar atividades incomuns ou suspeitas dos usuários ou padrões de tráfego de rede, indicando possíveis ameaças à segurança, ataques como infecções por malware ou acesso não autorizado.

Fabricação e controle de qualidade

Os algoritmos de detecção de anomalias são frequentemente empregados em conjunto com a computer vision para identificar defeitos em produtos ou embalagens por meio da análise de filmagem de câmera de alta resolução, dados de sensores e métricas de produção.

Gerenciamento de sistemas de TI

A detecção de anomalias pode ser usada para monitorar o desempenho dos sistemas de TI e para manter as operações funcionando sem problemas, identificando padrões incomuns nos logs do servidor e reconstruindo falhas a partir de padrões e experiências passadas para prever possíveis problemas ou falhas.

Energia, transporte e infraestrutura crítica

Ao identificar irregularidades nos dados de sensores da Internet das Coisas (IoT) e dispositivos de tecnologia de operações (OT), a detecção de anomalias pode ajudar a prever falhas de equipamentos ou necessidades de manutenção em setores como aviação, energia e transporte. Quando usada para monitorar padrões de consumo de energia e identificar anomalias no uso, a detecção de anomalias pode levar a uma gestão de energia mais eficiente e detecção precoce de falhas de equipamentos.

Varejo e comércio eletrônico

Os comerciantes usam modelos de detecção de anomalias para identificar padrões incomuns no comportamento do cliente, o que pode ajudar na detecção de fraudes, prevendo a rotatividade de clientes e melhorando as estratégias de marketing. No comércio eletrônico, a detecção de anomalias é aplicada para identificar avaliações falsas, apropriação de contas, comportamento de compra anormal e outros indicadores de fraude ou crime cibernético.

Soluções relacionadas
IBM watsonx.ai

Treine, valide, ajuste e implemente recursos de IA generativa, modelos de base e recursos de aprendizado de máquina com o IBM watsonx.ai, um estúdio empresarial de última geração para construtores de IA. Crie aplicações de IA em uma fração do tempo com uma fração dos dados.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Obtenha acesso completo aos recursos que abrangem o ciclo de vida do desenvolvimento da IA. Produza soluções poderosas de IA com interfaces fáceis de usar, fluxos de trabalhos e acesso a APIs e SDKs padrão do setor.

Explore o watsonx.ai Agende uma demonstração em tempo real