Inicio Topics Detección de anomalías ¿Qué es la detección de anomalías?
Explorar Databand
Dibujo que muestra las fuentes de datos que conducen a la pantalla

Publicado: 12 de diciembre de 2023
Colaboradores: Joel Barnard

¿Qué es la detección de anomalías?

La detección de anomalías, o detección de valores atípicos, es la identificación de una observación, evento o punto de datos que se desvía de lo normal o esperado, haciéndolo incoherente con el resto del conjunto de datos.

La detección de anomalías tiene una larga historia en el campo de la estadística, donde analistas y científicos estudiaban gráficos en busca de cualquier elemento que pareciera anormal. En la actualidad, la detección de anomalías aprovecha la inteligencia artificial (IA) y el aprendizaje automático (ML) para identificar automáticamente cambios inesperados en el comportamiento normal de un conjunto de datos.

Los datos anómalos pueden indicar incidentes críticos, como un fallo de la infraestructura, un cambio de última hora de una fuente ascendente o amenazas a la seguridad. Las anomalías también pueden poner de manifiesto oportunidades para optimizar la arquitectura o mejorar las estrategias de marketing.

La detección de anomalías tiene una variedad de casos de uso en varios sectores. Por ejemplo, se utiliza en finanzas para la detección de fraudes, en la fabricación para identificar defectos o mal funcionamiento del equipo, en ciberseguridad para detectar actividad inusual en la red y en la atención sanitaria para identificar las condiciones anormales del paciente.

La detección de valores atípicos puede ser difícil porque las anomalías suelen ser poco frecuentes y las características del comportamiento normal pueden ser complejas y dinámicas. Desde una perspectiva empresarial, es esencial identificar anomalías reales en lugar de falsos positivos o ruido de datos.

Reserve una demostración de IBM Databand hoy mismo

Vea cómo la observabilidad proactiva de los datos puede ayudarle a detectar antes los incidentes de datos y a resolverlos más rápidamente.

Contenido relacionado

Suscríbase al boletín de IBM

¿Por qué es importante la detección de anomalías?

Las anomalías de datos pueden tener un impacto significativo en el campo de la ciencia de datos, lo que conduce a conclusiones incorrectas o engañosas. Por ejemplo, un único valor atípico puede sesgar significativamente la media de un conjunto de datos, convirtiéndolo en una representación inexacta de los datos. Además, las anomalías en los datos pueden afectar al rendimiento de los algoritmos de aprendizaje automático, ya que pueden hacer que el modelo se ajuste al ruido en lugar de al patrón subyacente de los datos.

Identificar y manejar las anomalías de los datos es crucial por varias razones: 

Mejora de la calidad de los datos: la identificación y el tratamiento de las anomalías de los datos pueden mejorar significativamente la calidadde los datos, lo cual es esencial para un análisis de datos preciso y fiable. Al abordar las anomalías de los datos, los analistas pueden reducir el ruido y los errores en el conjunto de datos, garantizando que los datos sean más representativos de los verdaderos patrones subyacentes.

Mejora de la toma de decisiones: La toma de decisiones basada en datos se basa en un análisis de datos preciso y fiable para fundamentar las decisiones. Al identificar y manejar las anomalías de los datos, los analistas pueden asegurarse de que sus hallazgos sean más fiables, lo que conduce a decisiones mejor informadas y mejores resultados.

Rendimiento optimizado del aprendizaje automático: las anomalías en los datos pueden afectar significativamente al rendimiento de los algoritmos de aprendizaje automático, ya que pueden hacer que el modelo se ajuste al ruido en lugar de al patrón subyacente de los datos. Al identificar y gestionar las anomalías de los datos, los analistas pueden optimizar el rendimiento de sus modelos de aprendizaje automático y garantizar que proporcionen predicciones precisas y fiables.

Tipos de anomalías

Los tipos de anomalías de datos que puede descubrir un sistema de detección de anomalías se dividen en uno de dos tipos generales: no intencionales e intencionales.

Las anomalías no intencionadas son puntos de datos que se desvían de la norma debido a errores o ruido en el proceso de recopilación de datos.Estos errores pueden ser sistemáticos o aleatorios, originados por problemas como sensores defectuosos o errores humanos durante la introducción de datos.Las anomalías involuntarias pueden distorsionar el conjunto de datos y dificultar la obtención de información precisa.

Por otro lado, las anomalías intencionales son puntos de datos que se desvían de la norma debido a acciones o eventos específicos. Estas anomalías pueden proporcionar información valiosa sobre el conjunto de datos, ya que pueden resaltar ocurrencias o tendencias únicas.

Por ejemplo, un aumento repentino de las ventas durante una temporada navideña podría considerarse una anomalía intencional, ya que se desvía del patrón de ventas típico, pero se espera debido a un evento real.

En términos de datos empresariales, existen tres anomalías principales de datos de serie temporal: anomalías de puntos, anomalías contextuales y anomalías colectivas.

Las anomalías puntuales, también conocidas como valores atípicos globales, son puntos de datos individuales que existen muy fuera del resto del conjunto de datos. Pueden ser intencionales o no y pueden deberse a errores, ruido o sucesos únicos.

Un ejemplo de una anomalía de puntos es una retirada de una cuenta bancaria que es significativamente mayor que cualquiera de los retiradas anteriores del usuario.   

Las anomalías contextuales son puntos de datos que se desvían de la norma dentro de un contexto específico. Estas anomalías no son necesariamente valores atípicos cuando se consideran de forma aislada, sino que se vuelven anómalas cuando se ven dentro de su contexto específico.

Por ejemplo, considere el uso de energía en el hogar. Si existe un aumento repentino del consumo de energía a mediados de día cuando no hay miembros de la familia en casa, la anomalía sería contextual. Puede que este dato no sea un valor atípico si se compara con el consumo de energía por la mañana o por la noche (cuando la gente suele estar en casa), pero es anómalo en el contexto de la hora del día en que se produce.

Las anomalías colectivas consisten en un conjunto de datos que se desvían de la norma, aunque los datos individuales parezcan normales.

Un ejemplo de este tipo de anomalía sería un conjunto de datos de tráfico de red que muestra un aumento repentino del tráfico de varias direcciones IP al mismo tiempo.

Métodos de detección de anomalías

El uso de un sistema de detección de anomalías para detectar anomalías en los datos es un aspecto crítico del análisis de datos, ya que garantiza que los hallazgos sean precisos y confiables. Se pueden utilizar varios métodos de detección de anomalías para crear un sistema de detección de anomalías:

Visualización es una potente herramienta para detectar anomalías de datos, ya que permite a los científicos de datos identificar rápidamente posibles valores atípicos y patrones en los datos. Trazando los datos utilizando gráficas y gráficos, los analistas pueden inspeccionar visualmente el conjunto de datos para cualquier punto o tendencia inusual.

Las pruebas estadísticas pueden ser utilizadas por científicos de datos para detectar anomalías de datos comparando los datos observados con la distribución o patrón esperado.

Por ejemplo, la prueba de Grubbs se puede utilizar para identificar valores atípicos en un conjunto de datos comparando cada punto de datos con la media y la desviación estándar de los datos. Del mismo modo, la prueba de Kolmogorov-Smirnov se puede utilizar para determinar si un conjunto de datos sigue una distribución específica, como una distribución normal.

Los algoritmos de aprendizaje automático pueden utilizarse para detectar anomalías en los datos mediante el aprendizaje del patrón subyacente en los datos y la posterior identificación de cualquier desviación de ese patrón. Algunos de los algoritmos de detección de anomalías más comunes son:

  • Árboles de decisión: un tipo de árbol de decisión, bosque de aislamiento, es un método de aprendizaje parecido que aísla anomalías seleccionando aleatoriamente una entidad y seleccionando aleatoriamente un valor de división entre los valores máximo y mínimo de la entidad seleccionada.

  • Máquina de vectores de soporte de una clase (SVM): One-Class SVM es un método de algoritmo de clasificación entrenado sólo en las instancias "normales", con el objetivo de crear un límite que abarque los datos normales. Las instancias que caen fuera de este límite se consideran anomalías.

  • k-Vecinos más cercanos (k-NN): k-NN es un algoritmo simple que clasifica un punto de datos en función de la clase mayoritaria de sus k vecinos más cercanos.Las instancias que tienen significativamente menos vecinos de la misma clase se pueden considerar anomalías.

  • Naive Bayesian: estos métodos funcionan definiendo la probabilidad de que se produzca un evento en función de la presencia de factores contribuyentes y detectando relaciones con la misma causa raíz.

  • Autocodificadores: Un tipo de red neuronal que utiliza datos con marca de tiempo para pronosticar patrones de datos e identificar anomalías que no se alinean con los datos históricos. 

  • Factor de valor atípico local (LOF): LOF es un algoritmo basado en densidad que mide la desviación de densidad local de un punto de datos con respecto a sus vecinos.Los puntos con una densidad significativamente menor en comparación con sus vecinos se consideran valores atípicos.

  • agrupamiento de k-means: k-means es una técnica de agrupamiento que analiza la distancia media de los puntos de datos no etiquetados y, a continuación, ayuda a agruparlos en grupos específicos. 
Técnicas de detección de anomalías

Un algoritmo de detección de anomalías puede aprender a identificar patrones y detectar datos anómalos mediante diversas técnicas de entrenamiento de aprendizaje automático. La cantidad de datos etiquetados, si los hay, en el conjunto de datos de entrenamiento de un equipo de datos determina cuál de las principales técnicas de detección de anomalías utilizarán: no supervisada, supervisada o semisupervisada.

Con las técnicas de detección de anomalías sin supervisión, los ingenieros de datos entrenan un modelo proporcionándole conjuntos de datos no etiquetados que utiliza para descubrir patrones o anomalías por sí mismo.Aunque estas técnicas son, con diferencia, las más utilizadas debido a su aplicación más amplia y relevante, requieren conjuntos de datos masivos y potencia informática. El aprendizaje automático no supervisado se encuentra con mayor frecuencia en escenarios de aprendizaje profundo, que dependen de redes neuronales artificiales.

Las técnicas de detección supervisada de anomalías utilizan un algoritmo que se entrena en un conjunto de datos etiquetados que incluye instancias normales y anómalas.Debido a la falta general de disponibilidad de datos de entrenamiento etiquetados y la naturaleza inherentemente desequilibrada de las clases, estas técnicas de detección de anomalías rara vez se utilizan. 

Las técnicas semisupervisadas maximizan los atributos positivos de la detección de anomalías no supervisadas y la detección de anomalías supervisadas.Al proporcionar a un algoritmo una parte de los datos etiquetados, se puede entrenar parcialmente. Luego, los ingenieros de datos utilizan el algoritmo parcialmente entrenado para etiquetar un conjunto de datos más grande de forma autónoma, denominado "pseudoetiquetado". Suponiendo que resulten fiables, estos puntos de datos recién etiquetados se combinan con el conjunto de datos original para ajustar el algoritmo.

Encontrar la combinación adecuada de aprendizaje automático supervisado y no supervisado es vital para la automatización del aprendizaje automático Idealmente, la gran mayoría de las clasificaciones de datos se realizarían sin interacción humana de manera no supervisada. Dicho esto, los ingenieros de datos deben ser capaces de alimentar los algoritmos con datos de entrenamiento que ayuden a crear líneas de base habituales. Un enfoque semisupervisado permite escalar la detección de anomalías con la flexibilidad necesaria para establecer reglas manuales relativas a anomalías específicas.

Casos de uso de detección de anomalías

Los modelos de detección de anomalías se utilizan ampliamente en las industrias de banca, seguros y comercio de acciones para identificar actividades fraudulentas en tiempo real, como transacciones no autorizadas, lavado de dinero, fraude con tarjetas de crédito, reclamos de declaraciones de impuestos falsas y patrones comerciales anormales.

En la ciberseguridad, un sistema de detección de intrusiones (IDS) utiliza la detección de anomalías para ayudar a identificar actividades inusuales o sospechosas en el tráfico de red, lo que indica posibles amenazas de seguridad o ataques como infecciones de malware o acceso no autorizado.

Se utiliza en el sector sanitario para identificar condiciones inusuales de los pacientes o anomalías en los datos médicos, lo que ayuda a detectar enfermedades, controlar la salud de los pacientes y tratarlos con mayor eficacia.

En la fabricación, los algoritmos de detección de anomalías, junto con la visión artificial, se emplean para identificar defectos en productos o embalajes mediante el análisis de imágenes de cámaras de alta resolución, datos de sensores y métricas de producción.

Se usa para monitorear el rendimiento de los sistemas de TI y mantener las operaciones funcionando sin problemas mediante la identificación de patrones inusuales en los registros del servidor y la reconstrucción de fallas a partir de patrones y experiencias pasadas para predecir posibles problemas o fallas.

La detección de anomalías ayuda a predecir fallos en los equipos o necesidades de mantenimiento en sectores como la aviación, la energía y el transporte. Los sensores alimentados por IoT se utilizan para recopilar datos de equipos industriales, identificar desviaciones y predecir futuros fallos.

Se usa para monitorear los patrones de consumo de energía e identificar anomalías en el uso, lo que puede conducir a una administración de energía más eficiente y a la detección temprana de fallas en los equipos.

En el comercio electrónico, se aplica la detección de anomalías para identificar actividades fraudulentas, como revisiones falsas, apropiaciones de cuentas o comportamientos de compra anormales.

Las empresas también utilizan modelos de detección de anomalías para identificar patrones inusuales en el comportamiento del cliente, ayudar con la detección de fraudes, predecir la pérdida de clientes y mejorar las estrategias de marketing.

Productos relacionados
IBM Databand

IBM® Databand es un software de observabilidad para canalizaciones y almacenes de datos, que recopila automáticamente metadatos para crear líneas de base históricas, detectar anomalías y clasificar alertas para solucionar problemas de calidad de datos.

Explorar Databand

IBM DataStage

Al dar soporte a los patrones ETL y ELT, IBM® DataStage ofrece una integración de datos flexible y casi en tiempo real tanto en las instalaciones como en la nube.

Explorar DataStage

IBM Knowledge Catalog

IBM® Knowledge Catalog, un catálogo de datos inteligente en la era de la IA, le permite acceder, conservar, categorizar y compartir datos, activos de conocimiento y sus relaciones, independientemente de dónde se encuentren.

Explorar Knowledge Catalog
Recursos Uso de la detección de anomalías de Databand para cumplir los plazos de entrega de datos

En este artículo, descubrirá cómo la detección de anomalías de Databand ayuda a los equipos de datos a identificar los problemas de canalización de datos más rápidamente para que puedan hacer un mejor trabajo a la hora de cumplir los SLA de datos que han establecido.

Aprendizaje supervisado o no supervisado

Explore los conceptos básicos de dos enfoques de ciencia de datos: supervisado y no supervisado. Descubra qué enfoque es el adecuado para su situación.

Cómo garantizar la calidad, el valor y la fiabilidad de los datos

Garantizar datos de alta calidad es responsabilidad de los ingenieros de datos y de toda la organización. En este artículo se describe la importancia de la calidad de los datos, cómo auditarlos y supervisarlos y cómo conseguir la participación de las principales partes interesadas.

De el siguiente paso

Implemente hoy mismo la observabilidad proactiva de los datos con IBM Databand para saber cuándo surge un problema de salud de los datos antes de que lo sepan sus usuarios.

Explorar Databand