La detección de anomalías, o detección de valores atípicos, es la identificación de una observación, evento o punto de datos que se desvía de lo normal o esperado, haciéndolo incoherente con el resto del conjunto de datos.
La detección de anomalías tiene una larga historia en el campo de la estadística, donde analistas y científicos estudiaban gráficos en busca de cualquier elemento que pareciera anormal. En la actualidad, la detección de anomalías aprovecha la inteligencia artificial (IA) y el aprendizaje automático (ML) para identificar automáticamente cambios inesperados en el comportamiento normal de un conjunto de datos.
Los datos anómalos pueden indicar incidentes críticos, como un fallo de la infraestructura, un cambio de última hora de una fuente ascendente o amenazas a la seguridad. Las anomalías también pueden poner de manifiesto oportunidades para optimizar la arquitectura o mejorar las estrategias de marketing.
La detección de anomalías tiene una variedad de casos de uso en varios sectores. Por ejemplo, se utiliza en finanzas para la detección de fraudes, en la fabricación para identificar defectos o mal funcionamiento del equipo, en ciberseguridad para detectar actividad inusual en la red y en la atención sanitaria para identificar las condiciones anormales del paciente.
La detección de valores atípicos puede ser difícil porque las anomalías suelen ser poco frecuentes y las características del comportamiento normal pueden ser complejas y dinámicas. Desde una perspectiva empresarial, es esencial identificar anomalías reales en lugar de falsos positivos o ruido de datos.
Boletín del sector
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Las anomalías de datos pueden tener un impacto significativo en el campo de la ciencia de datos, lo que conduce a conclusiones incorrectas o engañosas. Por ejemplo, un único valor atípico puede sesgar significativamente la media de un conjunto de datos, convirtiéndolo en una representación inexacta de los datos. Además, las anomalías en los datos pueden afectar al rendimiento de los algoritmos de machine learning, ya que pueden hacer que el modelo se ajuste al ruido en lugar de al patrón subyacente de los datos.
Identificar y manejar las anomalías de los datos es crucial por varias razones:
Mejora de la calidad de los datos: la identificación y el tratamiento de las anomalías de los datos pueden mejorar significativamente la calidad de los datos, lo cual es esencial para un análisis de datos preciso y fiable. Al abordar las anomalías de los datos, los analistas pueden reducir el ruido y los errores en el conjunto de datos, garantizando que los datos sean más representativos de los verdaderos patrones subyacentes.
Mejora de la toma de decisiones: la toma de decisiones basada en datos se basa en un análisis de datos preciso y fiable para fundamentar las decisiones. Al identificar y manejar las anomalías de los datos, los analistas pueden asegurarse de que sus hallazgos sean más fiables, lo que conduce a decisiones mejor informadas y mejores resultados.
Rendimiento optimizado del machine learning: las anomalías en los datos pueden afectar significativamente al rendimiento de los algoritmos de machine learning, ya que pueden hacer que el modelo se ajuste al ruido en lugar de al patrón subyacente de los datos. Al identificar y gestionar las anomalías de los datos, los analistas pueden optimizar el rendimiento de sus modelos de machine learning y garantizar que proporcionen predicciones precisas y fiables.
Un sistema de detección de anomalías puede descubrir dos tipos generales: involuntarias e intencionadas.
Las anomalías no intencionadas son puntos de datos que se desvían de la norma debido a errores o ruido en el proceso de recopilación de datos. Estos errores pueden ser sistemáticos o aleatorios, originados por problemas como sensores defectuosos o errores humanos durante la introducción de datos. Las anomalías involuntarias pueden distorsionar el conjunto de datos y dificultar la obtención de información precisa.
Las anomalías intencionadas son puntos de datos que se desvían de la norma debido a acciones o acontecimientos específicos. Estas anomalías pueden proporcionar conocimientos valiosos sobre el conjunto de datos, ya que pueden resaltar ocurrencias o tendencias únicas. Por ejemplo, un aumento repentino de las ventas durante una temporada navideña podría considerarse una anomalía intencional, ya que se desvía del patrón de ventas típico, pero se espera debido a un evento real.
En términos de datos empresariales, existen tres anomalías principales de datos de serie temporal: anomalías de puntos, anomalías contextuales y anomalías colectivas.
Las anomalías puntuales, también conocidas como valores atípicos globales, son puntos de datos individuales que se encuentran muy alejados del resto del conjunto de datos. Pueden ser intencionales o no intencionales y pueden deberse a errores, ruido o sucesos únicos. Un ejemplo de una anomalía de puntos es una retirada de una cuenta bancaria que es significativamente mayor que cualquiera de los retiradas anteriores del usuario.
Las anomalías contextuales son puntos de datos que se desvían de la norma dentro de un contexto específico. Estas anomalías no son necesariamente valores atípicos cuando se consideran aisladas, pero se vuelven anómalas si se observan dentro de su contexto específico.
Por ejemplo, considere el uso de energía en el hogar. Si existe un aumento repentino del consumo de energía a mediados de día cuando no hay miembros de la familia en casa, la anomalía sería contextual. Puede que este dato no sea un valor atípico si se compara con el consumo de energía por la mañana o por la noche (cuando la gente suele estar en casa), pero es anómalo en el contexto de la hora del día en que se produce.
Las anomalías colectivas consisten en un conjunto de datos que se desvían de la norma, aunque los datos individuales parezcan normales. Un ejemplo de este tipo de anomalía sería un conjunto de datos de tráfico de red que muestra un aumento repentino del tráfico de varias direcciones IP al mismo tiempo.
El uso de un sistema de detección de anomalías para detectar anomalías en los datos es un aspecto crítico del análisis de datos, ya que garantiza que los hallazgos sean precisos y confiables. Se pueden utilizar varios métodos de detección de anomalías para crear un sistema de detección de anomalías.
La visualización es una herramienta poderosa para detectar anomalías en los datos, ya que permite a los científicos de datos identificar rápidamente posibles valores atípicos y patrones en los datos. Al graficar los datos mediante gráficos y diagramas, los analistas pueden inspeccionar visualmente el conjunto de datos en busca de puntos de datos o tendencias inusuales.
Las pruebas estadísticas pueden ser utilizadas por científicos de datos para detectar anomalías de datos comparando los datos observados con la distribución o patrón esperado.
Por ejemplo, la prueba de Grubbs se puede utilizar para identificar valores atípicos en un conjunto de datos comparando cada punto de datos con la media y la desviación estándar de los datos. Del mismo modo, la prueba de Kolmogorov-Smirnov se puede utilizar para determinar si un conjunto de datos sigue una distribución específica, como una distribución normal.
Los algoritmos de machine learning se pueden utilizar para detectar anomalías en los datos aprendiendo el patrón subyacente de los datos y, a continuación, identificando cualquier desviación de ese patrón. Algunos de los algoritmos de detección de anomalías de ML incluyen:
Un algoritmo de detección de anomalías puede aprender a identificar patrones y detectar datos anómalos mediante diversas técnicas de entrenamiento de aprendizaje automático. La cantidad de datos etiquetados, si los hay, en el conjunto de datos de entrenamiento de un equipo de datos determina cuál de las principales técnicas de detección de anomalías utilizarán: no supervisada, supervisada o semisupervisada.
Con las técnicas de detección de anomalías sin supervisión, los ingenieros de datos entrenan un modelo proporcionándole conjuntos de datos no etiquetados que utiliza para descubrir patrones o anomalías por sí mismo. Aunque estas técnicas son, con diferencia, las más utilizadas debido a su aplicación más amplia y relevante, requieren conjuntos de datos masivos y potencia informática. El machine learning no supervisado se encuentra con mayor frecuencia en escenarios de deep learning, que dependen de redes neuronales artificiales.
Las técnicas de detección supervisada de anomalías utilizan un algoritmo que se entrena en un conjunto de datos etiquetados que incluye instancias normales y anómalas. Debido a la falta general de disponibilidad de datos de entrenamiento etiquetados y la naturaleza inherentemente desequilibrada de las clases, estas técnicas de detección de anomalías rara vez se utilizan.
Las técnicas semisupervisadas maximizan los atributos positivos de la detección de anomalías no supervisadas y la detección de anomalías supervisadas. Al proporcionar a un algoritmo una parte de los datos etiquetados, se puede entrenar parcialmente. Luego, los ingenieros de datos utilizan el algoritmo parcialmente entrenado para etiquetar un conjunto de datos más grande de forma autónoma, denominado "pseudoetiquetado". Suponiendo que resulten fiables, estos puntos de datos recién etiquetados se combinan con el conjunto de datos original para afinar el algoritmo.
Encontrar la combinación adecuada de aprendizaje automático supervisado y no supervisado es vital para la automatización del aprendizaje automático Idealmente, la gran mayoría de las clasificaciones de datos se realizarían sin interacción humana de manera no supervisada. Dicho esto, los ingenieros de datos deben ser capaces de alimentar los algoritmos con datos de entrenamiento que ayuden a crear líneas de base habituales. Un enfoque semisupervisado permite escalar la detección de anomalías con la flexibilidad necesaria para establecer reglas manuales relativas a anomalías específicas.
Los modelos de detección de anomalías se utilizan ampliamente en las industrias de banca, seguros y comercio de acciones para identificar actividades fraudulentas en tiempo real, como transacciones no autorizadas, lavado de dinero, fraude con tarjetas de crédito, reclamos de declaraciones de impuestos falsas y patrones comerciales anormales.
Los sistemas de detección de intrusiones (IDS) y otras tecnologías de ciberseguridad utilizan la detección de anomalías para ayudar a identificar actividades de usuarios inusuales o sospechosas o patrones de tráfico de red, lo que indica posibles amenazas o ataques a la seguridad, como infecciones de malware o accesos no autorizados.
Los algoritmos de detección de anomalías se emplean a menudo junto con la visión artificial para identificar defectos en productos o embalajes mediante el análisis de imágenes de cámara de alta resolución, datos de sensores y métricas de producción.
La detección de anomalías puede utilizarse para monitorizar el rendimiento de los sistemas informáticos y mantener el buen funcionamiento de las operaciones mediante la identificación de patrones inusuales en los registros de los servidores y la reconstrucción de fallos a partir de patrones y experiencias pasadas para predecir posibles problemas o fallos.
Al identificar las irregularidades en los datos procedentes de los sensores del Internet de las cosas (IoT) y de los dispositivos de tecnología operativa (OT), la detección de anomalías puede ayudar a predecir los fallos de los equipos o las necesidades de mantenimiento en sectores como la aviación, la energía y el transporte. Cuando se utiliza para controlar los patrones de consumo de energía e identificar anomalías en el uso, la detección de anomalías puede conducir a una gestión más eficiente de la energía y a la detección precoz de averías en los equipos.
Las empresas también utilizan modelos de detección de anomalías para identificar patrones inusuales en el comportamiento del cliente, ayudar con la detección de fraudes, predecir la pérdida de clientes y mejorar las estrategias de marketing. En el comercio electrónico, la detección de anomalías se aplica para identificar reseñas falsas, apropiaciones de cuentas, comportamientos de compra anormales y otros indicadores de fraude o ciberdelincuencia.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.