Mi IBM Iniciar sesión Suscríbase

Inicio

Temas

Calidad de datos

¿Qué es la calidad de los datos?

¿Qué es la calidad de los datos?

Explore la solución de calidad de datos de IBM Regístrese para recibir actualizaciones sobre IA
 Ilustración con collage de pictogramas de nubes, gráfico circular, pictogramas gráficos
¿Qué es la calidad de los datos?

¿Qué es la calidad de los datos?

La calidad de los datos mide qué tan bien un conjunto de datos cumple con los criterios de precisión, integridad, validez, consistencia, singularidad, puntualidad y adecuación al propósito, y es fundamental para todas las iniciativas de gobernanza de datos dentro de una organización.

Los estándares de calidad de los datos garantizan que las compañías tomen decisiones basadas en datos para cumplir con sus objetivos comerciales. Si los problemas de datos, como datos duplicados, missing values, valores atípicos, no se abordan adecuadamente, las compañías aumentan su riesgo de resultados comerciales negativos. Según un reporte de Gartner, la mala calidad de los datos cuesta a las organizaciones un promedio de 12.9 millones de dólares cada año 1. Como resultado, surgieron herramientas de calidad de datos para mitigar el impacto negativo asociado con la mala calidad de los datos.

Cuando la calidad de los datos cumple con el estándar para su uso previsto, los consumidores de datos pueden confiar en los datos y aprovecharlos para mejorar la toma de decisiones, lo que lleva al desarrollo de nuevas estrategias comerciales o a la optimización de las existentes. Sin embargo, cuando no se cumple un estándar, las herramientas de calidad de datos proporcionan valor al ayudar a las compañías a diagnosticar problemas de datos subyacentes. Un análisis de causa principal permite a los equipos solucionar los problemas de calidad de los datos de forma rápida y eficaz.

La calidad de los datos no solo es una prioridad para las operaciones comerciales diarias; a medida que las empresas integran inteligencia artificial (IA) y tecnologías de automatización en sus flujos de trabajo, los datos de alta calidad serán cruciales para la adopción efectiva de estas herramientas. Como dice el viejo refrán, “basura dentro, basura fuera”, y esto también es cierto para los algoritmos de aprendizaje automático. Si el algoritmo está aprendiendo a predecir o clasificar en datos malos, podemos esperar que arroje resultados inexactos.

 

Desarrolle flujos de trabajo de IA responsables con gobernanza de IA

Conozca los componentes básicos y las mejores prácticas para ayudar a sus equipos a acelerar la IA responsable.

Contenido relacionado Lea la guía para líderes de datos
Calidad de datos frente a integridad de datos frente a perfilado de datos

Calidad de datos frente a integridad de datos frente a perfilado de datos

La calidad de los datos, la integridad de los datos y el perfilado de los datos están interrelacionados. La calidad de los datos es una categoría más amplia de Categories que las organizaciones emplean para evaluar la precisión, integridad, validez, coherencia, singularidad, puntualidad y adecuación de sus datos. La integridad de los datos se centra solo en un subconjunto de estos atributos, específicamente la precisión, la coherencia y la integridad. También se centra en esto más desde la perspectiva de la seguridad de los datos, implementando salvaguardas para evitar la corrupción de datos por parte de actores maliciosos.

La elaboración de perfiles de datos, por su parte, se centra en el proceso de revisión y limpieza de datos para mantener los estándares de calidad de los datos dentro de una organización. También puede abarcar la tecnología que respalda estos procesos.

Dimensiones de la calidad de los datos

Dimensiones de la calidad de los datos

La calidad de los datos se evalúa en función de una serie de dimensiones, que pueden variar según la fuente de información. Estas dimensiones se emplean para categorizar las métricas de calidad de los datos:

  • Integridad: Esto representa la cantidad de datos que son utilizables o completos. Si hay un alto porcentaje de missing values, puede dar lugar a un análisis sesgado o engañoso si los datos no son representativos de una muestra de datos típica.
  • Unicidad: esto explica la cantidad de datos duplicados en un conjunto de datos. Por ejemplo, al revisar los datos de los clientes, debe esperar que cada cliente tenga un ID de cliente único.
  •  Validez: Esta dimensión mide en qué medida los datos coinciden con el formato requerido para cualquier business rules. El formato suele incluir metadatos, como tipos de datos válidos, rangos, patrones, etc.
  • Puntualidad: Esta dimensión se refiere a la preparación de los datos dentro de un marco de tiempo esperado. Por ejemplo, los clientes esperan recibir un número de pedido inmediatamente luego de realizar una compra, y esos datos deben generarse en tiempo real.
  • Precisión: esta dimensión se refiere a la exactitud de los valores de los datos en función de la "fuente de verdad" acordada. Dado que puede haber varias fuentes que informen sobre la misma métrica, es importante designar una fuente de datos principal; se pueden emplear otras fuentes de datos para confirmar la precisión de la principal. Por ejemplo, las herramientas pueden verificar que cada fuente de datos tenga una tendencia en la misma dirección para reforzar la confianza en la precisión de los datos.
  • Coherencia: esta dimensión evalúa los registros de datos de dos conjuntos de datos diferentes. Como se mencionó anteriormente, se pueden identificar múltiples fuentes para informar sobre una sola métrica. El uso de diferentes fuentes para verificar tendencias y comportamientos de datos consistentes permite a las organizaciones confiar en los insights procesables de sus análisis. Esta lógica también se puede aplicar en torno a las relaciones entre los datos. Por ejemplo, el número de empleados de un departamento no debe exceder el número total de empleados de una compañía.
  • Idoneidad para el propósito: finalmente, la idoneidad para el propósito ayuda a garantizar que el activo de datos satisfaga una necesidad empresarial. Esta dimensión puede ser difícil de evaluar, especialmente con conjuntos de datos nuevos y emergentes.                                                                                                          

Estas métricas ayudan a los equipos a realizar evaluaciones de la calidad de los datos en todas sus organizaciones para evaluar qué tan informativos y útiles son los datos para un propósito determinado.

¿Por qué es importante la calidad de los datos?

¿Por qué es importante la calidad de los datos?

En la última década, los desarrollos dentro de la nube híbrida, la inteligencia artificial, el Internet of Things (IoT) y la edge computing llevaron al crecimiento exponencial del big data. Como resultado, la práctica de master data management (MDM) se volvió más compleja, lo que requiere más administradores de datos y medidas de seguridad rigurosas para garantizar una buena calidad de los datos.

Las compañías confían en la gestión de la calidad de los datos para respaldar sus iniciativas de análisis de datos, como los paneles de business intelligence. Sin esto, puede haber consecuencias devastadoras, incluso éticas, dependiendo de la industria (por ejemplo, atención médica). Las soluciones de calidad de datos existen para ayudar a las compañías a maximizar el uso de sus datos y generan beneficios clave, como:

  • Mejores decisiones empresariales: Los datos de alta calidad permiten a las organizaciones identificar indicadores clave de rendimiento (KPI) para medir el rendimiento de diversos programas, lo que permite a los equipos mejorarlos o hacerlos crecer con mayor eficacia. Las organizaciones que den prioridad a la calidad de los datos tendrán sin duda un beneficio sobre sus competidores.
  • Mejora de los procesos empresariales: Contar con buenos datos también significa que los equipos pueden identificar dónde hay fallas en los flujos de trabajo operativos. Esto es especialmente cierto en el sector de la cadena de suministro, que depende de los datos en tiempo real para determinar el inventario adecuado y su ubicación tras el envío.
  • Mayor satisfacción del cliente: la alta calidad de los datos brinda a las organizaciones, en particular a los equipos de marketing y ventas, insights asombrosos sobre sus compradores objetivo. Pueden integrar diferentes datos en todo el embudo de ventas y marketing, lo que les permite vender sus productos de manera más efectiva. Por ejemplo, la combinación de datos demográficos y comportamiento en la web puede informar cómo las organizaciones crean sus mensajes, invierten su presupuesto de marketing o dotan de personal a sus equipos de ventas para atender a clientes existentes o potenciales.
Recursos

Recursos

Gobierno de datos y privacidad para líderes de datos

Lea una guía de IBM sobre los componentes básicos de la gobernanza y la privacidad de los datos.

Tres pasos para la calidad de los datos y el rendimiento de la IA

Aprenda de los expertos en esta guía paso a paso sobre cómo adoptar un enfoque basado en valores para la calidad de los datos y las prácticas de IA.

Gartner Magic Quadrant™

Por decimoctavo año consecutivo, IBM fue reconocida como líder en el rubro de herramientas de integración de datos del Gartner Magic Quadrant™ 2023.

Dé el siguiente paso

Escale cargas de trabajo de IA para todos sus datos, en cualquier lugar, con IBM watsonx.data, un almacén de datos adecuado para su propósito creado sobre una arquitectura de lakehouse de datos abierta.

Explore watsonx.data Reserve una demostración en vivo
Citas

1 Gartner, "Cómo mejorar la calidad de sus datos" (el enlace se encuentra fuera de ibm.com), 14 de julio de 2021