¿Qué es la calidad de los datos?

Fotografía de dos hombres de negocios usando un ordenador portátil durante una reunión en una oficina moderna.

¿Qué es la calidad de los datos?

La calidad de los datos mide hasta qué punto un conjunto de datos cumple los criterios de exactitud, integridad, validez, coherencia, unicidad, actualidad y adecuación a su finalidad, y es fundamental para todas las iniciativas de gobierno de datos dentro de una organización.

Las normas de calidad de los datos garantizan que las empresas tomen decisiones basadas en datos para cumplir sus objetivos empresariales. Si no se abordan adecuadamente los problemas relacionados con los datos, como los datos duplicados, los valores que faltan o los valores atípicos, las empresas corren un mayor riesgo de obtener resultados empresariales negativos. Según un informe de Gartner, la mala calidad de los datos cuesta a las organizaciones una media de 12,9 millones de dólares al año 1. En consecuencia, han surgido herramientas de calidad de datos para mitigar el impacto negativo asociado a la mala calidad de los datos.

Cuando la calidad de los datos cumple la norma para su uso previsto, los consumidores de datos pueden confiar en ellos y aprovecharlos para mejorar la toma de decisiones, lo que conduce al desarrollo de nuevas estrategias empresariales o a la optimización de las existentes. Sin embargo, cuando no se cumple una norma, las herramientas de calidad de datos aportan valor ayudando a las empresas a diagnosticar los problemas subyacentes de los datos. Un análisis de la causa raíz permite a los equipos solucionar los problemas de calidad de los datos de forma rápida y eficaz.

La calidad de los datos no es solo una prioridad para las operaciones empresariales cotidianas; a medida que las empresas integren la inteligencia artificial (IA) y las tecnologías de automatización en sus flujos de trabajo, los datos de alta calidad serán cruciales para la adopción eficaz de estas herramientas. Como dice el viejo refrán, "basura que entra, basura que sale", y esto también es aplicable a los algoritmos de machine learning. Si el algoritmo está aprendiendo a predecir o clasificar a partir de datos erróneos, podemos esperar que arroje resultados inexactos.

Las últimas novedades sobre tecnología, respaldadas por conocimientos de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Se ha suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Calidad de datos vs. integridad de datos vs. elaboración de perfiles de datos

La calidad, la integridad y la elaboración de perfiles de los datos están interrelacionados. La calidad de los datos es una categoría más amplia de criterios que las organizaciones utilizan para evaluar sus datos en cuanto a exactitud, integridad, validez, coherencia, unicidad, actualidad y adecuación a su finalidad. La integridad de los datos se centra sólo en un subconjunto de estos atributos, concretamente en la exactitud, la coherencia y la exhaustividad. También lo aborda en mayor medida desde el punto de vista de la seguridad de los datos, al aplicar medidas de protección para evitar la corrupción de datos por parte de los ciberdelincuentes.

La elaboración de perfiles de datos, por su parte, se centra en el proceso de revisión y limpieza de datos para mantener los estándares de calidad de los datos dentro de una organización. También puede abarcar la tecnología que respalda estos procesos.

AI Academy

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso satisfactorio de la IA generativa.

Dimensiones de la calidad de los datos

La calidad de los datos se evalúa en función de una serie de dimensiones, que pueden variar según la fuente de información. Estas dimensiones se utilizan para categorizar las métricas de calidad de los datos:

  • Integridad: representa la cantidad de datos utilizables o completos. Si hay un alto porcentaje de valores perdidos, puede dar lugar a un análisis sesgado o engañoso si los datos no son representativos de una muestra de datos típica.
  • Unicidad: esto representa la cantidad de datos duplicados en un conjunto de datos. Por ejemplo, al revisar los datos de los clientes, es de esperar que cada cliente tenga un ID de cliente único.
  • Validez: esta dimensión mide cuántos datos coinciden con el formato requerido para cualquier regla de negocio. El formato suele incluir metadatos, como tipos de datos válidos, rangos, patrones, etc.
  • Puntualidad: esta dimensión se refiere a la disponibilidad de los datos en un plazo previsto. Por ejemplo, los clientes esperan recibir un número de pedido inmediatamente después de haber realizado una compra, y esos datos deben generarse en tiempo real.
  • Precisión: esta dimensión se refiere a la corrección de los valores de los datos basados en la "fuente fiable" acordada. Dado que puede haber múltiples fuentes que informen sobre la misma métrica, es importante designar una fuente de datos principal; otras fuentes de datos pueden utilizarse para confirmar la exactitud de la principal. Por ejemplo, las herramientas pueden comprobar que cada fuente de datos tiende en la misma dirección para reforzar la confianza en la precisión de los datos.
  • Coherencia: esta dimensión evalúa registros de datos de dos conjuntos de datos diferentes. Como ya se ha mencionado, se pueden identificar múltiples fuentes para informar sobre una única métrica. El uso de diferentes fuentes para comprobar la coherencia de las tendencias y el comportamiento de los datos permite a las organizaciones confiar en los conocimientos procesables de sus análisis. Esta lógica también puede aplicarse a las relaciones entre los datos. Por ejemplo, el número de empleados de un departamento no debe superar el número total de empleados de una empresa.
  • Adecuación a la finalidad: por último, la adecuación a la finalidad ayuda a garantizar que el activo de datos satisface una necesidad empresarial. Esta dimensión puede ser difícil de evaluar, sobre todo con conjuntos de datos nuevos y emergentes. Estas métricas ayudan a los equipos a llevar a cabo evaluaciones de la calidad de los datos en sus organizaciones para valorar hasta qué punto los datos son informativos y útiles para un fin determinado.

Estas métricas ayudan a los equipos a llevar a cabo evaluaciones de la calidad de los datos en sus organizaciones para valorar hasta qué punto los datos son informativos y útiles para un fin determinado.

¿Por qué es importante la calidad de los datos?

En la última década, los avances en el ámbito de la nube híbrida, la inteligencia artificial, el Internet de las cosas (IoT) y el edge computing han dado lugar a un crecimiento exponencial del big data. Como resultado, la práctica de la gestión de datos maestros (MDM) se ha vuelto más compleja y requiere más administradores de datos y medidas de protección rigurosas para garantizar una buena calidad de los datos.

Las empresas confían en la gestión de la calidad de los datos para respaldar sus iniciativas de análisis de datos, como los paneles de control de inteligencia empresarial. Sin ella, puede haber consecuencias devastadoras, incluso éticas, dependiendo del sector (por ejemplo, la sanidad). Las soluciones de calidad de datos existen para ayudar a las empresas a maximizar el uso de sus datos, y han impulsado beneficios clave, como:

  • Mejores decisiones empresariales: los datos de alta calidad permiten a las organizaciones identificar indicadores clave de rendimiento (KPI) para medir el rendimiento de diversos programas, lo que permite a los equipos mejorarlos o hacerlos crecer con mayor eficacia. Las organizaciones que dan prioridad a la calidad de los datos tendrán sin duda una ventaja sobre sus competidores.
  • Procesos empresariales mejorados: contar con buenos datos también significa que los equipos pueden identificar dónde hay fallos en los flujos de trabajo operativos. Esto es especialmente cierto en el sector de la cadena de suministro, que depende de los datos en tiempo real para determinar el inventario adecuado y su ubicación tras el envío.
  • Mayor satisfacción del cliente: la alta calidad de los datos proporciona a las organizaciones, en particular a los equipos de marketing y ventas, conocimientos increíbles sobre sus compradores objetivo. Pueden integrar distintos datos en el embudo de ventas y marketing, lo que les permite vender sus productos con mayor eficacia. Por ejemplo, la combinación de datos demográficos y comportamiento en Internet puede informar sobre cómo las organizaciones crean sus mensajes, invierten su presupuesto de marketing o dotan de personal a sus equipos de ventas para atender a clientes existentes o potenciales.
Soluciones relacionadas
IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explore StreamSets
IBM watsonx.data

Watsonx.data le permite escalar la analítica y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gobernado.

Descubra watsonx.data
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
De el siguiente paso

Diseñe una estrategia de datos que elimine los silos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data