¿Qué es la observabilidad de datos?

La observabilidad de los datos se refiere a la práctica de monitorizar, administrar y mantener los datos de una manera que garantice su calidad, disponibilidad y fiabilidad en varios procesos, sistemas y conductos dentro de una organización.

La observabilidad de los datos consiste en comprender realmente la salud de los datos y su estado en todo el ecosistema de datos. Incluye una serie de actividades que van más allá de la monitorización tradicional, que sólo describe un problema. La observabilidad de los datos puede ayudar a identificar, localizar y resolver problemas casi en tiempo real.

El uso de herramientas de observabilidad de datos es esencial para superar los problemas de datos incorrectos, que son la base de la fiabilidad de los datos. Estas herramientas permiten la monitorización automatizada, las alertas de clasificación, el seguimiento, las comparaciones, el análisis de la causa raíz, el registro, el linaje de datos y el seguimiento del acuerdo de nivel de servicio (SLA), todos los cuales trabajan juntos para ayudar a los profesionales a comprender la calidad de los datos de extremo a extremo, incluida la confiabilidad de los datos.

Implementar una solución de observabilidad de datos es especialmente importante para los equipos de datos modernos, donde los datos se utilizan para obtener información, desarrollar modelos de machine learning e impulsar la innovación. Garantiza que los datos sigan siendo un activo valioso en lugar de un pasivo potencial.

La observabilidad de los datos debe infundirse de manera consistente durante todo el ciclo de vida de los datos de un extremo a otro. De este modo, todas las actividades de gestión de datos involucradas están estandarizadas y centralizadas en todos los equipos para obtener una visión clara e ininterrumpida de los problemas y los impactos en toda la organización.

La observabilidad de los datos es la evolución natural del movimiento de la calidad de los datos, que está haciendo posible la práctica de operaciones de datos (DataOps).

El almacén de datos para la IA

Descubra el poder de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluidas mejoras para escalar la IA y las oportunidades de optimización de costes.

Por qué es importante la observabilidad de los datos

Es muy sencillo, la mayoría de las organizaciones creen que sus datos no son confiables:

El 82 % afirma que los problemas de calidad de los datos son una barrera para los proyectos de integración de datos¹
El 80 % de los ejecutivos no confía en sus datos²

No se puede subestimar el impacto de estos datos incorrectos. En mayo de 2022, Unity Software descubrió que había estado ingiriendo datos incorrectos de un cliente importante, lo que provocó una caída del 30 % de las acciones de la empresa³ y, en última instancia, le costó a la empresa 110 millones de dólares en pérdidas^de ingresos 4.

Tradicionalmente, ha sido difícil identificar los datos erróneos hasta que es demasiado tarde. A diferencia de cuando una aplicación se cae y afecta a miles de usuarios inmediatamente, las empresas pueden operar con datos erróneos sin saberlo durante bastante tiempo. Por ejemplo, un equipo de ventas sabría de inmediato si un panel de control de Salesforce no se está cargando, pero no se sabe cuánto tiempo tardarían en darse cuenta de que un panel de control mostraba datos incorrectos.

La observabilidad de los datos es la mejor defensa contra la transmisión de datos erróneos. Monitoriza los canales de datos para garantizar la entrega completa, precisa y oportuna de los datos, de modo que los equipos de datos puedan evitar el tiempo de inactividad de los datos, cumplir con los SLA de datos y mantener la confianza de la empresa en los datos que ve.

Evolución de la observabilidad de los datos

Los sistemas de datos modernos proporcionan una amplia variedad de funcionalidades, lo que permite a los usuarios almacenar y consultar sus datos de muchas maneras diferentes. Por supuesto, cuantas más funciones agregue, más complicado será asegurarse de que su sistema funcione correctamente. Esta complicación incluye:

Más fuentes de datos externas

En el pasado, la infraestructura de datos se construía para manejar pequeñas cantidades de datos, generalmente datos operativos de unas pocas fuentes de datos internas, y no se esperaba que los datos cambiaran mucho. Ahora, muchos productos de datos dependen de datos de fuentes internas y externas, y el gran volumen y velocidad con el que se recopilan estos datos puede causar desviaciones inesperadas, cambios de esquema, transformaciones y retrasos.

Transformaciones más complicadas

La ingestión de más datos procedentes de fuentes de datos externas implica la necesidad de transformar, estructurar y agregar todos esos datos en todos los demás formatos para hacerlos utilizables. Peor aún, si esos formatos cambian, se produce un efecto dominó de errores posteriores, ya que la lógica estrictamente codificada no se adapta al nuevo esquema.

Demasiado enfoque en la ingeniería analítica

Las complejas canalizaciones de ingesta han creado un mercado de herramientas para simplificar este proceso de extremo a extremo, automatizando principalmente los procesos de ingesta y extracción, transformación, carga (ETL)/extracción, carga, transformación (ELT). Al combinarlos, se obtiene una plataforma de datos que la industria analítica ha denominado la “pila de datos moderna” o MDS. El objetivo del MDS es reducir el tiempo que tardan los datos en ponerse a disposición de los usuarios finales (normalmente analistas) para que puedan empezar a utilizarlos más rápidamente. Sin embargo, cuanta más automatización tenga, menos control tendrá sobre cómo se entregan los datos. Estas organizaciones necesitan crear canalizaciones de datos personalizadas para poder garantizar mejor que los datos se entreguen según lo esperado.

La observabilidad de los datos y el movimiento DataOps

Las operaciones de datos (DataOps) son un flujo de trabajo que permite una canalización de entrega ágil y un bucle de retroalimentación para que las empresas puedan crear y mantener sus productos de manera más eficiente. DataOps permite a las empresas utilizar las mismas herramientas y estrategias en todas las fases de sus proyectos de análisis, desde la creación de prototipos hasta la implementación del producto.

El ciclo DataOps describe las actividades fundamentales necesarias para mejorar la gestión de datos dentro del flujo de trabajo de DataOps. Este ciclo consta de tres etapas distintas: detección, concienciación e iteración.

Detección

Es importante que este ciclo comience con la detección, porque los cimientos del movimiento DataOps se basan en una iniciativa de calidad de los datos.

Esta primera etapa del ciclo de DataOps se centra en la validación. Estos incluyen las mismas comprobaciones de calidad de los datos que se han utilizado desde el inicio del almacén de datos. Estaban analizando el esquema de columna y las validaciones a nivel de fila. Básicamente, se asegura de que todos los conjuntos de datos se adhieran a las reglas de negocio de su sistema de datos.

Este marco de calidad de los datos que vive en la etapa de detección es importante, pero reaccionario por su propia naturaleza. Le brinda la posibilidad de saber si los datos que ya están almacenados en su data lake o almacén de datos (y que probablemente ya se están utilizando) están en la forma esperada.

También es importante tener en cuenta que está validando conjuntos de datos y siguiendo reglas comerciales que conoce. Si no conoce las causas de los problemas, no puede establecer nuevas normas empresariales para que las sigan sus ingenieros. Esta comprensión alimenta la demanda de un enfoque de observabilidad continua de datos que se vincule directamente con todas las etapas del ciclo de vida de sus datos, comenzando con sus datos de origen.

Concienciación

La concienciación es una etapa centrada en la visibilidad de la fase de DataOps. Aquí es donde entra en escena la conversación sobre el gobierno de datos y se introduce un enfoque que prioriza los metadatos. La centralización y estandarización de los metadatos de canalizaciones y conjuntos de datos en todo el ecosistema de datos ofrece a los equipos visibilidad de los problemas de toda la organización.

La centralización de los metadatos es crucial para que la organización conozca el estado de sus datos de un extremo a otro. Hacer esto le permite avanzar hacia un enfoque más proactivo para resolver problemas de datos. Si hay datos incorrectos que ingresan a su “dominio”, puede rastrear el error hasta cierto punto en el nivel superior de su sistema de datos. Por ejemplo, el equipo de ingeniería de datos A ahora puede pasar a ver las canalizaciones del equipo de ingeniería de datos B y ser capaz de comprender lo que está sucediendo y colaborar con ellos para solucionar el problema.

Lo contrario también se aplica. El equipo de ingeniería de datos B puede detectar un problema y rastrear el impacto que tendrá en las dependencias posteriores. Esto significa que el equipo de ingeniería de datos A sabrá que se producirá un problema y podrá tomar las medidas necesarias para contenerlo.

Iteración

Aquí, los equipos se centran en los datos como código. Esta etapa del ciclo se centra en el proceso. Los equipos se aseguran de contar con estándares repetibles y sostenibles que se aplicarán a todo el desarrollo de datos para garantizar que obtengan los mismos datos confiables al final de esas canalizaciones.

La mejora gradual del estado general de la plataforma de datos ahora es posible gracias a la detección de problemas, el conocimiento de las causas raíz ascendentes y los procesos eficientes para la iteración.

Ventajas de la observabilidad de los datos

Una estrategia de observabilidad de los datos bien ejecutada puede ofrecer una serie de beneficios que contribuyen a mejorar la calidad de los datos, la toma de decisiones, la fiabilidad y el rendimiento general de la organización. Incluyen:

Mayor calidad de los datos

La observabilidad de los datos permite a los equipos detectar problemas como valores que faltan, registros duplicados o formatos inconsistentes antes de que afecten a las dependencias posteriores. Con datos de mayor calidad, las organizaciones pueden tomar mejores decisiones basadas en datos que conducen a mejores operaciones, satisfacción del cliente y rendimiento general.

Solución de problemas más rápida

La observabilidad de los datos permite a los equipos identificar rápidamente errores o desviaciones en los datos a través de la detección de anomalías, la monitorización en tiempo real y las alertas. La solución de problemas y la resolución de problemas más rápida ayudan a minimizar el coste y la gravedad del tiempo de inactividad.

Colaboración mejorada

Mediante el uso de paneles de control compartidos ofrecidos por las plataformas de observabilidad de los datos, varias partes interesadas pueden obtener visibilidad sobre el estado de los conjuntos de datos críticos, lo que puede fomentar una mejor colaboración entre los equipos.

Mejora de la eficiencia

Las herramientas de observabilidad de los datos ayudan a identificar cuellos de botella y problemas de rendimiento, lo que permite a los ingenieros optimizar sus sistemas para un mejor uso de los recursos y tiempos de procesamiento más rápidos. Además, la automatización reduce el tiempo y el esfuerzo necesarios para mantener la salud de sus datos, lo que permite a los ingenieros, analistas y científicos de datos centrar sus esfuerzos en obtener valor de los datos.

Mejora del cumplimiento

La observabilidad de los datos puede ayudar a las organizaciones de sectores altamente regulados, como las finanzas, la sanidad y las telecomunicaciones, a garantizar que sus datos cumplan con los estándares necesarios de precisión, coherencia y seguridad. Esto reduce el riesgo de incumplimiento y las sanciones asociadas.

Mejor experiencia de los clientes

Los datos de alta calidad son esenciales para comprender las necesidades, preferencias y comportamientos de los clientes, lo que, a su vez, permite a las organizaciones ofrecer experiencias más personalizadas y pertinentes. La observabilidad de los datos puede ayudar a las organizaciones a mantener datos precisos y actualizados sobre los clientes, lo que se traduce en una mayor satisfacción y fidelidad de éstos.

Aumento de los ingresos

Al mejorar la calidad de los datos a través de la observabilidad, las organizaciones pueden desbloquear nuevos conocimientos, identificar tendencias y descubrir posibles oportunidades de generación de ingresos. Al aprovechar al máximo sus activos de datos, las organizaciones pueden aumentar sus ingresos y crecimiento.

Los 5 pilares de la observabilidad de los datos

En conjunto, los cinco pilares de la observabilidad de los datos proporcionan información valiosa sobre la calidad y la fiabilidad de los datos.

1. Actualidad

La actualidad describe cómo actualizar sus datos y con qué frecuencia se actualizan. La obsolescencia de los datos se produce cuando hay intervalos importantes en el tiempo en los que los datos no se han actualizado. A menudo, cuando las canalizaciones de datos se rompen, se debe a un problema de actualización.

2. Distribución

La distribución, un indicador del estado de los datos a nivel de campo, se refiere a si los datos se encuentran o no dentro de un rango aceptado. Las desviaciones de la distribución esperada pueden indicar problemas de calidad de los datos, errores o cambios en las fuentes de datos subyacentes.

3. Volumen

El volumen se refiere a la cantidad de datos que se generan, se ingieren, se transforman y se mueven a través de varios procesos y canalizaciones. También hace referencia a la integridad de las tablas de datos. El volumen es un indicador clave de si la ingesta de datos cumple o no con los umbrales esperados.

4. Esquema

El esquema describe la organización de los datos. Los cambios de esquema suelen provocar datos rotos. La observabilidad de los datos ayuda a garantizar que los datos se organicen de forma coherente, sean compatibles entre diferentes sistemas y mantengan su integridad durante todo su ciclo de vida.

5. Linaje

El propósito de linaje es responder a la pregunta: "¿Dónde?" cuando los datos se rompen. Analiza los datos desde su origen hasta su ubicación final y anota cualquier cambio, incluido lo que cambió, por qué cambió y cómo cambió a lo largo del camino. La mayoría de las veces, el linaje se representa visualmente.

Observabilidad de los datos vs. calidad de los datos

La observabilidad de los datos admite la calidad de los datos, pero los dos son aspectos diferentes de la gestión de datos.

Si bien las prácticas de observabilidad de los datos pueden señalar problemas de calidad en los conjuntos de datos, no pueden garantizar por sí solas una buena calidad de los datos. Eso requiere esfuerzos para solucionar los problemas de datos y evitar que ocurran en primer lugar. Por otro lado, una organización puede tener una calidad de datos sólida incluso si no implementa una iniciativa de observabilidad de los datos.

La monitorización de la calidad de los datos mide si el estado de los conjuntos de datos es lo suficientemente bueno para sus usos previstos en aplicaciones operativas y analíticas. Para hacer esa determinación, los datos se examinan en función de varias dimensiones de calidad, como la precisión, la integridad, la coherencia, la validez, la fiabilidad y la puntualidad.

Observabilidad de los datos vs. gobierno de datos

La observabilidad de los datos y el gobierno de datos son procesos complementarios que se apoyan mutuamente.

El gobierno de datos tiene como objetivo garantizar que los datos de una organización estén disponibles, sean utilizables, coherentes y seguros, y que se utilicen de conformidad con las normas y políticas internas. Los programas de gobierno a menudo incorporan o están estrechamente vinculados a los esfuerzos de mejora de la calidad de los datos.

Un programa sólido de gobierno de datos ayuda a eliminar los silos de datos, los problemas de integración de datos y la mala calidad de los datos que pueden limitar el valor de las prácticas de observabilidad de datos.

La observabilidad de los datos puede ayudar al programa de gobernanza al monitorizar los cambios en la calidad, disponibilidad y linaje de los datos.

La jerarquía de la observabilidad de los datos

No toda la observabilidad de los datos es igual. El nivel de contexto que puede lograr depende de los metadatos que pueda recopilar y proporcionar visibilidad. Esto se conoce como la jerarquía de observabilidad de los datos. Cada nivel es una base para el siguiente y le permite alcanzar granos cada vez más finos de observabilidad.

Monitorización del estado operativo, datos en reposo y en movimiento

Obtener visibilidad del estado operativo y del conjunto de datos es una base sólida para cualquier marco de observabilidad de los datos.

Datos en reposo

La monitorización de la salud del conjunto de datos se refiere a la monitorización del conjunto de datos en su conjunto. Obtendrá conocimiento del estado de sus datos mientras se encuentran en una ubicación fija, lo que se conoce como "datos en reposo".

La monitorización de conjuntos de datos responde a preguntas como:

¿Llegó este conjunto de datos a tiempo?
¿Se actualiza este conjunto de datos con la frecuencia necesaria?
¿El volumen esperado de datos está disponible en este conjunto de datos?

Datos en movimiento

La monitorización operativa se refiere al control del estado de sus conductos. Este tipo de monitorización le permite conocer el estado de sus datos mientras se transforman y se desplazan por sus conductos. Este estado de los datos se denomina "datos en movimiento".

La monitorización de conductos responde a preguntas como:

¿Cómo afecta el rendimiento de la canalización a la calidad del conjunto de datos?
¿En qué condiciones se considera que una carrera es exitosa?
¿Qué operaciones están transformando el conjunto de datos antes de que llegue al lago o al almacén?

Si bien la monitorización de conjuntos de datos y canalizaciones de datos generalmente se separan en dos actividades diferentes, es esencial mantenerlas acopladas para lograr una base sólida de observabilidad. Estos dos estados están altamente interconectados y dependen el uno del otro. Aislar estas dos actividades en diferentes herramientas o equipos hace que sea más difícil obtener una vista de alto nivel del estado de los datos.

Generación de perfiles a nivel de columna

La generación de perfiles de nivel de columna es clave para esta jerarquía. Una vez que se ha establecido una base sólida para ello, la generación de perfiles a nivel de columna le proporciona la información que necesita para establecer nuevas reglas de negocio para su organización y aplicar las existentes en el nivel de columna en lugar de solo en el nivel de fila.

Este nivel de conocimiento le permite mejorar su marco de calidad de los datos de una manera muy procesable.

Le permite responder a preguntas como:

¿Cuál es el rango esperado para una columna?
¿Cuál es el esquema esperado de esta columna?
¿Cómo de única es esta columna?

Validación a nivel de fila

A partir de aquí, puede pasar al último nivel de observabilidad: la validación a nivel de fila. De este modo, se examinan los valores de datos de cada fila y se valida que son precisos.

Este tipo de observabilidad tiene en cuenta:

¿Están los valores de datos de cada fila en la forma esperada?
¿Los valores de los datos tienen la longitud exacta que espera que tengan?
Dado el contexto, ¿hay suficiente información aquí para ser útil para el usuario final?

Cuando las organizaciones tienen una visión de túnel sobre la validación a nivel de fila, se hace difícil ver el bosque por los árboles. Al crear un marco de observabilidad que comience con la monitorización operativa y de conjuntos de datos, puede obtener un contexto general sobre el estado de sus datos y, al mismo tiempo, centrarse en la causa raíz de los problemas y sus impactos posteriores.

Implementación de un marco de observabilidad de los datos

A continuación se detallan los pasos principales que normalmente implican la construcción de un proceso de observabilidad exitoso. El proceso implica la integración de diversas herramientas y tecnologías, así como la colaboración de diferentes equipos dentro de una organización.

Defina las métricas clave: comience por identificar las métricas críticas que necesita rastrear. Esto podría incluir métricas de calidad de datos, volúmenes de datos, latencia, tasas de error y utilización de recursos. La elección de las métricas dependerá de las necesidades específicas de su negocio y de la naturaleza de su canalización de datos.
Elija las herramientas adecuadas: a continuación, elija las herramientas que necesitará para la recopilación, el almacenamiento, el análisis y las alertas de datos. Asegúrese de que las herramientas que seleccione, incluidas las de código abierto, sean compatibles con su infraestructura existente y puedan manejar la escala de sus operaciones.
Estandarizar bibliotecas: implemente una infraestructura que permita a los equipos hablar el mismo idioma y comunicarse abiertamente sobre los problemas. Esto incluye bibliotecas estandarizadas para API y gestión de datos (es decir, consultar almacén de datos, leer/escribir desde el data lake, extraer datos de API, etc.) y calidad de los datos.
Instruya su canalización de datos: la instrumentación implica integrar bibliotecas o agentes de recopilación de datos en su canalización de datos. Esto le permite recopilar las métricas definidas de varias etapas de su canalización. El objetivo es lograr una visibilidad integral, por lo que es clave asegurarse de que se instrumenten todas las etapas cruciales.
Configure una solución de almacenamiento de datos: las métricas recopiladas deben almacenarse en una base de datos o en una plataforma de series temporales que pueda escalar a medida que crecen los datos. Asegúrese de que la solución de almacenamiento que elija pueda manejar el volumen y la velocidad de sus datos.
Implemente herramientas de análisis de datos: estas herramientas ayudan a obtener información de las métricas almacenadas. Para un análisis más profundo, considere la posibilidad de utilizar herramientas que proporcionen visualizaciones intuitivas y admitan consultas complejas.
Configure alertas y notificaciones: establezca un sistema de envío de alertas automatizadas cuando se superen umbrales predefinidos o se detecten anomalías. Esto ayudará a su equipo a responder rápidamente a los problemas, minimizando cualquier posible tiempo de inactividad.
Intégrese con las plataformas de gestión de incidentes: además de detectar problemas, la observabilidad también implica la gestión eficaz de los problemas. La integración de su canal de observabilidad con un sistema de gestión de incidentes puede ayudar a optimizar los flujos de trabajo de respuesta.
Revise y actualice periódicamente su canal de observabilidad: a medida que su empresa evolucione, también lo harán sus datos y requisitos. La revisión y actualización periódicas de la canalización de observabilidad garantiza que seguirá proporcionando la información y el rendimiento necesarios.

Crear una canalización de observabilidad es un proceso continuo de aprendizaje y refinamiento. Es crucial empezar poco a poco, aprender de la experiencia y ampliar gradualmente sus capacidades de observabilidad.

Soluciones relacionadas

IBM Databand

IBM Databand es un software de observabilidad para canalizaciones y almacenes de datos, que recopila automáticamente metadatos para crear líneas de base históricas, detectar anomalías y clasificar alertas para solucionar problemas de calidad de datos.

Explorar Databand

IBM DataStage

Al dar soporte a los patrones ETL y ELT, IBM Datastage ofrece una integración de datos flexible y casi en tiempo real tanto en las instalaciones como en la nube.

Explorar DataStage

IBM Knowledge Catalog

IBM Knowledge Catalog, un catálogo de datos inteligente en la era de la IA, le permite acceder, conservar, categorizar y compartir datos, activos de conocimiento y sus relaciones, independientemente de dónde se encuentren.