¿Qué es la observabilidad de datos?

La observabilidad de los datos se refiere a la práctica de monitorear, gestionar y mantener los datos de manera que se garantice su calidad, disponibilidad y confiabilidad en diversos procesos, sistemas y pipelines (canalizaciones) dentro de una organización.

La observabilidad de los datos consiste en comprender realmente la condición en la que se encuentran sus datos y su estado en todo su ecosistema de datos. Incluye diversas actividades que van más allá del monitoreo tradicional, que solo describe un problema. La observabilidad de los datos puede ayudar a identificar, encontrar problemas respecto de los datos y resolverlos casi en tiempo real.

Utilizar herramientas de observabilidad de los datos es fundamental para adelantarse a los problemas de datos incorrectos, para poder garantizar su confiabilidad. Estas herramientas permiten el monitoreo automatizado, las alertas de priorización, el seguimiento, las comparaciones, el análisis de la causa principal, el registro, el linaje de datos y el seguimiento de los acuerdos de nivel de servicio (SLA), todo lo cual funciona en conjunto para ayudar a los profesionales a comprender la calidad de los datos de extremo a extremo, incluida la confiabilidad de los datos.

Implementar una solución de observabilidad de los datos es especialmente importante para los equipos de datos modernos, donde los datos se utilizan para obtener insights, desarrollar modelos de aprendizaje automático e impulsar la innovación. Garantiza que los datos sigan siendo un activo valioso en lugar de un posible pasivo.

La observabilidad de los datos debe infundirse de manera constante durante todo el ciclo de vida de los datos de extremo a extremo. De esa manera, todas las actividades de gestión de datos involucradas se estandarizan y centralizan en todos los equipos para obtener una visión clara e ininterrumpida de los problemas y los impactos en toda la organización.

La observabilidad de los datos es la evolución natural del movimiento por la calidad de los datos, que está haciendo posible la práctica de las operaciones de datos (DataOps).

El almacenamiento de datos para la IA

Descubra el poder de integrar una estrategia de data lakehouse (arquitectura que combina los beneficios de los data lakes [lagos de datos] y de los almacenes de datos) en su arquitectura de datos, incluyendo mejoras para escalar la IA y oportunidades de optimización de costos.

Por qué es importante la observabilidad de los datos

Simple y llanamente, la mayoría de las organizaciones creen que sus datos no son confiables:

El 82 % afirma que las preocupaciones sobre la calidad de los datos son una barrera para los proyectos de integración de datos¹
El 80 % de los ejecutivos no confía en sus datos²

El impacto de estos datos erróneos no puede subestimarse. En mayo de 2022, Unity Software descubrió que había estado ingiriendo datos incorrectos de un cliente grande, lo que provocó una caída del 30 % en las acciones de la empresa³ y, en última instancia, le costó a la empresa 110 millones USD en ingresos perdidos⁴.

Tradicionalmente, ha sido difícil identificar datos incorrectos hasta que es demasiado tarde. A diferencia de cuando una aplicación deja de funcionar y afecta a miles de usuarios de inmediato, las empresas pueden operar con datos incorrectos sin saberlo durante bastante tiempo. Por ejemplo, un equipo de ventas sabría de inmediato si un panel de Salesforce no se estuviera cargando, pero no se sabe cuánto tiempo les llevaría darse cuenta de que un panel mostraba datos incorrectos.

La observabilidad de los datos es la mejor defensa contra la transmisión de datos erróneos. Supervisa los pipelines de datos para garantizar una entrega de datos completa, precisa y oportuna, de modo que los equipos de datos puedan evitar el tiempo de inactividad de los datos, cumplir los SLA de datos y mantener la confianza de la empresa en los datos que observa.

La evolución de la observabilidad de los datos

Los sistemas de datos modernos proporcionan una amplia variedad de funcionalidades, permitiendo así que los usuarios almacenen y consulten sus datos de diversas maneras. Por supuesto, cuanta más funcionalidad agregue, más complicado se vuelve asegurar que su sistema funcione correctamente. Esta complicación incluye:

Más fuentes de datos externas

En el pasado, la infraestructura de datos se creó para manejar pequeñas cantidades de datos, generalmente datos operativos de unas pocas fuentes de datos internas, y no se esperaba que los datos cambiaran mucho. Ahora, muchos productos de datos dependen de datos de fuentes internas y externas, y tan solo el volumen y la velocidad con la que se recopilan estos datos pueden causar desviaciones inesperadas, cambios de esquema, transformaciones y retrasos.

Transformaciones más complicadas

Más ingesta de datos de fuentes de datos externas significa que es necesario transformar, estructurar y agregar todos esos datos en todos los demás formatos para que sean utilizables. Peor aún, si esos formatos cambian en lo más mínimo, se provoca un efecto dominó de fallas en sentido descendente, ya que la lógica estrictamente codificada no logra adaptarse al nuevo esquema.

Demasiada atención en la ingeniería analítica

Los complejos pipelines de ingesta han creado un mercado de herramientas para simplificar este proceso integral, sobre todo automatizando los procesos de ingesta y extracción, transformación y carga (ETL) y extracción, carga y transformación (ELT). Combinándolos, se obtiene una plataforma de datos que la industria de la analítica ha bautizado como “pila de datos moderna” o MDS (sigla en inglés de modern data stack). El objetivo de la MDS es reducir el tiempo que tardan los datos en ponerse a disposición de los usuarios finales (normalmente analistas) para que puedan empezar a utilizarlos más rápidamente. Sin embargo, cuanta más automatización, menos control se tiene sobre la entrega de datos. Estas organizaciones necesitan crear canalizaciones de datos personalizadas para poder garantizar mejor que los datos se entreguen según lo previsto.

La observabilidad de los datos y el movimiento de DataOps

Las operaciones de datos (DataOps) son un flujo de trabajo que permite un delivery pipeline ágil y un bucle de retroalimentación para que las empresas puedan crear y mantener sus productos de manera más eficiente. DataOps permite a las empresas utilizar las mismas herramientas y estrategias en todas las fases de sus proyectos de analytics, desde la creación de prototipos hasta el despliegue de productos.

El ciclo de DataOps describe las actividades fundamentales necesarias para mejorar la gestión de datos dentro del flujo de trabajo de DataOps. Este ciclo consta de tres etapas distintas: detección, concienciación e iteración.

Detección

Es importante que este ciclo comience con la detección porque los fundamentos del movimiento de DataOps se basan en una iniciativa de calidad de los datos.

Esta primera etapa del ciclo de DataOps se centra en la validación. Estas incluyen las mismas comprobaciones de calidad de los datos que se han utilizado desde los inicios del almacén de datos (data warehouse). Se enfocan en el esquema de columnas y en las validaciones a nivel de fila. Esencialmente, se asegura de que todos los conjuntos de datos se adhieran a las business rules (reglas de negocio) en su sistema de datos.

Este marco de calidad de los datos que se adopta en la etapa de detección es importante pero reaccionario por su propia naturaleza. Le permite saber si los datos que ya están almacenados en su lago de datos (data lake) o almacén de datos (data warehouse) (y probablemente ya se están utilizando) se encuentran en la forma prevista.

También es importante tener en cuenta que está validando conjuntos de datos y siguiendo las business rules que conoce. Si no conoce las causas de los problemas, no puede establecer nuevas business rules para sus ingenieros. Esto alimenta la necesidad de considerar una perspectiva de observabilidad de los datos continua que se vincule directamente con todas las etapas del ciclo de vida de los datos, comenzando por el origen de sus datos.

Concienciación

La concienciación es una etapa centrada en la visibilidad de la fase de DataOps. Aquí es donde entra en escena la conversación sobre la gobernanza de datos y se introduce un enfoque que da prioridad a los metadatos. La centralización y estandarización de los metadatos de pipelines y conjuntos de datos en todo su ecosistema de datos brinda a los equipos visibilidad de los problemas dentro de toda la organización.

La centralización de los metadatos es crucial para que la organización cree conciencia sobre el estado integral de sus datos. Esto le permite avanzar hacia un enfoque más proactivo para resolver problemas de datos. Si ingresan datos erróneos a su “dominio”, puede rastrear el error hasta cierto punto anterior en su sistema de datos. Por ejemplo, el equipo de ingeniería de datos A ahora puede observar los pipelines del equipo de ingeniería de datos B y ser capaz de comprender lo que está sucediendo y colaborar con ellos para arreglar el problema.

También se aplica a la inversa. El equipo de ingeniería de datos B puede detectar un problema y rastrear el impacto que tendrá en las dependencias posteriores. Esto significa que el equipo de ingeniería de datos A sabrá que ocurrirá un problema y puede tomar las medidas necesarias para contenerlo.

Iteración

Aquí, los equipos se centran en los datos como código. Esta etapa del ciclo se centra en el proceso. Los equipos se aseguran de contar con estándares repetibles y sostenibles que se aplicarán a todo el desarrollo de datos para garantizar la obtención de los mismos datos confiables al final de esos pipelines.

La mejora gradual del estado general de la plataforma de datos ahora es posible gracias a la detección de problemas, la conciencia de las causas principales anteriores y los procesos eficientes para la iteración.

Beneficios que brinda la observabilidad de los datos

Una estrategia de observabilidad de los datos bien ejecutada puede ofrecer diversos beneficios que contribuyen a mejorar la calidad de los datos, la toma de decisiones, la confiabilidad y el rendimiento general de la organización. Éstos incluyen:

Mejor calidad de los datos

La observabilidad de los datos permite a los equipos detectar a tiempo problemas como valores faltantes (missing values), registros duplicados o formatos incoherentes, antes de que afecten a las dependencias posteriores. Con datos de mejor calidad, las organizaciones pueden tomar mejores decisiones basadas en datos que derivan en mejores operaciones, satisfacción del cliente y rendimiento general.

Detección y solución de problemas más rápida

La observabilidad de los datos permite a los equipos identificar rápidamente errores o desviaciones en los datos a través de detección de anomalías, monitoreo en tiempo real y alertas. Una resolución de problemas más rápida ayuda a minimizar el costo y la gravedad del tiempo de inactividad.

Mejora en la colaboración

Al utilizar paneles compartidos que ofrecen las plataformas de observabilidad de datos, varios stakeholders pueden obtener visibilidad del estado de los conjuntos de datos críticos, lo que puede fomentar una mejor colaboración entre los equipos.

Mayor Eficiencia

Las herramientas de observabilidad de los datos ayudan a identificar cuellos de botella y problemas de rendimiento, permitiendo así que los ingenieros optimicen sus sistemas para hacer un mejor uso de los recursos y acelerar los tiempos de procesamiento. Además, la automatización reduce el tiempo y el esfuerzo necesarios para mantener el buen estado de sus datos, lo que permite a los ingenieros de datos, analistas y científicos de datos centrar sus esfuerzos en obtener valor de los datos.

Mejor cumplimiento normativo

La observabilidad de los datos puede ayudar a las organizaciones de industrias altamente reguladas, como las finanzas, la atención médica y las telecomunicaciones, a garantizar que sus datos cumplan con los estándares necesarios de precisión, consistencia y seguridad. Esto reduce el riesgo de incumplimiento y las sanciones asociadas.

Mejorar la experiencia del cliente

Los datos de alta calidad son esenciales para comprender las necesidades, preferencias y comportamientos de los clientes, lo que, a su vez, permite a las organizaciones ofrecer experiencias más personalizadas y relevantes. La observabilidad de los datos puede ayudar a las organizaciones a mantener datos de clientes precisos y actualizados, lo que lleva a una mayor satisfacción y lealtad del cliente.

Aumento de ingresos

Al mejorar la calidad de los datos a través de la observabilidad, las organizaciones pueden desbloquear nuevos conocimientos, identificar tendencias y descubrir posibles oportunidades de generación de ingresos. Al aprovechar al máximo sus activos de datos, las organizaciones pueden aumentar sus ingresos y crecimiento.

Los cinco pilares de la observabilidad de los datos

Juntos, los cinco pilares de la observabilidad de los datos proporcionan valiosos insights sobre la calidad y confiabilidad de sus datos.

1. Vigencia (Freshness)

La vigencia describe qué tan actualizados están sus datos y con qué frecuencia se actualizan. La obsolescencia de los datos ocurre cuando hay lagunas importantes en el tiempo cuando los datos no se han actualizado. A menudo, cuando los pipelines de datos se interrumpen se debe a un problema de vigencia.

2. Distribución

La distribución, un indicador del estado a nivel de campo de sus datos, se refiere a si los datos se encuentran o no dentro de un rango aceptado. Las desviaciones de la distribución prevista pueden indicar problemas de calidad de los datos, errores o cambios en las fuentes de datos subyacentes.

3. Volumen

El volumen se refiere a la cantidad de datos que se generan, ingieren, transforman y mueven a través de diversos procesos y pipelines. También se refiere a la integridad de sus tablas de datos. El volumen es un indicador clave de si su ingesta de datos está alcanzando o no los umbrales esperados.

4. Esquema

El esquema describe la organización de sus datos. Los cambios de esquema a menudo dan como resultado datos erróneos. La observabilidad de los datos ayuda a garantizar que sus datos estén organizados de manera coherente, sean compatibles en diferentes sistemas y mantengan su integridad a lo largo de su ciclo de vida.

5. Linaje

El propósito del linaje es responder a la pregunta “¿Dónde?” cuando se interrumpen los datos. Examina los datos desde su origen hasta su ubicación final y anota los cambios, por ejemplo, qué cambió, por qué cambió y cómo cambió a lo largo del camino. El linaje suele representarse visualmente.

Observabilidad de los datos frente a calidad de los datos

La observabilidad de los datos respalda la calidad de los datos, pero los dos son aspectos diferentes de la gestión de datos.

Si bien las prácticas de observabilidad de datos pueden señalar problemas de calidad en los conjuntos de datos, por sí solas no pueden garantizar la buena calidad de los datos. Eso requiere esfuerzos para arreglar los problemas de datos y evitar que ocurran en primer lugar. Por otro lado, una organización puede tener una sólida calidad de datos incluso si no implementa una iniciativa de observabilidad de los datos.

El control de la calidad de los datos mide si el estado de los conjuntos de datos es suficientemente bueno para los usos previstos en sus aplicaciones operativa y analytics. Para tomar esa determinación, los datos se examinan en función de varias dimensiones de calidad, como precisión, integridad, coherencia, validez, confiabilidad y relevancia.

Observabilidad de los datos frente a gobernanza de datos

La observabilidad de los datos y la gobernanza de datos son procesos complementarios que se respaldan mutuamente.

Con la gobernanza de datos se pretende garantizar que los datos de una organización estén disponibles, sean utilizables, coherentes y seguros, y que se utilicen de acuerdo con las normas y políticas internas. Los programas de gobernanza a menudo incorporan o están estrechamente vinculados a los esfuerzos de mejora de la calidad de los datos.

Un programa sólido de gobernanza de datos ayuda a eliminar los silos de datos, los problemas de integración de datos y la mala calidad de los datos que pueden limitar el valor de las prácticas de observabilidad de los datos.

La observabilidad de los datos puede ayudar al programa de gobernanza al monitorear los cambios en la calidad, la disponibilidad y el linaje de los datos.

La jerarquía de la observabilidad de los datos

No toda la observabilidad de los datos es igual. El nivel de contexto que se puede lograr depende de los metadatos que se pueden recopilar y de los cuales dar visibilidad. Esto se conoce como la jerarquía de la observabilidad de los datos. Cada nivel es una base para el siguiente y le permite lograr una observabilidad cada vez más granular.

Monitoreo del estado operativo: datos en reposo y en movimiento

Obtener visibilidad del estado operativo y del conjunto de datos es una base sólida para cualquier marco de observabilidad de los datos.

Datos en reposo

Monitorear el estado del conjunto de datos se refiere a supervisar su conjunto de datos como un todo. Tendrá conciencia del estado de sus datos mientras están en una ubicación fija, lo que se conoce como “datos en reposo”.

El monitoreo de conjuntos de datos responde a preguntas como:

¿Este conjunto de datos llegó a tiempo?
¿Se actualiza este conjunto de datos con la frecuencia necesaria?
¿Está disponible el volumen previsto de datos en este conjunto de datos?

Datos en movimiento

El monitoreo de los sistemas operativos se refiere a supervisar el estado de sus pipelines. Este tipo de monitoreo le permite conocer el estado de sus datos mientras se transforman y se mueven a través de sus pipelines. Este estado de los datos se conoce como “datos en movimiento”.

El monitoreo de pipelines responde a preguntas como:

¿Cómo afecta el rendimiento de los pipelines a la calidad del conjunto de datos?
¿Bajo qué condiciones se considera que una ejecución se ha realizado correctamente?
¿Qué operaciones están transformando el conjunto de datos antes de que llegue al lago o al almacén?

Si bien el monitoreo de conjuntos de datos y pipelines de datos generalmente se separan en dos actividades diferentes, es esencial mantenerlas acopladas para lograr una base sólida de observabilidad. Estos dos estados están altamente interconectados y dependen el uno del otro. Separar estas dos actividades en diferentes herramientas o equipos hace que sea más difícil obtener una visión general del estado de sus datos.

Perfilado a nivel de columna

El perfilado a nivel de columna es clave para esta jerarquía. Una vez que se ha establecido una base sólida, el perfilado a nivel de columna le brinda los insights que necesita para establecer nuevas business rules para su organización y aplicar las existentes a nivel de columna en lugar de solo a nivel de fila.

Este nivel de concienciación le permite mejorar su marco de calidad de los datos de una manera muy práctica.

Le permite responder a preguntas como:

¿Cuál es el rango previsto para una columna?
¿Cuál es el esquema previsto de esta columna?
¿Qué tan particular es esta columna?

Validación a nivel de fila

Desde aquí, puede pasar al último nivel de observabilidad: la validación a nivel de fila. Aquí se analizan los valores de datos en cada fila y se confirma que sean correctos.

Las preguntas en las que se centra este tipo de observabilidad son:

¿Se presentan los valores de los datos en cada fila en la forma prevista?
¿Los valores de los datos tienen la longitud exacta prevista?
Dado el contexto, ¿hay suficiente información aquí para ser útil para el usuario final?

Cuando las organizaciones enfocan su visión en la validación a nivel de fila, su perspectiva se vuelve estrecha, no ven el panorama general. Al crear un marco de observabilidad que comience con el monitoreo de sistemas operativos y de conjuntos de datos, puede obtener un contexto general sobre el estado de sus datos sin dejar de enfocarse en la causa principal de los problemas y sus impactos posteriores.

Implementación de un marco de observabilidad de los datos

A continuación, se muestran los principales pasos que conlleva la creación de un pipeline de observabilidad exitoso. El proceso implica la integración de diversas herramientas y tecnologías, así como la colaboración de diferentes equipos dentro de una organización.

Defina métricas clave: comience por identificar las métricas críticas que debe rastrear, por ejemplo, métricas de calidad de datos, volúmenes de datos, latencia, tasas de error y utilización de recursos. La elección de las métricas dependerá de las necesidades específicas de su empresa y de la naturaleza de su pipeline de datos.
Elija las herramientas adecuadas: a continuación, elija las herramientas que necesitará para la recopilación, el almacenamiento, el análisis y las alertas de los datos. Asegúrese de que las herramientas que seleccione, incluidas las de código abierto, sean compatibles con su infraestructura actual y puedan manejar la escala de sus operaciones.
Estandarice las bibliotecas: implemente una infraestructura que permita a los equipos hablar el mismo idioma y comunicarse abiertamente sobre los problemas. Esto incluye bibliotecas estandarizadas para API y gestión de datos (es decir, consultas en el almacén de datos, lectura/escritura del lago de datos, extracción de datos de las API, etc.) y calidad de los datos.
Instrumente su pipeline de datos: la instrumentación implica integrar bibliotecas o agentes de recopilación de datos en su pipeline de datos. Esto le permite recopilar las métricas definidas de varias etapas de su pipeline. El objetivo es lograr una visibilidad integral, por lo que es esencial garantizar que cada etapa crucial esté instrumentada.
Configure una solución de almacenamiento de datos: las métricas recopiladas deben almacenarse en una base de datos o una plataforma de series temporales que pueda escalar a medida que crecen sus datos. Asegúrese de que la solución de almacenamiento que elija pueda manejar el volumen y la velocidad de sus datos.
Implemente herramientas de análisis de datos: estas herramientas ayudan a obtener insights a partir de las métricas almacenadas. Para lograr un análisis más profundo, considere el uso de herramientas que ofrezcan visualizaciones intuitivas y admitan consultas complejas.
Configure alertas y notificaciones: establezca un sistema para enviar alertas automatizadas cuando se crucen umbrales predefinidos o se detecten anomalías. De este modo, su equipo podrá responder rápidamente a los problemas, minimizando cualquier posible tiempo de inactividad.
Integre con plataformas de gestión de incidentes: además de detectar problemas, la observabilidad también implica la gestionar los problemas de manera eficaz. La integración de su pipeline de observabilidad con un sistema de gestión de incidentes puede ayudar a optimizar sus flujos de trabajo de respuesta.
Revise y actualice periódicamente su pipeline de observabilidad: a medida que su empresa evoluciona, también lo harán sus datos y requisitos. Revisar y actualizar periódicamente su pipeline de observabilidad garantiza que seguirá proporcionando los insights y el rendimiento necesarios.

La creación de un pipeline de observabilidad es un proceso continuo de aprendizaje y refinamiento. Es crucial empezar poco a poco, aprender de la experiencia y ampliar gradualmente sus capacidades de observabilidad.

Soluciones relacionadas

IBM Databand

IBM Databand es un software de observabilidad para canalizaciones de datos y almacenes de datos, que recopila metadatos de forma automática para crear referencias históricas, detectar anomalías, y evaluar y priorizar las alertas para corregir los problemas relacionados con la calidad de los datos.

Explore Databand

IBM DataStage

Al admitir los patrones ETL y ELT, IBM DataStage ofrece una integración de datos flexible y casi en tiempo real tanto on premises como en la nube.

Conozca DataStage

IBM Knowledge Catalog

IBM Knowledge Catalog, un catálogo de datos inteligente en la era de la IA, le permite acceder, curar, categorizar y compartir datos, activos de conocimiento y sus relaciones, independientemente de dónde residan.