¿Qué es una plataforma de datos moderna?

Una plataforma de datos moderna es una suite de productos de software cloud first, nativos de la nube que facilitan la recopilación, limpieza, transformación y análisis de los datos de una organización para ayudar a mejorar la toma de decisiones.

Los data pipelines (canalizaciones de datos) actuales se han vuelto cada vez más complejos e importantes para los analytics de datos y la toma de decisiones basadas en datos. Una plataforma de datos moderna genera confianza en estos datos al ingerirlos, almacenarlos, procesarlos y transformarlos de una manera que garantice información precisa y oportuna, reduzca los silos de datos, permita el autoservicio y mejore la calidad de los datos.

Una plataforma de datos moderna, también conocida como una pila de datos moderna, está compuesta por cinco capas fundamentales: almacenamiento y procesamiento de datos, ingesta de datos, transformación de datos, business intelligence (BI) y analytics y observabilidad de los datos.

Los dos principios fundamentales que rigen las plataformas de datos modernas son:

Disponibilidad: los datos están disponibles fácilmente en un lago de datos o en almacenes de datos, que separan el almacenamiento y el cómputo.La división de estas funciones permite almacenar grandes cantidades de datos a un costo relativamente bajo.
Elasticidad: las funciones de cómputo están basadas en la nube, lo que permite su escalabilidad automática.Por ejemplo, si la mayor parte de los datos y analytics se consumen en un día y hora determinados, el procesamiento puede ampliarse automáticamente para mejorar la experiencia del cliente y reducirse cuando disminuya la carga de trabajo.

Reserve hoy mismo una demostración de IBM® Databand

Vea cómo la observabilidad proactiva de los datos puede ayudarle a detectar incidentes de datos con antelación y resolverlos más rápido.

Contenido relacionado

Suscríbase al boletín de IBM

Filosofías de las plataformas de datos modernas

Una plataforma de datos moderna no solo es compatible con la tecnología, sino también con las filosofías DevOps, DataOps y ágiles. Aunque DevOps y DataOps tienen propósitos completamente diferentes, cada uno es similar a la filosofía ágil, que está diseñada para acelerar los ciclos de trabajo de los proyectos.

DevOps se centra en el desarrollo de productos, mientras que DataOps, en crear y mantener un sistema de arquitectura de datos distribuido que ofrece valor comercial a partir de los datos.

Ágil es una filosofía para el desarrollo de software que promueve la velocidad y eficiencia, pero sin eliminar el factor “humano”. Pone énfasis en las conversaciones cara a cara como una forma de maximizar las comunicaciones, al tiempo que enfatiza la automatización como un medio para minimizar los errores.

Almacenamiento y procesamiento de datos

La primera capa fundamental de una plataforma de datos moderna es el almacenamiento y el procesamiento.

Los sistemas almacenamiento de datos modernos se centran en el uso eficiente de los datos, lo que incluye dónde almacenarlos y cómo procesarlos. Los dos formatos de almacenamiento de información más populares son los almacenes de datos y los lagos de datos, aunque los data lakehouses (arquitectura híbrida con capacidades de lago de datos y almacén de datos) y la malla de datos están ganando popularidad.

El almacén de datos

El propósito de los almacenes de datos es gestionar datos estructurados con casos de uso claros y definidos.

El uso de almacenes de datos se remonta a la década de 1990, cuando se utilizaron bases de datos para almacenar datos. Estos almacenes de datos estaban on premises y tenían una capacidad de almacenamiento muy limitada.

Alrededor de 2013, los almacenes de datos comenzaron a trasladarse a la nube, donde la escalabilidad fue posible repentinamente. Los almacenes de datos basados en la nube siguen siendo el sistema de almacenamiento de datos de preferencia porque optimizan la potencia de cómputo y las velocidades de procesamiento.

Para que un almacén de datos funcione correctamente, los datos deben recopilarse, volverse a formatear, limpiarse y cargarse en el almacén. Es posible que los datos que no puedan volverse a formatear se pierdan.

El lago de datos

En enero de 2008, Yahoo lanzó Hadoop (basado en NoSQL) como proyecto de código abierto para Apache Software Foundation. Los lagos de datos se crearon en Hadoop, eran escalables y estaban diseñados para uso on premises. Desafortunadamente, el ecosistema Hadoop es extremadamente complejo y difícil de usar. Los lagos de datos comenzaron a pasar a la nube alrededor de 2015, lo que los hizo mucho menos costosos y más fáciles de usar.

Originalmente, el propósito de los lagos de datos era recopilar datos no estructurados sin procesar, sin aplicar esquemas (formatos) para que los investigadores pudieran obtener más insights de una amplia gama de datos. Debido a los problemas que supone el análisis de información antigua, imprecisa o inútil, los lagos de datos pueden volverse “pantanos de datos” menos eficaces.

Una arquitectura típica de lago de datos puede tener datos almacenados en un almacén de objetos como Amazon S3 de AWS, junto con una herramienta como Spark para procesar los datos.

El data lakehouse

Los data lakehouses combinan la flexibilidad, rentabilidad y capacidad de ampliación de los lagos de datos con las características de atomicidad, coherencia, aislamiento y durabilidad (ACID, por sus siglas en inglés) de las transacciones y de gestión de datos de los almacenes de datos. (ACID es un sigla en inglés que hace referencia al conjunto de 4 propiedades clave que definen una transacción: atomicidad, coherencia, aislamiento y durabilidad).

Los data lakehouses admiten BI y aprendizaje automático, mientras que una fortaleza clave del data lakehouse es que utiliza capas de metadatos. Los data lakehouses también utilizan un nuevo motor de consulta, diseñado para búsquedas SQL de alto rendimiento.

Malla de datos

A diferencia de los almacenes de datos, los lagos de datos y los data lakehouses, la malla de datos descentraliza la titularidad de los datos. Con este modelo de arquitectura, los datos de un dominio específico (p. ej., socio de negocios o departamento) no son propiedad de este, sino que los comparte libremente con otros dominios. Esto significa que todos los datos dentro del sistema de malla de datos deben mantener un formato uniforme.

Los sistemas de malla de datos pueden ser útiles para empresas que admiten múltiples dominios de datos. Dentro del diseño de la malla de datos, existe una capa de gobernanza de datos y una capa de observabilidad. Asimismo, existe una capa de interoperabilidad universal.

La malla de datos puede ser útil para las organizaciones que se expanden rápidamente y necesitan escalabilidad para almacenar datos.

Ingesta de datos

El proceso de colocar datos en un sistema de almacenamiento para uso futuro se denomina ingesta de datos, que es la segunda capa de una plataforma de datos moderna.

En breve, la ingesta de datos significa mover datos de varias fuentes a una ubicación central. A partir de ahí, los datos se pueden utilizar para fines de mantenimiento de registros o procesamiento y análisis posteriores, los cuales dependen de datos accesibles, coherentes y precisos.

Las organizaciones toman decisiones comerciales utilizando los datos de su infraestructura de analytics. El valor de estos datos depende de qué tan bien se realice la ingesta y la integración. Si hay problemas durante el proceso de ingesta, como conjuntos de datos faltantes u obsoletos, cada paso del proceso de análisis resultará afectado. Esto es especialmente cierto en lo que respecta a big data.

Modelos de procesamiento de datos

La ingesta de datos se puede realizar de diferentes maneras, y la forma en que se diseña una capa de ingesta de datos en particular puede basarse en diferentes modelos de procesamiento. Los datos pueden provenir de diversas fuentes, incluidas plataformas SaaS, dispositivos de internet de las cosas (IoT) y dispositivos móviles. Un buen modelo de procesamiento de datos actúa como base para una estrategia de datos eficiente, por lo que las organizaciones deben determinar qué modelo es el más adecuado para sus circunstancias.

El procesamiento por lotes es la forma más común de ingesta de datos, aunque no está diseñado para procesar en tiempo real.En cambio, recopila y agrupa los datos de origen en lotes, que se envían al destino.El procesamiento por lotes puede iniciarse mediante una simple programación o activarse cuando se dan ciertas condiciones predeterminadas.Normalmente se utiliza cuando no se necesitan datos en tiempo real, porque requiere menos trabajo y es menos costoso que el procesamiento en tiempo real.
El procesamiento en tiempo real (también llamado streaming, transmisión en tiempo real o procesamiento de flujo de datos) no agrupa los datos. En su lugar, los datos se obtienen, se transforman y se cargan en cuanto se reconocen. El procesamiento en tiempo real es más costoso porque requiere una supervisión constante de las fuentes de datos y acepta nueva información automáticamente.

Transformación de datos

La siguiente capa, la transformación de datos, se ocupa de cambiar los valores, la estructura y el formato de los datos, lo cual suele ser necesario para proyectos de analytics de datos. Los datos se pueden transformar antes o después de llegar a su destino de almacenamiento cuando se utiliza una canalización de datos.

Hasta hace poco, los modelos de ingestión de datos modernos utilizaron un procedimiento de ETL (extracción, transformación, carga) para tomar datos de su fuente, volver a formatearlos y transportarlos a su destino. Esto tenía sentido cuando las empresas tenían que utilizar costosos sistemas de analytics internos. Hacer el trabajo previo antes de entregarlos, incluidas las transformaciones, ayudó a reducir los costos. Las organizaciones que siguen utilizando almacenes de datos on premises normalmente utilizarán un proceso ETL.

Hoy en día, muchas organizaciones prefieren almacenes de datos basados en la nube (IBM, Snowflake, Google BigQuery, Microsoft Azure, entre otros) porque pueden escalar los recursos informáticos y de almacenamiento según sea necesario. La escalabilidad de la nube permite que se omitan las transformaciones de precarga, por lo que los datos sin procesar se pueden enviar al almacén de datos con mayor rapidez. Los datos se transforman después de llegar usando un modelo ELT (extraer, cargar, transformar) normalmente al responder una consulta.

En este punto, los datos pueden traducirse a un formato SQL y ejecutarse dentro del almacén de datos durante las investigaciones.

La transformación de datos ofrece varias ventajas:

Usabilidad: estandarizar los datos y ponerlos bajo la estructura correcta permite que su equipo de ingeniería de datos genere valor comercial a partir de lo que de otro modo serían datos inutilizables y no analizados.

Calidad de los datos: la transformación de datos sin procesar ayuda a identificar y rectificar errores, incongruencias y valores omitidos, lo que permite obtener datos más limpios y precisos.
Mejor organización: los datos transformados son más fáciles de procesar tanto para las personas como para las computadoras.

Business intelligence y analytics

La cuarta capa de una plataforma de datos moderna son las herramientas de business intelligence (BI) y analytics.

En 1865, Richard Millar Devens presentó la expresión “business intelligence” en la "Cyclopædia of Commercial and Business Anecdotes”. Utilizó el término para describir cómo el banquero Sir Henry Furnese se beneficiaba de la información reuniéndola y utilizándola antes que su competencia.

Actualmente, una gran cantidad de información empresarial se recopila a partir de analytics comerciales, así como de analytics de datos. Las herramientas de BI y analytics se pueden utilizar para acceder, analizar y transformar datos en visualizaciones que brindan insights comprensibles. Proporcionar a los investigadores y científicos de datos inteligencia detallada puede ayudarlos a tomar decisiones comerciales tácticas y estratégicas.

Observabilidad de los datos

La última de las cinco capas fundamentales de una plataforma de datos moderna es la observabilidad de los datos.

La observabilidad de los datos describe la capacidad de vigilar y observar el estado de los datos y su condición. Abarca una serie de actividades y tecnologías que, cuando se combinan, permiten que el usuario identifique y resuelva dificultades con los datos casi en tiempo real.

La observabilidad permite a los equipos de ingeniería de datos responder preguntas específicas sobre lo que ocurre detrás de escena en sistemas extremadamente distribuidos. Puede mostrar dónde los datos se mueven lentamente y qué está dañado.

A los gerentes, equipos de datos y otros stakeholders se les pueden enviar alertas sobre posibles problemas para que puedan resolverlos de manera proactiva. Si bien la función de previsibilidad puede resultar útil, no garantiza que detectará todos los problemas.

Para que la observabilidad de los datos sea útil, debe incluir las siguientes características:

Seguimiento de SLA: evalúa los metadatos de la canalización y la calidad de los datos con respecto a estándares predefinidos.
Monitoreo: un panel detallado que muestra las métricas operativas de un sistema o canalización.
Registro: los registros históricos (seguimiento, comparaciones, análisis) de los eventos se mantienen para compararlos con las anomalías recién descubiertas.
Alertas: se envían advertencias tanto sobre anomalías como sobre eventos previstos.
Análisis: un proceso de detección automatizado que se adapta a su sistema.
Seguimiento: ofrece la capacidad de dar seguimiento a métricas y eventos específicos.
Comparaciones: proporciona antecedentes históricos y alertas de anomalías.

Para muchas organizaciones, la observabilidad se encuentra en un silo, lo que significa que solo determinados departamentos pueden acceder a los datos. Filosóficamente, un sistema de malla de datos resuelve esto al requerir que los datos se compartan, lo que generalmente se desaconseja en los sistemas tradicionales de almacenamiento y procesamiento.

Otras capas de las plataformas de datos modernas

Además de las cinco capas fundamentales anteriores, otras capas que son comunes en una pila de datos moderna incluyen:

Descubrimiento de datos

Los datos inaccesibles son esencialmente datos fútiles. El descubrimiento de datos ayuda a garantizar que no se queden ahí nada más. Se trata de recopilar, evaluar y explorar datos de diferentes fuentes para ayudar a los líderes empresariales a comprender las tendencias y los patrones que se encuentran en los datos. Puede limpiar y preparar datos, y a veces se asocia con la BI porque puede reunir datos aislados para su análisis.

Gobernanza de datos

Las plataformas de datos modernas hacen hincapié en la gobernanza y la seguridad de los datos para proteger la información confidencial, garantizar el cumplimiento normativo y gestionar la calidad de los datos. Las herramientas que respaldan esta capa ofrecen control de acceso a los datos, cifrado, auditoría y seguimiento del linaje de los datos.

Catálogo de datos y gestión de metadatos

La catalogación de los datos y la gestión de metadatos son cruciales para descubrir y comprender los activos de datos disponibles.Esto ayuda a que los usuarios encuentren los datos adecuados para su análisis.

Aprendizaje automático e IA

Algunas plataformas de datos modernas incorporan capacidades de aprendizaje automático e IA para realizar analytics predictivos, detección de anomalías y toma de decisiones automatizada.

Productos relacionados

IBM Databand

IBM^® Databand es un software de observabilidad para canalizaciones de datos y almacenes de datos, que recopila metadatos de forma automática para crear referencias históricas, detectar anomalías, y evaluar y priorizar las alertas para corregir los problemas relacionados con la calidad de los datos.

Explore Databand

IBM DataStage

Al admitir los patrones ETL y ELT, IBM^® DataStage ofrece una integración de datos flexible y casi en tiempo real tanto on premises como en la nube.

Conozca DataStage

IBM Knowledge Catalog

IBM^® Knowledge Catalog, un catálogo de datos inteligente en la era de la IA, le permite acceder, curar, categorizar y compartir datos, activos de conocimiento y sus relaciones, independientemente de dónde residan.

Conozca Knowledge Catalog

Recursos

¿Qué es la observabilidad de datos?

Profundice para comprender qué es la observabilidad de los datos, por qué es importante, cómo ha evolucionado junto con los sistemas de datos modernos y las mejores prácticas para implementar un marco de observabilidad de datos.

¿Qué es ELT (extraer, cargar, transformar)? Una guía para principiantes

Conozca qué es ELT, cómo funciona el proceso, en qué se diferencia de ETL, sus desafíos y limitaciones y las mejores prácticas para implementar canalizaciones de ELT.

Una plataforma de datos en la nube moderna es la base de todas las cadenas de suministro inteligentes

Durante años, las cadenas de suministro empresariales se han basado en cimientos inestables de datos desconectados, no comprobables y extemporáneos. Los datos limpios y conectados son la base de las operaciones de las cadenas de suministro de próxima generación.

¿Qué es la ciencia de datos?

Descubra la manera en que la ciencia de datos puede desbloquear insights comerciales y acelerar la transformación digital, así como facilitar la toma de decisiones basada en datos.

Dé el siguiente paso

Implemente hoy mismo la observabilidad proactiva de los datos con IBM Databand para saber cuándo surge un problema de salud de los datos antes de que lo sepan sus usuarios.

Explore Databand