¿Qué es un lago de datos?

Los lakehouses de datos buscan resolver los desafíos principales tanto en los almacenes de datos como en los lagos de datos para producir una solución de administración de datos ideal para las organizaciones. Representan la próxima evolución de las soluciones de gestión de datos en el mercado.

Un lakehouse de datos es una plataforma de datos que fusiona los mejores aspectos de los almacenes de datos y lagos de datos en una única solución de gestión de datos. Los almacenes de datos tienden a ser más eficaces que los lagos de datos, pero pueden ser más caros y limitados en su capacidad de ampliación. Un lakehouse de datos intenta resolver este problema aprovechando el almacenamiento de objetos en la nube para almacenar una gama más amplia de tipos de datos, es decir, datos estructurados, datos no estructurados y datos semiestructurados. Al agrupar estas ventajas en una única arquitectura de datos, los equipos de datos pueden acelerar el procesamiento de los datos, puesto que ya no necesitan trabajar con dos sistemas de datos dispares para completar y ampliar los análisis más avanzados, como el aprendizaje automático.

Por qué la gobernanza de la IA es un imperativo empresarial para escalar la inteligencia artificial empresarial

Conozca los obstáculos para la adopción de la IA, en particular la falta de soluciones de gobernanza y gestión de riesgos.

Contenido relacionado

Regístrese para obtener el libro electrónico sobre flujos de trabajo de IA responsable

Almacén de datos vs. lago de datos vs. lakehouse de datos

Dado que los lakehouses de datos surgieron de los problemas que planteaban tanto los almacenes de datos como los lagos de datos, vale la pena definir estos diferentes repositorios de datos y comprender en qué se diferencian.

Almacén de datos

Un almacén de datos recopila datos sin procesar de múltiples fuentes en un repositorio central y los organiza en una infraestructura de base de datos relacional. Este sistema de gestión de datos admite principalmente aplicaciones de análisis de datos y business intelligence, por ejemplo informes empresariales. El sistema utiliza procesos de ETL para extraer, transformar y cargar datos al lugar de destino. Sin embargo, está limitado por su ineficiencia y costo, en particular a medida que la cantidad de fuentes de datos y la cantidad de datos aumentan con el tiempo.

Data lake

Los lagos de datos suelen crearse en plataformas de big data, como Apache Hadoop. Son conocidos por su bajo costo y flexibilidad de almacenamiento, ya que carecen de los esquemas predefinidos de los almacenes de datos tradicionales. También alojan diferentes tipos de datos, como audio, video y texto. Dado que los productores de datos generan en gran medida datos no estructurados, esta es una distinción importante, ya que también permite más proyectos de ciencia de datos y de inteligencia artificial (IA), lo que a su vez impulsa más información novedosa y una mejor toma de decisiones en toda la organización. Sin embargo, los lagos de datos no están exentos de desafíos. El tamaño y la complejidad de los lagos de datos pueden requerir más recursos técnicos, como especialistas en ciencias de datos e ingenieros de datos, para navegar por la cantidad de datos que almacenan. Además, dado que la gobernanza de datos se implementa en etapas posteriores en estos sistemas, los lagos de datos tienden a ser más propensos a tener más silos de datos, que posteriormente pueden convertirse en un pantano de datos. Cuando esto sucede, el lago de datos puede quedar inutilizable.

Los lagos de datos y los almacenes de datos suelen utilizarse en conjunto. Los lagos de datos actúan como un sistema general para los nuevos datos y los almacenes de datos aplican una estructura descendente a datos específicos de este sistema. Sin embargo, coordinar estos sistemas para proporcionar datos confiables puede ser costoso tanto en tiempo como en recursos. Los tiempos de procesamiento prolongados contribuyen a la obsolescencia de los datos y las capas adicionales de ETL introducen más riesgos para la calidad de los datos.

Lago de datos

El lakehouse de datos optimiza las fallas dentro de los almacenes de datos y los lagos de datos para formar un mejor sistema de gestión de datos. Proporciona a las organizaciones un almacenamiento rápido y de bajo costo para sus datos empresariales, al tiempo que ofrece suficiente flexibilidad para admitir cargas de trabajo de análisis de datos y aprendizaje automático.

Soluciones relacionadas

Soluciones de gestión de datos

Soluciones de lago de datos

Características clave de un lakehouse de datos

Como ya se ha señalado, los lakehouses de datos combinan las mejores características de los almacenes de datos con las características óptimas de los lagos de datos. Aprovecha estructuras de datos similares de los almacenes de datos y las combina con el almacenamiento de bajo costo y la flexibilidad de los lagos de datos, lo que permite a las organizaciones almacenar y acceder a big data de manera rápida y más eficiente, al mismo tiempo que les permite mitigar posibles problemas de calidad de los datos. Es compatible con diversos conjuntos de datos, tanto estructurados como no estructurados, y satisface las necesidades de los flujos de trabajo de business intelligence y ciencia de datos. Por lo general, admite lenguajes de programación como Python, R y SQL de alto rendimiento.

Los data lakehouses también admiten transacciones ACID en cargas de trabajo de datos más grandes. ACID significa atomicidad, coherencia, aislamiento y durabilidad; todas son propiedades clave que definen una transacción para garantizar la integridad de los datos. La atomicidad se refiere a que todos los cambios en los datos se realizan como si fueran una sola operación. En cuanto a la coherencia, se entiende que los datos están en un estado coherente cuando comienza y cuando finaliza una transacción. El aislamiento se refiere al estado intermedio de la transacción que es invisible para otras transacciones. Como resultado, las transacciones que se ejecutan de forma simultánea parecen estar serializadas. La durabilidad consiste en que después de que una transacción se completa con éxito, los cambios en los datos persisten y no se deshacen, incluso en caso de una falla del sistema. Esta característica es fundamental para garantizar la coherencia de los datos, ya que varios usuarios leen y escriben datos en simultáneo.

Arquitectura de un lakehouse de datos

Un lakehouse de datos suele constar de cinco capas: capa de ingesta, capa de almacenamiento, capa de metadatos, capa de API y capa de consumo. Estas capas conforman el patrón arquitectónico de los lakehouses de datos.

Capa de ingesta

Esta primera capa recopila datos de una variedad de fuentes diferentes y los transforma en un formato que puede almacenarse y analizarse en un lakehouse. La capa de ingesta puede utilizar protocolos para conectarse con fuentes internas y externas, como sistemas de gestión de bases de datos, bases de datos NoSQL y redes sociales, entre otras. Como su nombre indica, esta capa es responsable de la ingesta de datos.

Capa de almacenamiento

En esta capa, los datos estructurados, no estructurados y semiestructurados se almacenan en formatos de archivo de código abierto, como Parquet u Optimized Row Columnar (ORC). El beneficio real de un lakehouse es la capacidad del sistema para aceptar todos los tipos de datos a un costo asequible.

Capa de metadatos

La capa de metadatos es la base del lakehouse de datos. Es un catálogo unificado que ofrece metadatos para cada objeto en el almacenamiento del lago, lo que ayuda a organizar y proporcionar información sobre los datos en el sistema. Esta capa también brinda al usuario la oportunidad de utilizar funciones de gestión, por ejemplo, transacciones ACID, almacenamiento en caché de archivos e indexación para que las consultas sean más rápidas. Los usuarios pueden implementar esquemas predefinidos dentro de esta capa, que habilitan capacidades de gobernanza y auditoría de datos.

Capa de API

Un lakehouse de datos utiliza API para aumentar el procesamiento de tareas y realizar análisis más avanzados. Específicamente, esta capa brinda a los consumidores y/o desarrolladores la oportunidad de utilizar una variedad de lenguajes y bibliotecas, como TensorFlow, en un nivel abstracto. Las API están optimizadas para el consumo de activos de datos.

Capa de consumo de datos

Esta capa final de la arquitectura del lakehouse de datos aloja aplicaciones y herramientas cliente, lo que significa que tiene acceso a todos los metadatos y datos almacenados en el lago. Los usuarios de una organización pueden hacer uso de lakehouse y llevar a cabo tareas de análisis, como paneles de business intelligence , visualización de datos y otros trabajos de aprendizaje automático.

Beneficios de un lakehouse de datos

Dado que el lakehouse de datos se diseñó para reunir las mejores características de un almacén de datos y un lago de datos, ofrece beneficios clave específicos para sus usuarios. Esto incluye:

Reducción de la redundancia de datos: El único sistema de almacenamiento de datos permite tener una plataforma optimizada para llevar a cabo todas las demandas de datos del negocio. Los lakehouses de datos también simplifican la observabilidad de los datos al reducir la cantidad de datos que se mueven a través de las canalizaciones de datos hacia múltiples sistemas.
Rentable: Dado que los lakehouses de datos aprovechan los costos más bajos del almacenamiento de objetos en la nube, los costos operativos de un lakehouse de datos son comparativamente más bajos que los de los almacenes de datos. Además, la arquitectura híbrida de un lakehouse de datos elimina la necesidad de mantener múltiples sistemas de almacenamiento de datos, lo que hace que la operativa sea menos costosa.
Admite una amplia variedad de cargas de trabajo: Los lakehouses de datos pueden abordar diferentes casos de uso a lo largo del ciclo de vida de la gestión de datos. También puede admitir flujos de trabajo de business intelligence y visualización de datos o flujos de trabajo de ciencia de datos más complejos.
Mejor gobernanza: La arquitectura de un lakehouse de datos mitiga los problemas de gobernanza estándar que acarrean los lagos de datos. Por ejemplo, a medida que los datos se ingieren y cargan, puede garantizar que cumplan con los requisitos del esquema definido, lo que reduce los problemas de calidad de los datos en etapas posteriores.
Más escala: En los almacenes de datos tradicionales, la computación y el almacenamiento se acoplaban, lo que aumentaba los costos operativos. Los lakehouses de datos separan el almacenamiento y la computación, lo que permite a los equipos de datos acceder al mismo almacenamiento de datos mientras utilizan diferentes nodos informáticos para diferentes aplicaciones. El resultado es una mayor escalabilidad y flexibilidad.
Compatibilidad con streaming: El lakehouse de datos está diseñado para las empresas y la tecnología actuales y muchas fuentes de datos utilizan streaming en tiempo real, directamente desde los dispositivos. El sistema de lakehouse admite esta ingesta en tiempo real, que solo será más popular en el futuro.

Productos relacionados

Lago de datos

IBM watsonx.data

Escale las cargas de trabajo de IA para todos sus datos, en cualquier lugar. IBM watsonx.data es el único almacén de datos abierto del sector que le permite aprovechar múltiples motores de consulta para ejecutar cargas de trabajo gestionadas, residan donde residan, lo que da como resultado una utilización de recursos maximizada y una reducción de costos.

Explore IBM watsonx.data

Vea la demostración interactiva

Gestión de datos

IBM® Db2

Basado en décadas de innovación en seguridad de datos, escalabilidad y disponibilidad, IBM Db2 le permite mantener sus aplicaciones y análisis protegidos, con alto rendimiento y resiliencia.

Explore IBM Db2

Gestión de datos

Netezza Performance Server

El avanzado almacén de datos nativo de la nube diseñado para análisis e información unificados y escalables disponibles en cualquier lugar. Con escalado elástico granular y funcionalidad de pausa y reanudación, Netezza Performance Server le ofrece control de costos y recursos a escala empresarial masiva.

Explore Netezza Performance Server

Recursos de lakehouse de datos

AIOps esencial para la gestión unificada de la resiliencia en lakehouses de datos

IBM Research propone que el enfoque unificado de los lakehouses de datos crea una oportunidad única para la gestión unificada de la resiliencia de los datos.

The Forrester Wave™: Data Management for Analytics, primer trimestre de 2023

Las soluciones de IBM proporcionan capacidades que resuelven los desafíos del entorno de análisis. Vea por qué IBM es reconocida como líder en gestión de datos para soluciones de análisis.

La trinidad de las plataformas de datos: ¿competitivas o complementarias?

Comprenda cómo estos tres conceptos pueden relacionarse o usarse en conjunto.

Presto 101: ¿Qué es Presto?

Conozca el motor de consultas de código abierto rápido y flexible disponible con la arquitectura de lakehouse de datos abiertos de watsonx.data.

Dé el siguiente paso

Escale cargas de trabajo de IA para todos sus datos, en cualquier lugar, con IBM watsonx.data, un almacén de datos adecuado para su propósito creado sobre una arquitectura de lakehouse de datos abierta.

Explore watsonx.data

Reserve una demostración en vivo

Notas de pie de página

¹ Lakehouse: Una nueva generación de plataformas abiertas que unifica
el almacenamiento de datos y análisis avanzados (enlace externo a ibm.com), Stanford, 2021