Los data lakes y los almacenes de datos suelen utilizarse en conjunto. Los data lakes actúan como un sistema general para los nuevos datos, y los almacenes de datos aplican una estructura descendente a los datos.
Sin embargo, coordinar estos sistemas para proporcionar datos confiables puede ser costoso tanto en tiempo como en recursos. Los tiempos de procesamiento prolongados contribuyen a la obsolescencia de los datos y las capas adicionales de ETL (extracción, transformación, carga) introducen riesgos en la calidad de los datos .
Los data lakehouses compensan las fallas de los almacenes de datos y los data lakes con capacidades que forman un mejor sistema de gestión de datos. Combinan las estructuras de datos de los almacenes de datos con el almacenamiento de bajo costo y la flexibilidad de los data lakes.
Los data lakehouses capacitan a los equipos de datos para unificar sus sistemas de datos dispares, con la aceleración del procesamiento de datos para analytics más avanzados (como machine learning (ML), accediendo de manera eficiente a big data y mejorando la calidad de los datos.
Los data lakehouses existen para resolver los desafíos de los data warehouses y data lakes y para brindar sus beneficios bajo una arquitectura de datos.
Por ejemplo, los almacenes de datos tienen más rendimiento que los data lakes, tanto para almacenar como para transformar los datos empresariales. Sin embargo, el almacenamiento de datos requiere esquemas estrictos (normalmente, el esquema de estrella y el esquema de copo de nieve).
Por lo tanto, los almacenes de datos no funcionan bien con datos no estructurados o semiestructurados, que son críticos para casos de uso de inteligencia artificial (IA) y machine learning (ML). También tienen una capacidad limitada para escalar.
Los lagos de datos, por otro lado, permiten a las organizaciones agregar todos los tipos de datos datos estructurados, datos no estructurados y datos semiestructurados) de diversas fuentes de datos y en una ubicación. Permiten un almacenamiento de datos más escalable y asequible, pero no tienen herramientas de procesamiento de datos integradas.
Los lakehouses de datos fusionan aspectos de los almacenes de datos y los data lakes. Utilizan el almacenamiento de objetos en la nube para almacenar datos en cualquier formato a bajo costo. Y, además de ese almacenamiento en la nube, se encuentra una infraestructura de análisis tipo almacén, que admite consultas de alto rendimiento, análisis casi en tiempo real e iniciativas de business intelligence (BI).
Los almacenes de datos, los data lakes y los data lakehouses son todos repositorios de datos, pero con diferencias clave. A menudo se emplean juntos para respaldar una arquitectura de datos integrada para una variedad de casos de uso.
Un almacén de datos recopila datos sin procesar de múltiples fuentes en un repositorio central y los organiza en una infraestructura de base de datos relacional. Este sistema de gestión de datos admite principalmente aplicaciones de analytics de datos y business intelligence, por ejemplo informes empresariales.
El sistema utiliza procesos de ETL para extraer, transformar y cargar datos al lugar de destino. Sin embargo, está limitado por su ineficiencia y costo, en particular a medida que la cantidad de fuentes de datos y la cantidad de datos.
Si bien tradicionalmente los almacenes de datos se alojaban on-premises en mainframes, hoy en día muchos almacenes de datos están alojados en la nube y se ofrecen como servicios en la nube.
Los data lakes se construyeron inicialmente en plataformas de big data como Apache Hadoop. Pero el núcleo de los data lakes modernos es un servicio de cloud Object Storage, que les permite almacenar todo tipo de datos. Los servicios comunes incluyen Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage e IBM Cloud Object Storage.
Dado que las empresas generan en gran medida datos no estructurados, esta capacidad de almacenamiento es una distinción importante. Permite más proyectos de ciencia de datos e inteligencia artificial (IA), que a su vez generan más insights novedosos y una mejor toma de decisiones en toda la organización.
Sin embargo, el tamaño y la complejidad de los data lakes pueden requerir la experiencia de usuarios más técnicos, como científicos de datos e ingenieros de datos. Y, debido a que la gobernanza de datos ocurre de manera descendente en estos sistemas, los data lakes pueden ser propensos a silos de datos y, posteriormente, evolucionar a pantanos de datos (donde los buenos datos son inaccesibles debido a una mala gestión).
Los lakehouses de datos pueden resolver los desafíos principales tanto en los almacenes de datos como en los data lakes para producir una solución de administración de datos ideal para las organizaciones. Aprovechan el cloud Object Storage para un almacenamiento rápido y de bajo costo en una amplia gama de tipos de datos, al tiempo que ofrecen capacidades de analytics de alto rendimiento. Las organizaciones pueden emplear data lakehouses junto con sus data lakes y data warehouses existentes sin tener que desmantelarlos y reconstruirlos por completo.
Los lakehouses de datos brindan varios beneficios clave a los usuarios, pueden ayudar a:
Un único sistema de almacenamiento de datos crea una plataforma optimizada para satisfacer todas las demandas de datos empresariales, lo que reduce la duplicación de datos. Los lakehouses de datos también simplifican la observabilidad de los datos de principio a fin al reducir la cantidad de datos que se mueven a través de pipelines de datos en varios sistemas.
Los data lakehouses aprovechan los costos más bajos de cloud object storage en la nube, por lo que son más rentables que los data warehouses. Además, la arquitectura híbrida de un lakehouse de datos elimina la necesidad de mantener múltiples sistemas de almacenamiento de datos, lo que hace que la operativa sea menos costosa.
Los lakehouses de datos pueden abordar diferentes casos de uso a lo largo del ciclo de vida de la gestión de datos. También admiten flujos de trabajo tanto de business intelligence como de visualización basada en datos o de ciencia de datos más complejos.
La arquitectura de data lakehouse mitiga los problemas de gobernanza de los data lakes. Por ejemplo, a medida que se ingieren y cargan los datos, el lakehouse puede garantizar que cumple con los requisitos del esquema definido, lo que reduce los problemas de calidad de los datos posteriores.
En los data warehouses tradicionales, el cómputo y el almacenamiento de información están acoplados. Los lakehouses de datos separan el almacenamiento y la computación, lo que permite a los equipos de datos acceder al mismo almacenamiento de datos mientras utilizan diferentes nodos informáticos para diferentes aplicaciones. Este desacoplamiento da como resultado una mayor escalabilidad y flexibilidad.
El lakehouse de datos está diseñado para las empresas y la tecnología actuales. Muchas fuentes de datos contienen datos de transmisión en tiempo real de dispositivos, como los dispositivos del Internet de las cosas. El sistema de lakehouse admite estas fuentes a través de la ingesta de datos en tiempo real.
Desarrollado por Databricks en 2016, Delta Lake es un formato dealmacenamiento de datos de código abierto que combina archivos de datos Apache Parquet con un sólido registro con un sólido registro de metadatos. Este formato agrega funciones clave de gestión de datos a los data lakes, como la aplicación de esquemas, el viaje en el tiempo y las transacciones ACID. (ACID significa "atomicity, consistency, isolation and durability", que son propiedades clave que definen una transacción para garantizar la integridad de los datos.)
Estas funciones ayudan a que los data lakes sean más confiables e intuitivos. También permiten a los usuarios ejecutar consultas enlenguaje de consulta estructurado (SQL), de trabajo de analytics y otras actividades en un data lake, streamlining business intelligence, data intelligence (DI), IA y ML.
Delta Lake fue de código abierto en 2019. Desde entonces, los data lakehouses se crean típicamente construyendo una capa de almacenamiento de Delta Lake sobre un data lake, y luego integrándolo con un motor de procesamiento de datos como Apache Spark o Hive.
Los lakehouses de datos habilitados para código abierto a menudo se denominan lakehouses de datos abiertos. Otros formatos de tablas abiertas incluyen Apache Iceberg (un formato de alto rendimiento para tablas analíticas masivas) y Apache Hudi (diseñado para el procesamiento de datos).
La arquitectura de un data lakehouse normalmente consta de cinco capas:
Esta primera capa recopila datos de una variedad de fuentes y los transforma en un formato de datos que un lakehouse puede almacenar y analizar. La capa de ingesta puede usar protocolos para conectarse con fuentes internas y externas, como sistemas de administración de bases de datos, bases de datos NoSQL y redes sociales.
En esta capa, se almacenan conjuntos de datos estructurados, no estructurados y semiestructurados en formatos de archivo de código abierto, como Parquet u Optimized Row Columnar (ORC). Esta capa proporciona un beneficio importante del lakehouse de datos: su capacidad para aceptar todos los tipos de datos a un costo asequible.
La capa de metadatos es un catálogo unificado que ofrece metadatos para cada objeto en el almacenamiento del lago, lo que ayuda a organizar y proporcionar información sobre los datos en el sistema. Esta capa también ofrece transacciones ACID, almacenamiento en caché de archivos e indexación para consultas más rápidas. Los usuarios pueden implementar esquemas predefinidos aquí, que permiten la gobernanza de datos y las capacidades de auditoría.
Un lakehouse de datos utiliza interfaces de programación de aplicaciones (API) para aumentar el procesamiento de tareas y realizar análisis más avanzados. En concreto, esta capa brinda a los consumidores y/o desarrolladores la oportunidad de utilizar una variedad de lenguajes y bibliotecas, como TensorFlow, en un nivel abstracto. Las API están optimizadas para el consumo de activos de datos.
Esta última capa de la arquitectura de data lakehouse aloja aplicaciones y herramientas, con acceso a todos los metadatos y datos almacenados en el lake. Esto abre el acceso a los datos a los usuarios de una organización, que pueden utilizar el lakehouse para realizar tareas, como paneles de business intelligence, visualización de datos y trabajos de machine learning.
Ponga sus datos a trabajar, dondequiera que residan, con el lakehouse de datos híbrido y abierto para IA y analytics.
Resuelva los desafíos de datos actuales con una arquitectura de lakehouse.Conéctese a los datos en minutos, obtenga rápidamente insights confiables y reduzca los costos de su almacén de datos.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.