Data warehouses, data lakes y data lakehouses 

Fotografía aérea de una carretera que atraviesa un bosque junto a un lago

Autores

Matthew Kosinski

Staff Editor

IBM Think

Data warehouses, data lakes y data lakehouses

Los data warehouses, los data lakes y los data lakehouses son diferentes tipos de soluciones de gestión de datos con diferentes funciones:

  • Los data warehouses agregan, limpian y preparan los datos para que puedan ser utilizados para los esfuerzos de business intelligence (BI) y analytics de datos. 

  • Los data lakes almacenan grandes cantidades de datos sin procesar a bajo costo. 

  • Los data lakehouses combinan el almacenamiento de datos de un lake y las capacidades analíticas de alto rendimiento de un almacén en una sola solución.

Debido a que estas soluciones tienen diferentes características y sirven para diferentes propósitos, muchas arquitecturas de datos empresariales usan 2 o las 3 en un data fabric holístico:

  • Una organización puede emplear un data lake como solución de almacenamiento de propósito general para todos los datos entrantes en cualquier formato.

  • Los datos del lake pueden introducirse en almacenes de datos adaptados a las distintas unidades de negocio, donde pueden servir de base para la toma de decisiones.

Los data lakehouses también son populares como una vía de modernización para las arquitecturas de datos existentes. Las organizaciones pueden implementar nuevos lakehouses sin necesidad de eliminar y reemplazar sus lakes y warehouses actuales, lo que agiliza la transición a una solución unificada de almacenamiento de datos y analytics.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Características principales de los data warehouses

Un data warehouse agrega datos de fuentes de datos dispares—bases de datos, aplicaciones empresariales y feeds de redes sociales— en un solo almacén. La característica definitoria de una herramienta de almacenamiento de datos es que limpia y prepara los conjuntos de datos que ingiere. 

Los data warehouses emplean un enfoque denominado "esquema en escritura", que aplica un esquema coherente a todos los datos a medida que se escriben en el almacenamiento. Esto ayuda a optimizar los datos para business intelligence y analytics.

Por ejemplo, un almacén de datos de ventas minoristas ayudaría a garantizar que los detalles, como la fecha, el monto y el número de transacción se formateen correctamente y se asignen a las celdas correctas de una tabla relacional. 

Un mercado de datos es un tipo de data warehouse que contiene datos específicos de una línea de negocio o departamento en particular en lugar de una empresa completa. Por ejemplo, un equipo de marketing puede tener su propio mercado de datos, recursos humanos puede tener uno, etc. 

Arquitectura de data warehouse  

Un data warehouse tiene 3 capas:

  • La capa intermedia se construye alrededor de un analytics engine, como un sistema de procesamiento analítico en línea (OLAP) o un motor basado en SQL. Esta capa intermedia permite a los usuarios consultar conjuntos de datos y ejecutar analytics directamente en el warehouse. 

  • La capa superior incluye interfaces de usuario y herramientas de elaboración de informes que permiten a los usuarios realizar análisis de datos ad hoc sobre sus datos de negocios.  

Los primeros data warehouses se alojaban on-premises, pero ahora muchos se alojan en la nube o se ofrecen como servicios en la nube. También son frecuentes los enfoques híbridos. 

Debido a que los data warehouses tradicionales se basan en sistemas de bases de datos relacionales y esquemas estrictos, son más eficaces con datos estructurados. Algunos warehouses modernos evolucionaron para adaptarse a datos semiestructurados y no estructurados, pero muchas organizaciones prefieren data lakes y lakehouses para estos tipos de datos.

Casos de uso de data warehouses

Los data warehouses son empleados por analistas de negocios, científicos de datos e ingenieros de datos para llevar a cabo esfuerzos de analytics de autoservicio.  

La aplicación de un esquema definido a todos los datos promueve la coherencia de los datos, lo que los hace más confiables y más fáciles de trabajar. Debido a que un data warehouse almacena datos en un esquema relacional estructurado, admite consultas de lenguaje de consulta estructurado (SQL) de alto rendimiento.

Las organizaciones pueden emplear herramientas de BI y analytics de datos integradas o conectadas para analizar datos transaccionales e históricos, generar visualizaciones de datos y crear paneles para respaldar la toma de decisiones basada en datos.

Desafíos de los data warehouses

Los warehouses pueden ser costosos de mantener. Los datos deben transformarse antes de cargarse en un almacén, lo que requiere tiempo y recursos. Debido a que el almacenamiento y la computación están estrechamente acoplados en los warehouses tradicionales, el escalado puede ser costoso. Si los datos no se mantienen adecuadamente, el rendimiento de las consultas puede verse afectado. 

Debido a que pueden tener dificultades con conjuntos de datos no estructurados y semiestructurados, los data warehouses no son adecuados para las cargas de trabajo de IA y ML.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Características clave de los data lakes

Los data lakes son soluciones de almacenamiento de datos de bajo costo diseñadas para manejar volúmenes masivos de datos. Los data lakes emplean un enfoque de esquema en lectura, lo que significa que no aplican un formato estándar a los datos entrantes. En cambio, los esquemas se aplican cuando los usuarios acceden a los datos a través de una herramienta de analytics u otra interfaz.

Los data lakes almacenan datos en su formato nativo. Esto permite que un data lake almacene datos estructurados, datos no estructurados y datos semiestructurados en la misma plataforma de datos.  

Los data lakes surgieron para ayudar a las organizaciones a gestionar la avalancha de big data desatada por la Web 2.0 y el auge de la computación en la nube y móvil a finales de la década de 2000 y principios de la de 2010. Las organizaciones se encontraron lidiando con más datos que nunca, muchos de ellos en formatos no estructurados, como texto e imágenes de forma libre, que los warehouses tradicionales no pueden gestionar fácilmente.

Arquitectura de data lake 

Los primeros data lakes a menudo se creaban en el sistema de archivos distribuido Apache Hadoop (HDFS). Los data lakes modernos suelen emplear un almacén de objetos en la nube, como Amazon Simple Storage Service (S3), Microsoft Azure Blob almacenamiento o IBM® Cloud Object Storage.

Los data lakes separan el almacenamiento de datos de los recursos informáticos, lo que los hace más rentables y escalables que los data warehouses. Las organizaciones pueden agregar más almacenamiento de información sin escalar los recursos de cómputo junto con él. El almacenamiento en la nube admite una mayor escalabilidad, ya que las organizaciones pueden generar más almacenamiento sin expandir los recursos on-premises.

Para procesar datos en un data lake, los usuarios pueden conectar herramientas externas de procesamiento de datos, como Apache Spark. A diferencia de un almacén de datos, estas herramientas de procesamiento no están integradas en el lake.

Casos de uso de data lakes

Los data lakes son una opción popular para el almacenamiento de datos de propósito general debido a su bajo costo, escalabilidad y capacidad de almacenar datos de cualquier formato.

Las organizaciones suelen emplear los data lakes para mantener copias de seguridad y archivar datos antiguos y no utilizados. Las organizaciones también pueden emplear los lakes para almacenar los nuevos datos entrantes, incluidos los datos sin un propósito definido. Los datos pueden permanecer en el lake hasta que la organización les dé un uso.

Las organizaciones también utilizan data lakes para almacenar conjuntos de datos para cargas de trabajo de ML, IA y analytics de big data, como descubrimiento de datos, entrenamiento de modelos y proyectos de analytics experimental.  

Desafíos de los data lakes

Debido a que no aplican un esquema estricto y carecen de herramientas de procesamiento integradas, los data lakes pueden tener dificultades con la gobernanza y la calidad de los datos. También son menos adecuados para los esfuerzos diarios de BI y analytics de datos de los usuarios de negocio.

Las organizaciones a menudo necesitan herramientas separadas, como un catálogo de datos completo y un sistema de gestión de metadatos, para mantener la precisión y la calidad. Sin tales herramientas, los data lakes pueden convertirse fácilmente en data swamps.

Características clave de los data lakehouses

Un data lakehouse fusiona las características principales de los data lakes y los data warehouses en una única solución de gestión de datos. 

Al igual que un data lake, un data lakehouse puede almacenar datos en cualquier formato (estructurado, no estructurado o semiestructurado) a bajo costo. 

Al igual que un warehouse, un data lakehouse admite consultas rápidas y analytics optimizados.

Arquitectura de un lakehouse de datos

Un data lakehouse combina tecnología y herramientas previamente dispares en una solución holística. Una arquitectura típica de lakehouse incluye estas capas:

Capa de ingesta

La capa de ingesta recopila datos de transmisión por lotes y en tiempo real de una variedad de fuentes. Si bien los lakehouses pueden usar procesos ETL para capturar datos, muchos usan extracción, carga y transformación (ELT). El lakehouse puede cargar datos sin procesar en el almacenamiento y transformarlos más tarde cuando sean necesarios para el análisis.

Capa de almacenamiento

La capa de almacenamiento suele ser el almacenamiento de objetos en la nube, como en un data lake. 

Capa de metadatos

La capa de metadatos proporciona un catálogo unificado de metadatos para cada objeto de la capa de almacenamiento. Esta capa de metadatos ayuda a los lakehouses a hacer muchas cosas que los lakes no pueden hacer: indexar datos para consultas más rápidas, hacer cumplir esquemas y aplicar controles de gobernanza y calidad.

Capa de interfaz de programación de aplicaciones (API)

La capa de API permite a los usuarios conectar herramientas para analytics avanzados.

Capa de consumo

La capa de consumo aloja aplicaciones y herramientas de cliente para BI, ML y otros proyectos de analytics y ciencia de datos.

Al igual que en un data lake, los recursos informáticos y de almacenamiento están separados, lo que permite la escalabilidad.

Los data lakes dependen en gran medida de tecnologías de código abierto. Los formatos de datos, como Apache Parquet y Apache Iceberg, permiten a las organizaciones mover libremente cargas de trabajo entre entornos. Delta Lake, una capa de almacenamiento de código abierto, admite características que ayudan a los usuarios a ejecutar analytics en conjuntos de datos sin procesar, como versiones y transacciones ACID. "ACID" es la abreviatura de atomicidad, coherencia, aislamiento y durabilidad; propiedades clave que ayudan a garantizar la integridad en las transacciones de datos.

Las organizaciones pueden construir sus propios lakehouses a partir de componentes o emplear ofertas prediseñadas, como Databricks, Snowflake o IBM® watsonx.data.

Casos de uso de data lakehouses

Los data lakehouses pueden ayudar a las organizaciones a superar algunos de los límites y complejidades de los warehouses y lakes.  

Debido a que los warehouses y lakes de datos sirven para diferentes propósitos, muchas organizaciones implementan ambos en sus pilas de datos. Sin embargo, eso significa que los usuarios necesitan abarcar dos sistemas de datos dispares, especialmente para proyectos de analytics más avanzados. Esto puede conducir a flujos de trabajo ineficientes, datos duplicados, desafíos de gobernanza y otros problemas.

Los lakehouses puede ayudar a optimizar los esfuerzos de analytics al respaldar la integración de datos. Todos los datos, independientemente del tipo, se pueden almacenar en el mismo repositorio central, lo que reduce la necesidad de duplicación. Todo tipo de usuarios de negocio pueden emplear lakehouses para sus proyectos, incluidos BI, análisis predictivos, IA y ML.

Los data lakehouses también pueden servir como vía de modernización para las arquitecturas de datos existentes. Debido a que las arquitecturas de lakehouse abiertas se integran fácilmente junto con los lakes y warehouses existentes, las organizaciones pueden comenzar la transición a nuevas soluciones integradas sin una interrupción y reemplazo disruptivos.

Desafíos de data lakehouses

Si bien los lakehouses pueden optimizar muchos flujos de trabajo de datos, puede ser complicado poner en marcha uno. Los usuarios también pueden tener una curva de aprendizaje, ya que el uso de un lakehouse puede diferir de los warehouses a los que están acostumbrados. Los lakehouses también son una tecnología relativamente nueva y la infraestructura aún está evolucionando.

Cómo trabajan juntos los data warehouses, los data lakes y los data lakehouses de datos en una arquitectura de datos

Los data warehouses, los data lakes y los lakehouses de datos satisfacen diferentes necesidades empresariales y de datos. Muchas organizaciones emplean 2 o los 3 de estos sistemas en combinación para optimizar los pipelines de datos y admitir IA, ML y analytics.   

A modo de analogía, considere una cocina comercial. Todos los días, esta cocina recibe envíos de ingredientes (datos) que llegan en camiones (bases de datos transaccionales, aplicaciones comerciales, etc.)  

Todos los ingredientes, independientemente del tipo, aterrizan en el muelle de carga (el data lake). Los ingredientes se procesan y clasifican en refrigeradores, despensas y otras áreas de almacenamiento (data warehouses). Allí, los ingredientes están listos para ser empleados por los chefs sin ningún procesamiento adicional.  

Este proceso es bastante eficiente, pero expone algunos de los desafíos de los data lakes y los data warehouses tradicionales. Al igual que los ingredientes en un muelle de carga, los datos de un data lake no se pueden emplear sin un procesamiento adicional. Al igual que los ingredientes en la cocina, los datos en un data warehouse deben prepararse adecuadamente y entregarse al lugar correcto antes de que se puedan usar.

Un data lakehouse es un poco como combinar un muelle de carga, despensa y refrigerador en una sola ubicación. Por supuesto, esta combinación podría ser poco realista en el ámbito de las cocinas comerciales. Sin embargo, en el mundo de los datos empresariales, permite a las organizaciones obtener el mismo valor de los datos, al tiempo que reduce los costos de procesamiento, las redundancias y los silos de datos.

Comparaciones rápidas y diferencias clave

Gráfico que compara las diferencias clave de los data lakes, los data warehouses y los date lakehouses.
Diferencias clave entre data warehouses, data lakes y data lakehouses.

Data warehouses vs. data lakes

  • Los data warehouses almacenan datos limpios y procesados, mientras que los data lakes alojan datos sin procesar en su formato nativo. 

  • Los almacenes de datos tienen motores analíticos y herramientas de informes integrados, mientras que los data lakes requieren herramientas externas para el procesamiento.

  • Los data lakes disponen de un almacenamiento más barato, flexible y escalable. Los almacenes de datos ofrecen un rendimiento optimizado de las consultas.

  • Los warehouses son los más adecuados para respaldar los esfuerzos de business intelligence y analytics de datos de los usuarios de negocio. Los data lakes son más adecuados para operaciones que requieren grandes volúmenes de datos en varios formatos de datos, como inteligencia artificial, machine learning y ciencia de datos. 

  • Los warehouses admiten transacciones ACID. Los data lakes no.

Data warehouses vs. data lakehouses

  • Los lakehouses y los warehouses tienen capacidades de analytics y consultas similares, pero los lakehouses pueden admitir mejor cargas de trabajo complejas de IA y ML que los warehouses.

  • Los lakehouses ofrecen almacenamiento de información más económico, flexible y escalable para todo tipo de datos. Los warehouses admiten principalmente datos estructurados.

  • Los almacenes usan ETL, mientras que los lakehouses pueden usar ETL o ELT.

  • Los lakehouses puede manejar datos por lotes y de transmisión. Los warehouses funcionan por lotes.  

Data lakes vs. data lakehouses

  • Tanto los data lakes como los lakehouses pueden admitir grandes volúmenes de datos y diversas estructuras de datos. Ambos emplean sistemas de almacenamiento de datos similares, normalmente cloud object storage. 

  • Los data lakes no aplican esquemas a los datos ingeridos. Los data lakehouses tienen la opción de aplicar esquemas.

  • Tanto los data lakes como los lakehouses pueden admitir cargas de trabajo de IA y ML, pero los lakehouses ofrecen un mejor soporte para los esfuerzos de BI y analytics de datos que los data lakes.

  • Los lakehouses tienen herramientas de analytics integradas o están estrechamente integrados con infraestructuras de analytics. Los data lakes requieren herramientas externas para el procesamiento de datos.  

  • Los lakehouses tienen una gobernanza de datos, integridad y controles de calidad más sólidos que los data lakes.  

  • Los lakehouses admiten transacciones ACID; los data lakes no.

  • Los data lakes suelen estar diseñados para el procesamiento por lotes y es posible que no admitan el flujo de datos. Los lakehouses admiten datos por lotes y en flujo continuo.

Soluciones relacionadas
Software y soluciones de gestión de datos

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos
IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, sin importar donde residan, a través de un almacén de datos abierto, híbrido y gobernado.

Descubra watsonx.data
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos Descubra watsonx.data