¿Qué es un lago de datos?

Imagen de una cabaña en un lago azul con árboles

Autores

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

¿Qué es un lago de datos?

Un lakehouse de datos es una plataforma de datos que combina el almacenamiento flexible de datos de los data lakes con las capacidades de analytics de alto rendimiento de los almacenes de datos.
 

Los data lakes y los almacenes de datos suelen utilizarse en conjunto. Los data lakes actúan como un sistema general para los nuevos datos, y los almacenes de datos aplican una estructura descendente a los datos.

Sin embargo, coordinar estos sistemas para proporcionar datos confiables puede ser costoso tanto en tiempo como en recursos. Los tiempos de procesamiento prolongados contribuyen a la obsolescencia de los datos y las capas adicionales de ETL (extracción, transformación, carga) introducen riesgos en la calidad de los datos

Los data lakehouses compensan las fallas de los almacenes de datos y los data lakes con capacidades que forman un mejor sistema de gestión de datos. Combinan las estructuras de datos de los almacenes de datos con el almacenamiento de bajo costo y la flexibilidad de los data lakes.

Los data lakehouses capacitan a los equipos de datos para unificar sus sistemas de datos dispares, con la aceleración del procesamiento de datos para analytics más avanzados (como machine learning (ML), accediendo de manera eficiente a big data y mejorando la calidad de los datos. 

El surgimiento de los data lakehouses

Los data lakehouses existen para resolver los desafíos de los data warehouses y data lakes y para brindar sus beneficios bajo una arquitectura de datos.

Por ejemplo, los almacenes de datos tienen más rendimiento que los data lakes, tanto para almacenar como para transformar los datos empresariales. Sin embargo, el almacenamiento de datos requiere esquemas estrictos (normalmente, el esquema de estrella y el esquema de copo de nieve). 

Por lo tanto, los almacenes de datos no funcionan bien con datos no estructurados o semiestructurados, que son críticos para casos de uso de inteligencia artificial (IA) y machine learning (ML). También tienen una capacidad limitada para escalar.

Los lagos de datos, por otro lado, permiten a las organizaciones agregar todos los tipos de datos datos estructurados, datos no estructurados y datos semiestructurados) de diversas fuentes de datos y en una ubicación. Permiten un almacenamiento de datos más escalable y asequible, pero no tienen herramientas de procesamiento de datos integradas.

Los lakehouses de datos fusionan aspectos de los almacenes de datos y los data lakes. Utilizan el almacenamiento de objetos en la nube para almacenar datos en cualquier formato a bajo costo. Y, además de ese almacenamiento en la nube, se encuentra una infraestructura de análisis tipo almacén, que admite consultas de alto rendimiento, análisis casi en tiempo real e iniciativas de business intelligence (BI).

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Almacén de datos vs. lago de datos vs. lakehouse de datos

Los almacenes de datos, los data lakes y los data lakehouses son todos repositorios de datos, pero con diferencias clave. A menudo se emplean juntos para respaldar una arquitectura de datos integrada para una variedad de casos de uso.

Data warehouse

Un almacén de datos recopila datos sin procesar de múltiples fuentes en un repositorio central y los organiza en una infraestructura de base de datos relacional. Este sistema de gestión de datos admite principalmente aplicaciones de analytics de datos y business intelligence, por ejemplo informes empresariales.

El sistema utiliza procesos de ETL para extraer, transformar y cargar datos al lugar de destino. Sin embargo, está limitado por su ineficiencia y costo, en particular a medida que la cantidad de fuentes de datos y la cantidad de datos.

Si bien tradicionalmente los almacenes de datos se alojaban on-premises en mainframes, hoy en día muchos almacenes de datos están alojados en la nube y se ofrecen como servicios en la nube.

Data lake

Los data lakes se construyeron inicialmente en plataformas de big data como Apache Hadoop. Pero el núcleo de los data lakes modernos es un servicio de cloud Object Storage, que les permite almacenar todo tipo de datos. Los servicios comunes incluyen Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage e IBM Cloud Object Storage. 

Dado que las empresas generan en gran medida datos no estructurados, esta capacidad de almacenamiento es una distinción importante. Permite más proyectos de ciencia de datose inteligencia artificial (IA), que a su vez generan más insights novedosos y una mejor toma de decisiones en toda la organización. 

Sin embargo, el tamaño y la complejidad de los data lakes pueden requerir la experiencia de usuarios más técnicos, como científicos de datos e ingenieros de datos. Y, debido a que la gobernanza de datos ocurre de manera descendente en estos sistemas, los data lakes pueden ser propensos a silos de datos y, posteriormente, evolucionar a pantanos de datos (donde los buenos datos son inaccesibles debido a una mala gestión).

Lago de datos

Los lakehouses de datos pueden resolver los desafíos principales tanto en los almacenes de datos como en los data lakes para producir una solución de administración de datos ideal para las organizaciones. Aprovechan el cloud Object Storage para un almacenamiento rápido y de bajo costo en una amplia gama de tipos de datos, al tiempo que ofrecen capacidades de analytics de alto rendimiento. Las organizaciones pueden emplear data lakehouses junto con sus data lakes y data warehouses existentes sin tener que desmantelarlos y reconstruirlos por completo.

Beneficios de un lakehouse de datos

Los lakehouses de datos brindan varios beneficios clave a los usuarios, pueden ayudar a:

  • Reducir la redundancia de datos
  • Menores costos
  • Admitir una variedad de cargas de trabajo
  • Mejorar la gobernanza de datos
  • Mejora la escalabilidad
  • Habilitar la transmisión en tiempo real

Reducir la redundancia de datos

Un único sistema de almacenamiento de datos crea una plataforma optimizada para satisfacer todas las demandas de datos empresariales, lo que reduce la duplicación de datos. Los lakehouses de datos también simplifican la observabilidad de los datos de principio a fin al reducir la cantidad de datos que se mueven a través de pipelines de datos en varios sistemas.

Menores costos

Los data lakehouses aprovechan los costos más bajos de cloud object storage en la nube, por lo que son más rentables que los data warehouses. Además, la arquitectura híbrida de un lakehouse de datos elimina la necesidad de mantener múltiples sistemas de almacenamiento de datos, lo que hace que la operativa sea menos costosa.

Soporta una variedad de cargas de trabajo

Los lakehouses de datos pueden abordar diferentes casos de uso a lo largo del ciclo de vida de la gestión de datos. También admiten flujos de trabajo tanto de business intelligence como de visualización basada en datos o de ciencia de datos más complejos.

Mejorar la gobernanza de datos

La arquitectura de data lakehouse mitiga los problemas de gobernanza de los data lakes. Por ejemplo, a medida que se ingieren y cargan los datos, el lakehouse puede garantizar que cumple con los requisitos del esquema definido, lo que reduce los problemas de calidad de los datos posteriores.

Mejora la escalabilidad

En los data warehouses tradicionales, el cómputo y el almacenamiento de información están acoplados. Los lakehouses de datos separan el almacenamiento y la computación, lo que permite a los equipos de datos acceder al mismo almacenamiento de datos mientras utilizan diferentes nodos informáticos para diferentes aplicaciones. Este desacoplamiento da como resultado una mayor escalabilidad y flexibilidad.

Habilitar la transmisión en tiempo real

El lakehouse de datos está diseñado para las empresas y la tecnología actuales. Muchas fuentes de datos contienen datos de transmisión en tiempo real de dispositivos, como los dispositivos del Internet de las cosas. El sistema de lakehouse admite estas fuentes a través de la ingesta de datos en tiempo real.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

¿Qué es Delta Lake?

Desarrollado por Databricks en 2016, Delta Lake es un formato dealmacenamiento de datos de código abierto que combina archivos de datos Apache Parquet con un sólido registro con un sólido registro de metadatos. Este formato agrega funciones clave de gestión de datos a los data lakes, como la aplicación de esquemas, el viaje en el tiempo y las transacciones ACID. (ACID significa "atomicity, consistency, isolation and durability", que son propiedades clave que definen una transacción para garantizar la integridad de los datos.)

Estas funciones ayudan a que los data lakes sean más confiables e intuitivos. También permiten a los usuarios ejecutar consultas enlenguaje de consulta estructurado (SQL), de trabajo de analytics y otras actividades en un data lake, streamlining business intelligence, data intelligence (DI), IA y ML.

Delta Lake fue de código abierto en 2019. Desde entonces, los data lakehouses se crean típicamente construyendo una capa de almacenamiento de Delta Lake sobre un data lake, y luego integrándolo con un motor de procesamiento de datos como Apache Spark o Hive

Los lakehouses de datos habilitados para código abierto a menudo se denominan lakehouses de datos abiertos. Otros formatos de tablas abiertas incluyen Apache Iceberg (un formato de alto rendimiento para tablas analíticas masivas) y Apache Hudi (diseñado para el procesamiento de datos).

Corredor del centro de datos

El lakehouse de datos híbrido y abierto para la IA

Simplifique el acceso a los datos y automatice su gobernanza. Descubra el poder de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costos de sus cargas de trabajo y el escalado de IA y analytics, con todos sus datos, en cualquier lugar.

Capas de la arquitectura del data lakehouse

La arquitectura de un data lakehouse normalmente consta de cinco capas:

  • Capa de ingesta
  • Capa de almacenamiento
  • Capa de metadatos
  • Capa de API
  • Capa de consumo

Capa de ingesta

Esta primera capa recopila datos de una variedad de fuentes y los transforma en un formato de datos que un lakehouse puede almacenar y analizar. La capa de ingesta puede usar protocolos para conectarse con fuentes internas y externas, como sistemas de administración de bases de datos, bases de datos NoSQL y redes sociales. 

Capa de almacenamiento

En esta capa, se almacenan conjuntos de datos estructurados, no estructurados y semiestructurados en formatos de archivo de código abierto, como Parquet u Optimized Row Columnar (ORC). Esta capa proporciona un beneficio importante del lakehouse de datos: su capacidad para aceptar todos los tipos de datos a un costo asequible.

Capa de metadatos

La capa de metadatos es un catálogo unificado que ofrece metadatos para cada objeto en el almacenamiento del lago, lo que ayuda a organizar y proporcionar información sobre los datos en el sistema. Esta capa también ofrece transacciones ACID, almacenamiento en caché de archivos e indexación para consultas más rápidas. Los usuarios pueden implementar esquemas predefinidos aquí, que permiten la gobernanza de datos y las capacidades de auditoría.

Capa de API

Un lakehouse de datos utiliza interfaces de programación de aplicaciones (API) para aumentar el procesamiento de tareas y realizar análisis más avanzados. En concreto, esta capa brinda a los consumidores y/o desarrolladores la oportunidad de utilizar una variedad de lenguajes y bibliotecas, como TensorFlow, en un nivel abstracto. Las API están optimizadas para el consumo de activos de datos.

Capa de consumo de datos

Esta última capa de la arquitectura de data lakehouse aloja aplicaciones y herramientas, con acceso a todos los metadatos y datos almacenados en el lake. Esto abre el acceso a los datos a los usuarios de una organización, que pueden utilizar el lakehouse para realizar tareas, como paneles de business intelligence, visualización de datos y trabajos de machine learning.

Soluciones relacionadas
IBM watsonx.data

Ponga sus datos a trabajar, dondequiera que residan, con el lakehouse de datos híbrido y abierto para IA y analytics.

Descubra watsonx.data
Soluciones de lago de datos

Resuelva los desafíos de datos actuales con una arquitectura de lakehouse.Conéctese a los datos en minutos, obtenga rápidamente insights confiables y reduzca los costos de su almacén de datos.

Explorar las soluciones de data lake de IBM
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics