¿Qué es un data lake?

Autores

Staff Editor

IBM Think

¿Qué es un data lake?

Un data lake es un entorno de almacenamiento de datos de bajo costo diseñado para manejar cantidades masivas de datos sin procesar en cualquier formato, incluidos datos estructurados, semiestructurados y no estructurados.

La mayoría de los data lakes utilizan almacenamiento de objetos basado en la nube, como AWS S3, Google Cloud Storage o IBM Cloud Object Storage.

Los data lakes surgieron para ayudar a las organizaciones a lidiar con la avalancha de big data, en gran parte desestructurada, creada por aplicaciones y servicios conectados a Internet a fines de la década de 2000 y principios de 2010.

A diferencia de las bases de datos y los almacenes de datos tradicionales, losdata lakes no requieren que todos los datos sigan un esquema definido. En su lugar, los data lakes pueden almacenar diferentes tipos de datos en diversos formatos en un repositorio centralizado. Los data lakes también aprovechan la computación en la nube para que el almacenamiento de datos sea más escalable y asequible.

En la actualidad, los data lakes son componentes fundamentales de las arquitecturas de datos de muchas organizaciones. Según el estudio de IBM CDO, el 75% de los principales directores de datos (CDO) están invirtiendo en data lakes.

Gracias a su almacenamiento flexible, los data lakes pueden ayudar a las organizaciones a eliminar los silos de datos y construir tejidos de datos holísticos. También son útiles para los científicos e ingenieros de datos, que a menudo emplean los data lakes para gestionar los enormes conjuntos de datos no estructurados necesarios para las cargas de trabajo de inteligencia artificial (IA) y machine learning (ML).

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think.

La evolución de los data lakes

Durante mucho tiempo, las organizaciones confiaron en bases de datos relacionales (desarrolladas en la década de 1970) y almacenes de datos (desarrollados en la década de 1980) para gestionar sus datos. Estas soluciones siguen siendo partes importantes de los ecosistemas de TI de muchas organizaciones, pero se diseñaron principalmente para conjuntos de datos estructurados.

Con el crecimiento de Internet, y especialmente con la llegada de las redes sociales y los medios de transmisión, las organizaciones se encontraron lidiando con muchos más datos no estructurados, como texto e imágenes de forma libre. Debido a sus estrictos esquemas y a los costos de almacenamiento comparativamente elevados, los almacenes y las bases de datos relacionales estaban mal equipados para gestionar esta afluencia de datos.

En 2011, James Dixon, entonces director de tecnología de Pentaho, acuñó el término “data lake”. Dixon veía el lago como una alternativa al almacén de datos. Mientras que los almacenes entregan datos preprocesados para casos de uso empresarial específicos, Dixon imaginó un data lake como un gran conjunto de datos alojados en su formato natural. Los usuarios podrían extraer los datos que necesitaban de este lago y emplearlos como quisieran.

Muchos de los primeros data lakes se crearon en Apache Hadoop, un marco de software de código abierto para el procesamiento distribuido de grandes conjuntos de datos. Estos primeros data lakes se alojaban on premises, pero esto se convirtió rápidamente en un problema a medida que el volumen de datos seguía aumentando.

La computación en la nube ofreció una solución: trasladar los data lakes a servicios de almacenamiento de objetos en la nube escalable.

Los data lakes siguen evolucionando en la actualidad. Muchas soluciones de data lake ofrecen ahora características más allá del almacenamiento de información escalable y económico, como herramientas de seguridad y control de datos, catálogos de datos y administración de metadatos.

Los data lakes también son componentes básicos de los data lakes de casa, una solución de gestión de datos relativamente nueva que combina el almacenamiento de bajo costo de un lago y las capacidades de análisis de alto rendimiento de un almacén. (Para obtener más información, consulte “data lakes vs. data lakehouse”).

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Ir al episodio

Arquitectura de data lake

Mientras que los primeros data lakes se construyeron en Hadoop, el núcleo de un data lake moderno es un servicio de almacenamiento de objetos en la nube. Las opciones comunes incluyen Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Almacenamiento, Google Cloud Almacenamiento e IBM Cloud Object Storage

Cloud object storage permite a las organizaciones almacenar diferentes tipos de datos sin procesar, todo en el mismo almacenamiento. También es generalmente más Escalable y más rentable que el almacenamiento on premises. Los proveedores de Cloud storage permiten a los usuarios poner en marcha grandes clústeres bajo demanda, lo que requiere un pago solo por el almacenamiento utilizado.

Los recursos de almacenamiento y computación están separados entre sí en una arquitectura de data lake. Para procesar datos, los usuarios deben conectar herramientas externas de procesamiento de datos. Apache Spark, que admite interfaces como Python, R y Spark SQL, es una opción popular.

Desvincular el almacenamiento y la computación ayuda a mantener los costos bajos y la escalabilidad alta. Las organizaciones pueden agregar más almacenamiento sin escalar los recursos informáticos junto con él.

El almacenamiento central del data lake está conectado a varias fuentes de datos, como bases de datos, aplicaciones, dispositivos de Internet de las cosas (IoT) y sensores, a través de una capa de ingesta.

La mayoría de los data lakes utilizan un proceso de extracción, carga y transformación (ELT) en lugar de un proceso de extracción, transformación y carga (ETL) para Ingesta de datos. Los datos permanecen en su estado original cuando el lago los Ingesta, y no se transforman hasta que se necesitan. Este enfoque—aplicando un esquema solo cuando se accede a los datos—se denomina “schema-on-read.”

Aprenda más sobre la diferencia entre ELT y ETL

Además de estos componentes principales, las organizaciones pueden construir otras capas en sus arquitecturas de data lake para hacerlas más seguras y utilizables. Estas capas pueden incluir:

Múltiples capas de almacenamiento distintas para adaptarse a las diferentes etapas del procesamiento de datos. Por ejemplo, un data lake puede tener una capa para datos sin procesar, una capa para datos limpios y una capa para datos de aplicaciones confiables.

Las capas de seguridad y gobernanza, como las soluciones integradas de gobernanza de datos o los controles de gestión de identidad y acceso (IAM), mantienen la calidad de los datos y los protegen contra el acceso no autorizado.

Un catálogo de datos para ayudar a los usuarios a encontrar datos fácilmente mediante el uso de filtros de metadatos u otros métodos.

Data lakes, almacenes de datos y data lakehouses

Los data lakes, almacenes y lakehouses son todos tipos de herramientas de gestión de datos, pero tienen diferencias importantes. A menudo se utilizan juntos en una arquitectura de datos integrada para admitir varios casos de uso.

Data lakes vs. almacenes de datos

Al igual que un data lake, un almacén de datos agrega datos de fuentes de datos Dispar en un único almacenar, generalmente un sistema de base de datos relacional. La diferencia clave es que los almacenes de datos limpian y preparan los datos que Ingesta para que estén listos para su uso en analytics.

Los almacenes de datos están diseñados principalmente para admitir consultas de alto rendimiento, análisis en tiempo real y esfuerzos de business intelligence (BI). Como tales, están optimizados para datos estructurados y estrechamente integrados con Analytics Engine, paneles y herramientas de visualización de datos.

Los almacenes tienden a tener un almacenamiento más caro, menos flexible y menos escalable que los data lakes. Las organizaciones suelen emplear los almacenes para proyectos de analytics específicos, mientras que confían en los data lakes para el almacenamiento a gran escala, multipropósito.

Data lakes vs. data lakehouses

Un lakehouse de datos es una solución de gestión de datos que combina el almacenamiento de datos flexible de un lago y las capacidades de analytics de alto rendimiento de un almacén.

Al igual que un data lake, un lakehouse de datos puede almacenar datos en cualquier formato a bajo costo. Los lakehouses de datos también construyen una infraestructura de analytics de estilo almacén sobre ese sistema de almacenamiento de data lakes en la cloud, combinando características de las dos soluciones.

Las organizaciones pueden usar lakehouses para admitir numerosas cargas de trabajo, que incluyen IA, ML, BI y análisis de datos. Los lakehouses también pueden servir como una vía de modernización para las arquitecturas de datos. Las organizaciones pueden colocar lakehouses junto a lagos y almacenes existentes sin un costoso esfuerzo de quitar y reemplazar.

Aprende más sobre las diferencias entre data lakes, warehouses y lakehouses

Casos de uso de data lakes

Almacenamiento multiusos

Muchas organizaciones emplean data lakes como soluciones de almacenamiento multipropósito para los datos entrantes, ya que pueden alojar fácilmente petabytes de datos en cualquier formato.

En lugar de configurar diferentes pipelines de datos para diferentes tipos de datos, las organizaciones pueden poner todos los datos entrantes en el almacenamiento de data lake. Los usuarios pueden acceder a los datos directamente desde el lago o moverlos a un almacén u otra plataforma de datos según sea necesario.

Las organizaciones pueden incluso utilizar data lakes para almacenar datos “por si acaso” con casos de uso aún no definidos. Debido a que los data lakes son baratos y escalables, las organizaciones no tienen que preocuparse por gastar recursos en datos que quizás aún no necesiten.

Copias de seguridad, archivos y datos inactivos

Las grandes capacidades de almacenamiento y los bajos costos de almacenamiento hacen de los data lakes una opción habitual para las copias de seguridad y la recuperación ante desastres.

Los data lakes también pueden ser una forma de almacenar datos fríos o inactivos a un precio bajo. Esto es útil para archivar datos antiguos y mantener registros históricos que podrían ayudar con auditorías de cumplimiento, consultas regulatorias o incluso nuevos análisis netos en el futuro.

Cargas de trabajo de IA y ML

Los data lakes desempeñan un papel importante en las cargas de trabajo de IA, machine learning (ML) y analytics de big data, como la creación de modelos predictivos y el entrenamiento de aplicaciones de IA generativa (IA gen) que requieren grandes cantidades de datos no estructurados. Estos proyectos pueden ser gestionados de forma económica y eficiente por los data lakes.

Según el estudio del director ejecutivo (CEO) de IBM, el 72 % de los CEO con mejor rendimiento están de acuerdo en que contar con las herramientas de IA generativa más avanzadas proporciona a una organización una ventaja competitiva. Dada la importancia de la IA y el ML, tiene sentido que los data lakes se hayan convertido en una inversión fundamental en arquitectura de datos para muchas organizaciones.

Integración de datos

Los data lakes pueden ayudar a respaldar las iniciativas de integración de datos, cuyo objetivo es combinar y armonizar datos de múltiples fuentes para que puedan utilizarse con diversos fines analíticos, operativos y de toma de decisiones.

Según los datos de evaluación comparativa del IBM Institute for Business Value, el 64 % de las organizaciones afirman que derribar las barreras organizacionales para el intercambio de datos es uno de sus mayores desafíos relacionados con las personas. Las investigaciones muestran que hasta el 68 % de los datos organizacionales nunca se analizan. Las organizaciones no pueden obtener todos los beneficios de sus datos si las personas no pueden usarlos cuando los necesitan.

Los data lakes pueden facilitar el acceso y el intercambio de datos al brindar a las organizaciones una manera fácil de almacenar todo tipo de datos en un repositorio central accesible.

Beneficios del data lake

Los data lakes pueden ayudar a las organizaciones a obtener más valor de sus datos empresariales al facilitar el almacenamiento, el intercambio y el uso de esos datos. Más específicamente, los data lakes pueden proporcionar:

Flexibilidad: los data lakes pueden ingerir conjuntos de datos estructurados, semiestructurados y no estructurados. Las organizaciones no necesitan mantener sistemas de almacenamiento separados para los distintos tipos de datos, lo que puede ayudar a simplificar las arquitecturas de datos.

Bajos costos: los datos no necesitan pasar por un costoso proceso de limpieza y Transformación para el almacenamiento, y el cloud object storage suele ser más barato que las alternativas locales. Las organizaciones pueden optimizar sus Recursos y presupuestos de manera más efectiva a través de iniciativas de gestión de datos.

Escalabilidad: debido a que los data lakes desacoplan los recursos informáticos y de almacenamiento, y debido a que suelen utilizar servicios de almacenamiento en la nube, son más fáciles de ampliar o reducir que muchas otras soluciones de almacenamiento de datos.

Menos silos de datos: según los datos de evaluación comparativa del IBM Institute for Business Value, el 61 % de las organizaciones dice que los silos de datos son uno de sus principales desafíos. Los data lakes pueden ayudar a eliminar los silos de datos al eliminar la necesidad de almacenar diferentes tipos de datos en diferentes lugares. Un data lake central o un conjunto de data lakes puede ser más accesible que almacenes de datos dispares repartidos entre unidades de negocio.

Desafíos de los data lakes

Gobernanza y calidad de datos

Debido a que no aplican un esquema estricto y aceptan muchos tipos de datos diferentes de muchas fuentes, los data lakes pueden tener dificultades con la gobernanza y la calidad de los datos. Sin una gestión adecuada, los data lakes pueden convertirse fácilmente en “pantanos de datos”: ciénagas desordenadas de datos poco confiables que dificultan que los usuarios obtengan insights procesables.

Para combatir los pantanos de datos, las organizaciones pueden invertir en herramientas de etiquetado y clasificación, como sistemas de administración de metadatos y catálogos de datos, que facilitan la navegación.

Las soluciones de seguridad y gobernanza de datos, como los controles de acceso, la prevención de pérdida de datos y las soluciones de detección y respuesta de datos pueden ayudar a garantizar que no se acceda, utilice o modifique los datos sin autorización.

Desempeño

Los data lakes no tienen herramientas integradas de procesamiento y consulta como muchos almacenes y casas de lago. Además, el rendimiento de las consultas y el análisis puede verse afectado a medida que crece el volumen de datos que se introducen en un data lake, especialmente si los datos no están optimizados para su recuperación.

El uso de las herramientas y configuraciones adecuadas, como formatos de almacenamiento optimizados y motores de consulta, puede ayudar a garantizar un alto rendimiento, independientemente del tamaño del data lake.

IBM nombrado líder en integración iPaaS, Forrester Wave Q3 2025

Leer el informe para ver por qué Forrester clasificó a IBM como líder con la puntuación más alta en la categoría Oferta actual. Descubra cómo este liderazgo fortalece IBM webMethods MFT al ofrecer transferencias de archivos seguras y escalables dentro de una estrategia de integración empresarial más amplia.

Recursos

Gestión de datos para IA y analytics a escala

Descubra cómo un enfoque de lakehouse de datos abierto puede proporcionar datos fiables y una ejecución más rápida de los proyectos de analytics e IA.

Gartner® Magic Quadrant™ 2024 para herramientas de integración de datos

IBM fue nombrado líder por 19.º año consecutivo en Gartner® Magic Quadrant™ 2024 para herramientas de integración de datos.

The Data Differentiator

Explore la guía del líder de datos para crear una organización basada en datos e impulsar la ventaja empresarial.

Incremente la adopción de la IA con datos preparados para ella

Descubra por qué la inteligencia de datos impulsada por IA y la integración de datos son críticos a la hora de impulsar la preparación de datos estructurados y no estructurados y acelerar los resultados de IA.

El lakehouse de datos híbrido y abierto para la IA

Simplifique el acceso a los datos y automatice su gobernanza. Descubra el poder de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costos de sus cargas de trabajo y el escalado de IA y analytics, con todos sus datos, en cualquier lugar.

Publicaciones sobre gestión de datos de IBM® Research

Explore cómo IBM Research se integra de forma regular en las nuevas características de IBM® Cloud Pak for Data.

Predicciones de Gartner® para 2024: cómo afectará la IA a los usuarios de analytics

Obtenga insights únicos del panorama en evolución de las soluciones ABI, en el que se destaquen las principales conclusiones, suposiciones y recomendaciones para los líderes de datos y analytics.

Soluciones relacionadas

IBM watsonx.data

Ponga sus datos a trabajar, dondequiera que residan, con el lakehouse de datos híbrido y abierto para IA y analytics.

Descubra watsonx.data

Soluciones de lago de datos

Resuelva los desafíos de datos actuales con una arquitectura de lakehouse.Conéctese a los datos en minutos, obtenga rápidamente insights confiables y reduzca los costos de su almacén de datos.

Explorar las soluciones de data lake de IBM

Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics

Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.