¿Qué es un data warehouse?

Vista aérea de vehículos guiados automatizados renderizados en 3D en un depósito inteligente

Autores

Alexandra Jonker

Staff Editor

IBM Think

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

¿Qué es un data warehouse?

Data warehouse, o alamcén de datos es un sistema que agrega datos de varias fuentes en un único almacén de datos central y coherente. Los almacenes de datos ayudan a preparar los datos para las iniciativas de análisis de datos, business intelligence (BI), minería de datos, machine learning (ML) e inteligencia artificial (IA).

Los sistemas de almacenamiento de datos pueden ingerir grandes cantidades de datos de una amplia gama de sistemas de origen, incluidas bases de datos operativas, sistemas transaccionales y plataformas de gestión de relaciones con los clientes (CRM). Las herramientas de analytics de autoservicio permiten a los usuarios empresariales explorar y analizar estos datos para obtener insights valiosos.

El concepto de almacén de datos surgió en la década de 1980 para integrar datos dispares en un formato coherente para el análisis. A medida que aumentó el número de nuevas fuentes de datos, como la World Wide Web, las redes sociales y el Internet de las cosas (IoT),creció la demanda de mayor capacidad de almacenamiento y análisis más rápidos.

Los depósitos de datos están configurados y optimizados para análisis en tiempo real, lo que significa que normalmente no son ideales para almacenar cantidades masivas de big data sin estructurar. A medida que crece la cantidad de datos en un almacén, el costo y la complejidad del almacenamiento crecen con ella. También pueden surgir problemas de latencia y rendimiento.

En respuesta, evolucionaron alternativas más flexibles, incluidos depósitos de datos nativos de la nube y lakehouses de datos. (Consulte “Depósito de datos frente a lakehouse de datos” para obtener más información).

¿Cómo funciona el depósito de datos?

Los depósitos de datos a menudo utilizan una arquitectura de tres niveles diseñada para transformar datos para analytics:

Nivel inferior
Nivel medio
Nivel superior

Nivel inferior

Los datos fluyen desde múltiples sistemas de origen a un servidor de depósito de datos, donde se almacenan. Tradicionalmente, los datos se mueven a través de un proceso de integración de datos de extracción, transformación y carga (ETL), que utiliza la automatización para limpiar y organizar los datos antes de cargarlos en el depósito.

Debido a que los depósitos de datos almacenan principalmente datos estructurados, la transformación de datos se produce antes de la carga de datos. Algunos depósitos modernos utilizan procesos de extracción, carga y transformación (ELT), que cargan datos en el depósito antes de transformarlos. Este método se usa comúnmente en lagos de datos, que pueden almacenar datos no estructurados y semiestructurados sin requerir formatos estandarizados.

Nivel medio

Este nivel contiene el motor de analytics, a menudo impulsado por un sistema de procesamiento analítico en línea (OLAP). Si bien las bases de datos relacionales tradicionales, incluidos muchos depósitos de datos, pueden almacenar datos multidimensionales (por ejemplo, las cifras de ventas pueden tener varias dimensiones, como ubicación, tiempo y producto), no están optimizadas para consultas multidimensionales.

Los sistemas OLAP están diseñados para consultas complejas de alta velocidad y análisis multidimensionales de grandes volúmenes de datos. Utilizan "cubos" (estructuras de datos multidimensionales basadas en matrices) para permitir un análisis más rápido y flexible en múltiples dimensiones. Los casos de uso comunes incluyen minería de datos, análisis financiero, elaboración de presupuestos y planificación de pronósticos.

Diagrama que muestra la estructura de un cubo OLAP

Un cubo OLAP con dimensiones para Productos, Regiones de Venta y Trimestres

OLAP frente a OLTP: los sistemas de procesamiento de transacciones en línea (OLTP) capturan y actualizan grandes volúmenes de transacciones en tiempo real de muchos usuarios. Por el contrario, los sistemas OLAP analizan datos que ya se han capturado.

Hay tres tipos de OLAP que uno podría usar en un depósito de datos:

Procesamiento analítico multidimensional en línea (MOLAP): trabaja directamente con un cubo OLAP multidimensional y suele ser el tipo de análisis de datos multidimensionales más rápido y práctico.
Procesamiento analítico en línea relacional (ROLAP): realiza análisis de datos multidimensionales que opera directamente sobre los datos en tablas relacionales, sin primero reorganizarlos en un cubo.
Procesamiento analítico híbrido en línea (HOLAP): funciones para crear la división óptima del trabajo entre bases de datos relacionales y multidimensionales dentro de una única arquitectura OLAP.

Nivel superior

La capa final de un depósito de datos proporciona una interfaz de usuario frontend para informes, paneles y análisis de datos ad hoc de datos empresariales. Estas herramientas de business intelligence de autoservicio permiten a los usuarios generar informes basados en datos históricos, visualizar tendencias e identificar cuellos de botella en el flujo de trabajo sin experiencia técnica en ingeniería de datos.

Boletín de la industria

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

Modelos de despliegue de depósito de datos: on premises, en la nube e híbridos

Los depósitos de datos evolucionaron significativamente, pasando de sistemas exclusivamente on premises a modelos híbridos y en la nube flexibles.

Depósitos de datos tradicionales

Históricamente, los almacenes de datos se alojaban on premises utilizando hardware básico. Estos sistemas se organizaron en arquitecturas de procesamiento paralelo masivo (MPP) o multiprocesamiento simétrico (SMP). También se entregaron como dispositivos independientes. Estos despliegues requieren una inversión significativa. Sin embargo, pueden ser una buena opción para organizaciones en sectores con estándares estrictos de cumplimiento, seguridad de datos o privacidad de datos.

Depósitos de datos en la nube

Hoy en día, muchos depósitos de datos están diseñados para ejecutarse en la nube. Ofrecen los beneficios de la computación en la nube, como el almacenamiento de datos a escala de petabytes, computación y almacenamiento altamente escalables y precios de pago por uso. Los depósitos de datos basados en la nube suelen entregarse como una oferta de software como servicio (SaaS) totalmente gestionada, lo que elimina la necesidad de una inversión inicial en hardware o software. Esta prestación de servicios también reduce los recursos necesarios para la gestión de la infraestructura para que las organizaciones puedan centrarse en analytics e insights.

Los depósitos de datos basados en la nube han crecido en popularidad a medida que las organizaciones buscan la agilidad para escalar y reducir las huellas de sus centro de datos on premises y el gasto en infraestructura heredada.

Conceptos erróneos sobre los depósitos de datos en la nube

Enfoques híbridos

Algunas organizaciones pueden adoptar un modelo híbrido, que combina lo mejor de los almacenes de datos on premises y en la nube. Este enfoque les permite usar la escalabilidad y flexibilidad de la nube, al tiempo que conservan el control de las cargas de trabajo que deben permanecer on premises.

¿Cuáles son los tres esquemas de un depósito de datos?

En un depósito de datos, los esquemas definen cómo se organizan los datos. Hay tres estructuras de esquema comunes: el esquema de estrella, el esquema de copo de nieve y el esquema de galaxias (también llamado esquema de constelación de hechos).

Todos estos esquemas son modelos de datos dimensionales diseñados para optimizar las velocidades de recuperación de datos en los sistemas OLAP. Los modelos dimensionales pueden aumentar la redundancia, lo que facilita la localización de información para la generación de informes y la recuperación y mejora del rendimiento de las consultas.

Estos esquemas contienen tablas de hechos y tablas de dimensiones, definidas a continuación:

Tablas de hechos: almacene datos cuantitativos, como productos vendidos o cantidades de ingresos
Tablas de dimensiones: almacene información contextual y descriptiva para hechos, como fechas de venta y categorías de producto

Esquema en estrella

Los esquemas en estrella consisten en una única tabla de hechos central rodeada de tablas de dimensiones. En un diagrama, la tabla de hechos puede parecer estar en medio de un patrón de estrella. El esquema en estrella se considera el tipo de esquema más simple y común, ya que ofrece a los usuarios velocidades de consulta más rápidas.

Gráfico que representa un esquema de estrella

Ejemplo de un esquema de estrella

Esquema en copo de nieve

Un esquema de copo de nieve tiene una tabla de hechos central conectada a muchas tablas de dimensiones normalizadas, que luego pueden conectarse a otras tablas de dimensiones a través de relaciones de muchos a uno. Este patrón más complejo y ramificado puede asemejarse a un copo de nieve. Los esquemas de copos de nieve tienen bajos niveles de redundancia de datos, pero esto tiene el costo de un rendimiento de consulta más lento.

Ejemplo de un esquema de copo de nieve

Esquema de galaxia

Al igual que nuestra galaxia contiene muchas estrellas, un esquema de galaxia contiene muchos esquemas de estrellas que comparten tablas de dimensiones que se normalizan para evitar la redundancia. El esquema de galaxia es más adecuado para depósitos de datos muy complejos, pero los usuarios pueden tener una experiencia inferior.

Ejemplo de un esquema de galaxia

Componentes de la arquitectura de un depósito de datos

Una arquitectura de depósito de datos típica tiene varios componentes que trabajan juntos para almacenar, gestionar, procesar y entregar datos para analytics.

Herramientas ETL/ELT
Capa de API
Capa de datos (base de datos central)
Metadatos
Sandbox
Herramientas de acceso

Herramientas ETL/ELT

Las herramientas ETL extraen datos de los sistemas de origen, los transforman en un área de preparación y los cargan en el depósito de datos. En ELT, los datos se transforman después de cargarse en el depósito. Una herramienta de marco de procesamiento de datos, como Apache Spark, puede ayudar a gestionar la transformación de los datos.

ELT frente a ETL: ¿cuál es la diferencia?

Capa de API

Una capa de conectividad para interfaces de programación de aplicaciones (API) puede ayudar al depósito a extraer datos de los sistemas operativos e integrarlos con ellos. Las API también pueden proporcionar acceso a herramientas de visualización y analytics avanzadas.

Capa de datos (o base de datos central)

La capa de datos (o base de datos central) es el centro del depósito de datos. Aquí, el sistema integra y almacena datos de diversas fuentes, como aplicaciones comerciales, listas de correo electrónico, sitios web u otras bases de datos. Esta capa es compatible con pipelines de datos ETL o ELT y utiliza un sistema de gestión de bases de datos relacionales (RDBMS) o una plataforma de almacenamiento de datos en la nube. Las capacidades integradas de gobernanza de datos y seguridad pueden particionar los datos para que los usuarios solo accedan a lo que necesitan.

Los metadatos son datos sobre datos, que describen los datos que se almacenan en un sistema para que puedan buscarse y utilizarse para analytics. Incluye metadatos técnicos (como la estructura de la tabla y el tipo de datos) y metadatos descriptivos (como el autor, la fecha de creación o el tamaño del archivo). Los metadatos son clave para una gobernanza de datos y gestión de datos eficaces.

Sandbox

Algunos depósitos de datos proporcionan un sandbox, que es un entorno de prueba aislado que contiene una copia de los datos de producción y las herramientas de análisis relevantes. Los analistas y científicos de datos pueden experimentar con nuevas técnicas analíticas en el sandbox sin afectar las operaciones del depósito de datos para otros usuarios.

Herramientas de acceso

Las herramientas de acceso se conectan a un depósito de datos para proporcionar un frontend empresarial fácil de usar. Los usuarios empresariales y los analistas de datos pueden utilizar paneles, aplicaciones y herramientas de visualización de datos para interactuar con los datos y extraer insights. Algunos ejemplos de estas herramientas son Tableau, Looker y Qlik.

Academia de IA

¿Es la gestión de datos el secreto de la IA generativa?

Explore por qué los datos de alta calidad son esenciales para el uso exitoso de la IA generativa.

Ir al episodio

Tipos de almacenes de datos

Existen tres tipos principales de depósitos de datos

Depósito de datos empresariales (EDW)
Almacén de datos operativos (ODS)
mercado de datos

Depósito de datos empresariales (EDW)

Un depósito de datos empresarial (EDW) es un almacén de datos que da servicio a toda la empresa. Actúa como repositorio de información centralizada de datos históricos de todos los equipos y áreas temáticas. Un entorno de depósito de datos empresariales también puede incluir un almacén de datos operativos (ODS) y mercados de datos específicos de cada departamento.

Almacén de datos operativos (ODS)

Un almacén de datos operativos (ODS) contiene la instantánea más reciente de los datos operativos. Un ODS se actualiza con frecuencia, lo que permite un acceso rápido a los datos casi en tiempo real. Las organizaciones suelen utilizar un ODS para la toma de decisiones operativas diarias y el análisis en tiempo real. También puede ser una fuente de datos para un EDW u otros sistemas de datos.

Mercado de datos

Un mercado de datos es un subconjunto de un almacén de datos existente (u otras fuentes de datos) y contiene datos adaptados a una línea de negocio o departamento específico en lugar de a toda la empresa. Por ejemplo, una empresa puede tener un mercado de datos alineado con el departamento de marketing. Estos usuarios pueden acceder a insights más específicos para la segmentación de clientes y el rendimiento de las campañas sin tener que navegar por el conjunto de datos más amplio de la empresa.

Almacenes de datos vs. otros tipos de almacenamiento de datos

Los términos depósito de datos, base de datos, lago de datos y lakehouse de datos a veces se usan indistintamente, pero existen diferencias importantes.

Análisis profundo: depósitos de datos, lagos de datos y lakehouses de datos

Depósito de datos frente a base de datos

Una base de datos es como un archivador construido principalmente para la captura automatizada de datos y el procesamiento rápido de transacciones. Generalmente sirve como almacén de datos específico para una aplicación específica. Los depósitos de datos almacenan datos de cualquier cantidad de aplicaciones en una organización y están optimizados para análisis predictivos y otros análisis avanzados.

Depósito de datos frente a lago de datos

Un lago de datos es una solución de almacenamiento de bajo costo para cantidades masivas de datos sin procesar y utiliza un enfoque de esquema en lectura en lugar de un esquema predefinido. Los lagos de datos suelen contener datos no estructurados y semiestructurados, como documentos, videos, registros del Internet de las cosas (IoT) y publicaciones en redes sociales.

Se pueden crear en plataformas de big data, como Apache Hadoop, o en servicios de almacenamiento de objetos en la nube, como Amazon Simple Storage Service (Amazon S3). Por lo general, no limpian, ni validan ni normalizan los datos para analytics, como lo hace un depósito.

Data lakehouse vs. almacén de datos

Un lakehouse de datos fusiona aspectos de los depósitos de datos y los lagos de datos, a saber, la flexibilidad de bajo costo de un lago y el alto rendimiento de un depósito. Al combinar las características clave de los lagos y depósitos en una solución de datos, los lakehouses pueden ayudar a acelerar el procesamiento de datos para grandes cantidades de flujos de datos estructurados, no estructurados y en tiempo real para respaldar el machine learning, la ciencia de datos y las cargas de trabajo de inteligencia artificial (IA).

Los lakehouses de datos también pueden agregar características, como metadatos compartidos y motores de lenguaje de consulta estructurado (SQL) distribuidos.

Beneficios del depósito de datos

Los depósitos de datos ponen los insights y los beneficios a disposición de los usuarios de toda una organización, ofreciendo muchos beneficios, como:

Mejor calidad de los datos
Soporte para IA y machine learning
Mayor apoyo a la toma de decisiones

Mejor calidad de los datos

A través de procesos de ELT o ETL, los depósitos de datos preparan los datos entrantes antes de almacenarlos en el depósito. Esta preparación incluye métodos de calidad de datos como limpieza, estandarización y deduplicación de datos. Las políticas y prácticas sólidas de gobernanza de datos también pueden ayudar a garantizar la precisión e integridad de los datos para todos los usuarios.

Al integrar datos de alta calidad en un único almacén, las organizaciones crean una única fuente de información completa y confiable, lo que ayuda a eliminar los silos de datos. Este repositorio central permite a los usuarios empresariales acceder con confianza a todos los datos pertinentes de la organización y utilizarlos para la toma de decisiones empresariales. Un almacén de datos de nivel empresarial también podría incluir compatibilidad con formatos de código abierto, como Apache Iceberg, Parquet y CSV, lo que permitiría compartir más datos en toda la empresa.

Soporte para IA y machine learning

Los depósitos de datos modernos pueden admitir varios flujos de trabajo de IA y machine learning proporcionando datos limpios y confiables. Los científicos de datos pueden utilizar datos de almacén limpios y validados para crear modelos de IA generativa patentados o ajustar los modelos existentes para satisfacer mejor sus necesidades comerciales únicas.

Un depósito de datos listo para la IA debe poder recopilar, limpiar, organizar y estructurar datos, así como facilitar el flujo de datos a las plataformas de IA y machine learning. Sin embargo, no todos los almacenes de datos modernos están optimizados para cargas de trabajo de IA. Los lakehouses de datos se están convirtiendo cada vez más en las plataformas de datos preferidas para la infraestructura de IA.

Mayor apoyo a la toma de decisiones

Un almacén de datos centraliza y limpia los datos de diferentes fuentes para crear una única fuente de verdad, brindando a las organizaciones una visión integral y confiable de los datos empresariales. Las herramientas de BI de autoservicio permiten a los usuarios de toda la empresa acceder a consultas analíticas y ejecutarlas sobre estos datos agregados.

De este modo, los almacenes de datos permiten a los usuarios empresariales de cualquier nivel técnico descubrir y elaborar informes sobre temas, tendencias y agregaciones. Los directivos de las empresas pueden emplear estos insights para tomar decisiones mejor informadas y realizar forecasting basados en pruebas fehacientes en prácticamente todos los ámbitos de la organización, desde los procesos empresariales hasta la gestión financiera y de inventarios.

Casos de uso de depósitos de datos específicos de la industria

Los depósitos de datos también pueden servir para usos específicos de la industria, como:

Gobierno

Las capacidades analíticas de un depósito de datos pueden ayudar a los gobiernos a comprender mejor los fenómenos complejos como la delincuencia, las tendencias demográficas y los patrones de tráfico.

Atención médica

Atención médica: la capacidad de centralizar y analizar datos dispares, como códigos de facturación y diagnóstico, datos demográficos de pacientes, medicamentos y resultados, puede ayudar a los proveedores de atención médica a obtener insights sobre los resultados de los pacientes, la eficiencia operativa y más.

Viajes y hospitalidad

Las organizaciones pueden utilizar datos históricos relacionados con las opciones de viaje y alojamiento para dirigir con mayor precisión la publicidad y las promociones a sus clientes.

Manufactura

Las grandes empresas manufactureras que generan enormes volúmenes de datos pueden utilizar soluciones de depósito de datos para crear mercados de datos adaptados a las necesidades de cada departamento.

IBM nombrado líder en integración iPaaS, Forrester Wave Q3 2025

Leer el informe para ver por qué Forrester clasificó a IBM como líder con la puntuación más alta en la categoría Oferta actual. Descubra cómo este liderazgo fortalece IBM webMethods MFT al ofrecer transferencias de archivos seguras y escalables dentro de una estrategia de integración empresarial más amplia.

Recursos

Gestión de datos para IA y analytics a escala

Descubra cómo un enfoque de lakehouse de datos abierto puede proporcionar datos fiables y una ejecución más rápida de los proyectos de analytics e IA.

Gartner® Magic Quadrant™ 2024 para herramientas de integración de datos

IBM fue nombrado líder por 19.º año consecutivo en Gartner® Magic Quadrant™ 2024 para herramientas de integración de datos.

The Data Differentiator

Explore la guía del líder de datos para crear una organización basada en datos e impulsar la ventaja empresarial.

Incremente la adopción de la IA con datos preparados para ella

Descubra por qué la inteligencia de datos impulsada por IA y la integración de datos son críticos a la hora de impulsar la preparación de datos estructurados y no estructurados y acelerar los resultados de IA.

El lakehouse de datos híbrido y abierto para la IA

Simplifique el acceso a los datos y automatice su gobernanza. Descubra el poder de integrar una estrategia de lakehouse de datos en su arquitectura de datos, incluida la optimización de costos de sus cargas de trabajo y el escalado de IA y analytics, con todos sus datos, en cualquier lugar.

Publicaciones sobre gestión de datos de IBM® Research

Explore cómo IBM Research se integra de forma regular en las nuevas características de IBM® Cloud Pak for Data.

Predicciones de Gartner® para 2024: cómo afectará la IA a los usuarios de analytics

Obtenga insights únicos del panorama en evolución de las soluciones ABI, en el que se destaquen las principales conclusiones, suposiciones y recomendaciones para los líderes de datos y analytics.

Soluciones relacionadas

IBM StreamSets

Cree y gestione canalizaciones de datos de streaming inteligentes a través de una interfaz gráfica intuitiva, y facilite una integración de datos fluida en entornos híbridos y multinube.

Explorar StreamSets

IBM watsonx.data™

watsonx.data le permite escalar los analytics y la IA con todos sus datos, residan donde residan, a través de un almacén de datos abierto, híbrido y gestionado.

Descubra watsonx.data

Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting, y construya una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics

Dé el siguiente paso

Diseñe una estrategia de datos que elimine los silos de datos, reduzca la complejidad y mejore la calidad de los datos para ofrecer experiencias excepcionales a clientes y empleados.

Explore las soluciones de gestión de datos

Descubra watsonx.data

¿Qué es un data warehouse?

Autores

¿Qué es un data warehouse?

¿Cómo funciona el depósito de datos?

Nivel inferior

Nivel medio

Nivel superior

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

¡Gracias! Ya está suscrito.

Modelos de despliegue de depósito de datos: on premises, en la nube e híbridos

Depósitos de datos tradicionales

Depósitos de datos en la nube

Enfoques híbridos

¿Cuáles son los tres esquemas de un depósito de datos?

Esquema en estrella

Esquema en copo de nieve

Esquema de galaxia

Componentes de la arquitectura de un depósito de datos

Herramientas ETL/ELT

Capa de API

Capa de datos (o base de datos central)

Sandbox

Herramientas de acceso

¿Es la gestión de datos el secreto de la IA generativa?

Tipos de almacenes de datos

Depósito de datos empresariales (EDW)

Almacén de datos operativos (ODS)

Mercado de datos

Almacenes de datos vs. otros tipos de almacenamiento de datos

Depósito de datos frente a base de datos

Depósito de datos frente a lago de datos

Data lakehouse vs. almacén de datos

Beneficios del depósito de datos

Mejor calidad de los datos

Soporte para IA y machine learning

Mayor apoyo a la toma de decisiones

Casos de uso de depósitos de datos específicos de la industria

Recursos