Inicio topics data warehouse ¿Qué es un almacén de datos?
Explore la solución de almacén de datos de IBM Suscríbase para recibir actualizaciones sobre IA
Ilustración con collage de pictogramas de nubes, gráfico circular, pictogramas gráficos
¿Qué es un almacén de datos?

Un almacén de datos, o almacén de datos empresariales (EDW), es un sistema que agrega datos de diferentes fuentes en un único almacén de datos central y coherente para respaldar el análisis de datos, la minería de datos, la inteligencia artificial (IA) y el aprendizaje automático.

 

Un sistema de almacenamiento de datos permite a una organización ejecutar análisis potentes en grandes cantidades de datos (petabytes) de maneras que una base de datos estándar no puede.

Los sistemas de almacenamiento de datos han sido parte de las soluciones de business intelligence (BI) durante más de tres décadas, pero han evolucionado recientemente con el surgimiento de nuevos tipos de datos y métodos de alojamiento de datos. Tradicionalmente, un almacén de datos se alojaba en un entorno local, a menudo en una computadora de mainframe, y su funcionalidad se centraba en extraer datos de otras fuentes, limpiar y preparar los datos y cargar y mantener los datos en una base de datos relacional. Más recientemente, un almacén de datos podría estar alojado en un dispositivo dedicado o en la nube. Además, la mayoría de los almacenes de datos han agregado capacidades de análisis y herramientas de visualización y presentación de datos.

Desarrolle flujos de trabajo de IA responsables con gobernanza de IA

Conozca los componentes básicos y las mejores prácticas para ayudar a sus equipos a acelerar la IA responsable.

Contenido relacionado

Regístrese para obtener el libro electrónico sobre Presto

Arquitectura de un almacén de datos

En términos generales, los almacenes de datos tienen una arquitectura de tres niveles, que consta de:
 

  • Nivel inferior: El nivel inferior consta de un servidor de almacén de datos, generalmente un sistema de base de datos relacional, que recopila, limpia y transforma datos de múltiples fuentes de datos a través de un proceso conocido como Extraer, transformar y cargar (ETL) o un proceso conocido como Extraer, cargar y transformar (ELT). Para la mayoría de las organizaciones que utilizan ETL, el proceso se basa en la automatización y es eficiente, bien definido, continuo e impulsado por lotes.
     

  • Nivel medio: El nivel medio consta de un servidor OLAP (procesamiento analítico en línea) que permite velocidades de consulta rápidas. En este nivel se pueden utilizar tres tipos de modelos OLAP, los cuales se conocen como ROLAP, MOLAP y HOLAP. El tipo de modelo OLAP utilizado depende del tipo de sistema de base de datos que existe.
     

  • Nivel superior: El nivel superior está representado por algún tipo de interfaz de usuario front-end o herramienta de generación de informes, que permite a los usuarios finales realizar análisis de datos ad hoc sobre sus datos empresariales.

Una breve historia de la arquitectura de los almacenes de datos

La mayoría de los almacenes de datos se crean en torno a un sistema de base de datos relacional, ya sea en las instalaciones o en la nube, donde los datos se almacenan y procesan. Entre otros componentes se incluyen un sistema de gestión de metadatos y una capa de conectividad API que permita al almacén extraer datos de fuentes organizacionales y proporcionar acceso a herramientas de análisis y visualización.

Un almacén de datos típico tiene cuatro componentes principales: una base de datos central, herramientas ETL, metadatos y herramientas de acceso. Todos estos componentes están diseñados para ser rápidos, de modo que permitan obtener resultados con rapidez y analizar datos sobre la marcha.

El almacén de datos existe desde hace décadas. Nació en los años 80 como respuesta a la necesidad de optimizar el análisis de los datos. A medida que las aplicaciones de negocio de las empresas empezaban a crecer y a generar/almacenar más datos, necesitaban sistemas de almacenamiento de datos que pudieran gestionar los datos y a la vez analizarlos. A alto nivel, los administradores de bases de datos podían extraer datos de sus sistemas operativos y añadirles un esquema mediante transformación antes de cargarlos en su almacén de datos.

A medida que la arquitectura de almacén de datos evolucionó y creció en popularidad, más personas dentro de una empresa comenzaron a usarla para acceder a los datos; además, el almacén de datos facilitó el uso con los datos estructurados. Aquí es donde los metadatos se volvieron importantes. La elaboración de informes y los paneles de control se convirtieron en un caso de uso clave y SQL (lenguaje de consulta estructurado) se convirtió en la forma de facto de interactuar con esos datos.

Componentes de la arquitectura del almacén de datos

Examinemos detenidamente cada componente.

etl

Cuando los analistas de bases de datos quieren trasladar datos de una fuente de datos a su almacén de datos, éste es el proceso que utilizan. En resumen, el ETL convierte los datos en un formato utilizable para que, una vez en el almacén de datos, se puedan analizar/consultar/etc. 

Metadatos

Los metadatos son datos sobre datos. Básicamente, describen todos los datos almacenados en un sistema para que se puedan buscar. Algunos ejemplos de metadatos incluyen autores, fechas o ubicaciones de un artículo, fecha de creación de un archivo, tamaño de un archivo, etc. Piense en ello como los títulos de una columna en una hoja de cálculo. Los metadatos le permiten organizar sus datos para que sean utilizables, de modo que se puedan analizar para crear paneles e informes.

Procesamiento de consultas SQL

SQL es el lenguaje estándar de facto para consultar sus datos. Este es el lenguaje que utilizan los analistas para extraer información de sus datos almacenados en el almacén de datos. Por lo general, los almacenes de datos tienen tecnologías patentadas de procesamiento de consultas SQL estrechamente acopladas con el cómputo. Esto permite un rendimiento sea muy alto en lo que respecta a los análisis. Sin embargo, una cosa a tener en cuenta es que el costo de un almacén de datos puede comenzar a considerarse costoso cuanto más datos y recursos informáticos SQL tenga.

Capa de datos

La capa de datos es la capa de acceso que permite a los usuarios llegar realmente a los datos. Por lo general, aquí es donde encontrará un mercado de datos. Esta capa divide los datos en segmentos en función de a quién se quiere dar acceso, por lo que puede tener un nivel muy detallado en toda la organización. Por ejemplo, es posible que no quiera que el equipo de ventas tenga acceso a los datos del equipo de recursos humanos y al revés.

Gobernanza y seguridad

Esto está relacionado con la capa de datos en el sentido de que debe poder proporcionar políticas de acceso y seguridad detalladas para todos los datos de la organización. Por lo general, los almacenes de datos tienen muy buenas capacidades de seguridad y gobernanza de datos integradas, por lo que no es necesario realizar mucho trabajo de ingeniería de datos personalizado para incluir esto. Es importante planificar la gobernanza y la seguridad a medida que agrega más datos a su almacén y su empresa crece.

+ Herramientas de acceso al almacén de datos

Si bien las herramientas de acceso son externas a su almacén de datos, pueden verse como una interfaz fácil de usar para el usuario empresarial. Aquí es donde encontrará sus herramientas de elaboración de informes y visualización, utilizadas por analistas de datos y usuarios empresariales para interactuar con los datos, extraer información y crear visualizaciones que el resto de la empresa pueda consumir. Algunos ejemplos de estas herramientas son Tableau, Looker y Qlik.

Comprender OLAP y OLTP en almacenes de datos

OLAP (procesamiento analítico en línea) es un software para realizar análisis multidimensionales a gran velocidad sobre grandes volúmenes de datos procedentes de una unidad de almacenamiento de datos unificada y centralizada, por ejemplo un almacén de datos. OLTP (procesamiento transaccional en línea), permite la ejecución en tiempo real de un gran número de transacciones de bases de datos por parte de un gran número de personas, normalmente a través de Internet. La principal diferencia entre OLAP y OLTP está en el nombre: OLAP es de naturaleza analítica y OLTP es transaccional. 

Las herramientas OLAP están diseñadas para el análisis multidimensional de datos en un almacén de datos, que contiene datos históricos y transaccionales. Los usos comunes de OLAP incluyen minería de datos y otras aplicaciones de business intelligence, cálculos analíticos complejos y escenarios predictivos, así como funciones de informes empresariales como análisis financiero, elaboración de presupuestos y planificación de previsiones.

OLTP está diseñado para admitir aplicaciones orientadas a transacciones procesando transacciones recientes de la manera más rápida y precisa posible. Los usos comunes de OLTP incluyen cajeros automáticos, software de comercio electrónico, procesamiento de datos de pagos con tarjetas de crédito, reservas en línea, sistemas de reservas y herramientas de mantenimiento de registros.

Para profundizar en las diferencias entre estos enfoques, consulte "OLAP vs. OLTP: ¿Cuál es la diferencia?

Esquemas en almacenes de datos

Los esquemas son formas de organizar los datos dentro de una base de datos o almacén de datos. Hay dos tipos principales de estructuras de esquema, el esquema de estrella y el esquema de copo de nieve, que afectarán el diseño de su modelo de datos.

Esquema de estrella: Este esquema consta de una tabla de hechos que se puede unir a varias tablas de dimensiones sin normalizar. Se considera el tipo de esquema más simple y frecuente y el beneficio para los usuarios es la mayor velocidad al realizar consultas.

Esquema de copo de nieve: Aunque no está tan extendido, el esquema de copo de nieve es otra estructura de organización en los almacenes de datos. En este caso, la tabla de hechos está conectada a varias tablas de dimensiones normalizadas y estas tablas de dimensiones tienen tablas secundarias. Los usuarios de un esquema de copo de nieve se benefician de sus bajos niveles de redundancia de datos, pero tiene un costo en el rendimiento de las consultas. 

Almacén de datos, base de datos, lago de datos y mercado de datos

Almacén de datos, base de datos, lago de datos y mercado de datos son todos términos que tienden a utilizarse de forma indistinta. Si bien los términos son similares, existen diferencias importantes:

Almacén de datos vs. lago de datos
 

Mediante una canalización de datos, un almacén de datos recopila datos sin procesar de múltiples fuentes y los almacena en un repositorio central, estructurado mediante esquemas predefinidos diseñados para el análisis de datos. Un lago de datos es un almacén de datos sin los esquemas predefinidos. Como resultado, permite realizar más tipos de análisis que un almacén de datos. Los lagos de datos suelen crearse en plataformas de big data, como Apache Hadoop.

Almacén de datos vs. mercado de datos
 

Un mercado de datos es un subconjunto de un almacén de datos que contiene datos específicos de una determinada línea de negocio o departamento. Dado que contienen un subconjunto de datos más reducido, los mercados de datos permiten a un departamento o línea de negocio descubrir información más específica con mayor rapidez que cuando se trabaja con el conjunto de datos más amplio del almacén de datos.

Almacén de datos vs. base de datos
 

Una base de datos se crea principalmente para realizar consultas rápidas y el procesamiento de transacciones, no para realizar análisis. Una base de datos suele servir como almacén de datos centrado en una aplicación específica, mientras que un almacén de datos almacena datos de cualquier número de aplicaciones de su organización (o incluso de todas).

Una base de datos se centra en la actualización de datos en tiempo real, mientras que un almacén de datos tiene un alcance más amplio, ya que captura datos actuales e históricos para el análisis predictivo, el aprendizaje automático y otros tipos avanzados de análisis.

Tipos de almacenes de datos

Almacén de datos en la nube
 

Un almacén de datos en la nube es un almacén de datos creado específicamente para ejecutarse en la nube y se ofrece a los clientes como un servicio gestionado. Los almacenes de datos basados en la nube se han vuelto más populares en los últimos cinco a siete años, ya que más empresas utilizan servicios de computación en la nube y buscan reducir el espacio físico del centro de datos en entornos locales.

Con un almacén de datos en la nube, la infraestructura física del almacén de datos es gestionada por la empresa en la nube, lo que significa que el cliente no tiene que hacer una inversión inicial en hardware o software y no tiene que gestionar ni mantener la solución de almacenamiento de datos.

Software de almacenamiento de datos (local/licencia)
 

Una empresa puede adquirir una licencia de almacén de datos y luego implementar un almacén de datos en su propia infraestructura local. Aunque esto suele ser más costoso que un servicio de almacenamiento de datos en la nube, podría ser una mejor opción para entidades gubernamentales, instituciones financieras u otras organizaciones que desean tener más control sobre sus datos o necesitan cumplir con estrictos estándares o regulaciones de seguridad o privacidad de datos.

Dispositivo de almacenamiento de datos
 

Un dispositivo de almacenamiento de datos es un paquete preintegrado de hardware y software (CPU, almacenamiento, sistema operativo y software de almacenamiento de datos) que una empresa puede conectar a su red y poner en funcionamiento porque está listo para usar. Un dispositivo de almacenamiento de datos se sitúa a medio camino entre las implementaciones en la nube y en entornos locales en términos de costo inicial, velocidad de implementación, facilidad de escalabilidad y control de la gestión de los datos.

Beneficios de un almacén de datos

Un almacén de datos proporciona una base para lo siguiente:

  • Mejor calidad de datos: Un almacén de datos centraliza los datos de una variedad de fuentes, como sistemas transaccionales, bases de datos operacionales y archivos planos. Luego limpia los datos operacionales, elimina los datos duplicados y los estandariza para crear una única fuente de información.

  • Información empresarial con mayor rapidez: Los datos de fuentes dispares limitan la capacidad de los responsables de la toma de decisiones para establecer estrategias comerciales con confianza. Los almacenes de datos permiten la integración de datos, lo que permite a los usuarios aprovechar todos los datos de una empresa en cada decisión del negocio. Los datos de un almacén de datos permiten informar sobre temas, tendencias, agregaciones y otras relaciones entre los datos recopilados de una aplicación de gestión del ciclo de vida de ingeniería (ELM).

  • Toma de decisiones más inteligente:  Un almacén de datos admite funciones de BI a gran escala, como la minería de datos (búsqueda de patrones y relaciones invisibles en los datos), la inteligencia artificial y el aprendizaje automático, herramientas que los profesionales de datos y los líderes empresariales pueden utilizar para obtener pruebas sólidas para tomar decisiones más inteligentes en prácticamente todas las áreas de la organización, desde los procesos empresariales hasta la gestión financiera y la gestión de inventarios.

  • Obtener y aumentar la ventaja competitiva: Todo lo anterior se combina para ayudar a una organización a encontrar más oportunidades en los datos, con la mayor rapidez posible, a partir de almacenes de datos dispares.
Desafíos con la arquitectura del almacén de datos

A medida que las empresas empiezan a alojar más datos y a necesitar análisis más avanzados y una amplia gama de datos, el almacén de datos empieza a resultar caro y pierde flexibilidad. Si desea analizar datos no estructurados o semiestructurados, el almacén de datos no funcionará. Cada vez son más las empresas que optan por la arquitectura de lakehouse de datos, que contribuye a solucionar este problema. El lakehouse de datos abierto permite ejecutar cargas de trabajo del almacén de datos sobre todo tipo de datos en una arquitectura abierta y flexible. Estos datos también pueden ser utilizados por científicos de datos e ingenieros que estudian los datos para obtener información empresarial. En lugar de un sistema estrechamente acoplado, el lakehouse de datos es mucho más flexible y también puede gestionar datos no estructurados y semiestructurados como fotos, vídeos, datos de IoT y mucho más.

El lakehouse de datos también puede admitir sus cargas de trabajo de ciencia de datos, aprendizaje automático (ML) e IA, además de sus cargas de trabajo de informes y paneles. Si está buscando una actualización a partir de la arquitectura del almacén de datos, desarrollar un lakehouse de datos abierto es el camino a seguir.

Soluciones relacionadas
Soluciones de almacenamiento de datos

Las soluciones de almacenamiento de datos de IBM ofrecen rendimiento y flexibilidad para admitir datos estructurados y no estructurados para cargas de trabajo de análisis, incluido el aprendizaje automático.

Explore las soluciones de almacenamiento de datos
Almacén Db2 en la nube

Explore las capacidades de un almacén de datos en la nube, elástico y totalmente gestionado, creado para análisis e IA de alto rendimiento.

Explore Db2 Warehouse en la nube
IBM Cloud Pak para datos

IBM Cloud Pak for Data es un conjunto modular de componentes de software integrados para el análisis, la organización y la gestión de datos en silos empresariales, en entornos locales y en la nube.

Explore IBM Cloud Pak for Data
Recursos Encontrar el almacén de datos empresarial adecuado para afrontar los desafíos que plantean los datos y la IA

La IA puede presentar una serie de desafíos que los almacenes de datos empresariales y los mercados de datos pueden ayudar a superar. Descubra cómo evaluar el valor total que puede proporcionar una solución de este tipo.

Cómo elegir el almacén de datos adecuado para la IA

Para elegir un almacén de datos empresarial, las empresas deben considerar el impacto de la IA, los diferenciadores clave del almacén y la variedad de modelos de implementación. Este libro electrónico ayuda a hacer precisamente eso.

The Data Differentiator

Una guía para crear una organización basada en datos e impulsar la ventaja empresarial.

Dé el siguiente paso

Escale cargas de trabajo de IA para todos sus datos, en cualquier lugar, con IBM watsonx.data, un almacén de datos adecuado para su propósito creado sobre una arquitectura de lakehouse de datos abierta.

Explore watsonx.data Reserve una demostración en vivo