Inicio Topics data warehouse Qué es un almacén de datos
Explore la solución de almacenamiento de datos de IBM Suscríbase a actualizaciones de IA
Ilustración con collage de pictogramas de nubes, gráfico circular y pictogramas gráficos sobre lo siguiente
Qué es un almacén de datos

Un almacén de datos o almacén de datos empresarial (EDW, por sus siglas en inglés) es un sistema que añade datos de diferentes fuentes a un único almacén de datos central y uniforme para respaldar las tareas de análisis de datos, minería de datos, inteligencia artificial (IA) y machine learning.

 

Los sistemas de almacenamiento de datos permiten a las organizaciones ejecutar análisis potentes sobre grandes cantidades de datos (petabytes y petabytes) de formas que una base de datos estándar no puede.

Los sistemas de almacenamiento de datos han formado parte de las soluciones de inteligencia empresarial (BI, por sus siglas en inglés) durante más de tres décadas, pero han evolucionado recientemente con la aparición de nuevos tipos de datos y métodos de alojamiento de datos. Antes, los almacenes de datos se alojaban en las instalaciones, a menudo en un sistema mainframe, y su funcionalidad se centraba en extraer datos de otras fuentes, limpiar y preparar los datos, y cargar y mantener los datos en una base de datos relacional. Recientemente, los almacenes de datos pueden estar alojados en un dispositivo dedicado o en la nube, y la mayoría de los almacenes de datos cuentan con capacidades de análisis y herramientas de visualización y presentación de datos.

Cree flujos de trabajo de IA responsables con gobernanza de IA

Descubra los componentes básicos y las buenas prácticas para ayudar a sus equipos a acelerar la IA responsable.

Contenido relacionado

Regístrese para obtener el libro electrónico en Presto

Arquitectura de los almacenes de datos

En términos generales, los almacenes de datos tienen una arquitectura de tres niveles:
 

  • Nivel inferior: el nivel inferior consta de un servidor de almacén de datos, generalmente un sistema de base de datos relacional, que recopila, limpia y transforma datos de múltiples fuentes de datos a través de un proceso conocido como "Extract, transform and load" (extraer, transformar y cargar, abreviado como ETL) o "Extract, load and transform" (extraer, cargar y transformar, abreviado como ELT). En la mayoría de las organizaciones que utilizan ETL, el proceso se basa en la automatización y se caracteriza por su eficacia, su buena definición, su continuidad y su funcionamiento por lotes.
     

  • Nivel medio: el nivel medio consta de un servidor OLAP (procesamiento analítico en línea) que ofrece una gran velocidad de consulta. En este nivel se pueden utilizar tres tipos de modelos OLAP, conocidos como ROLAP, MOLAP y HOLAP. El modelo OLAP utilizado depende del tipo de sistema de base de datos que exista.
     

  • Nivel superior: el nivel superior está representado por algún tipo de interfaz de usuario front-end o herramienta de generación de informes, que permite a los usuarios finales realizar análisis de datos ad hoc sobre sus datos empresariales.

Breve historia de la arquitectura de los almacenes de datos

La mayoría de los almacenes de datos se construirán en torno a un sistema de base de datos relacional, ya sea local o en la nube, donde se almacenen y procesen los datos. Entre otros componentes, puede haber un sistema de gestión de metadatos y una capa de conectividad API que permitan al almacén extraer datos de fuentes organizativas y proporcionar acceso a herramientas de análisis y visualización.

Un almacén de datos típico tiene cuatro componentes principales: una base de datos central, herramientas de ETL, metadatos y herramientas de acceso. Todos ellos están diseñados para ofrecer velocidad, de modo que pueda obtener resultados rápidamente y analizar los datos sobre la marcha.

Los almacenes de datos existen desde hace décadas. Nacieron en los años 80 para abordar la necesidad de optimizar los análisis de datos. Conforme las aplicaciones empresariales crecían y generaban/almacenaban más datos, las empresas comenzaron a necesitar sistemas de almacenamiento que pudieran gestionar dichos datos y analizarlos. A alto nivel, los administradores de bases de datos podían extraer datos de sus sistemas operativos y añadirles un esquema a través de la transformación antes de cargarlos en el almacén de datos.

A medida que la arquitectura de los almacenes de datos evolucionaba y crecía en popularidad, más empresas comenzaron a usarla para acceder a los datos. De hecho, los almacenes de datos simplificaban el acceso a los datos estructurados. A partir de ahí, los metadatos cobraron importancia.La elaboración de informes y los cuadros de mando se convirtieron en un caso de uso clave, y SQL (lenguaje de consultas estructuradas) se convirtió en la forma habitual de interactuar con esos datos.

Componentes de la arquitectura de los almacenes de datos

Echemos un vistazo más de cerca a cada componente.

ETL

Cuando los analistas de bases de datos desean mover datos de una fuente a su almacén de datos, este es el proceso que utilizan. En resumen, ETL convierte los datos en un formato utilizable para que, una vez que estén en el almacén de datos, puedan ser analizados, consultados, etc. 

Metadatos

Los metadatos son datos sobre datos. Básicamente, describen todos los datos que se almacenan en un sistema para que se puedan buscar. Algunos ejemplos de metadatos incluyen los autores, las fechas o ubicaciones de un artículo, la fecha de creación de un archivo, el tamaño de un archivo, etc. Piense en ellos como los títulos de una columna en una hoja de cálculo. Los metadatos le permiten organizar los datos para que sean utilizables, de modo que pueda analizarlos para crear paneles e informes.

Procesamiento de consultas SQL

SQL es el lenguaje estándar que se suele utilizar para consultar los datos. Es el lenguaje que utilizan los analistas para extraer información de sus datos almacenados en el almacén de datos. Normalmente, los almacenes de datos disponen de tecnologías propias de procesamiento de consultas SQL estrechamente vinculadas al sistema. Esto permite un rendimiento muy alto en lo que se refiere a sus análisis. Sin embargo, una cosa a tener en cuenta es que el coste de un almacén de datos puede comenzar a encarecerse cuantos más datos y recursos de proceso SQL tenga.

Capa de datos

La capa de datos es la capa de acceso que permite a los usuarios acceder realmente a los datos. Aquí es donde normalmente se encuentran los data marts. Esta capa divide segmentos de sus datos en función de a quién desee dar acceso, por lo que puede obtener una información muy detallada en toda su organización. Por ejemplo, es posible que no desee dar a su equipo de ventas acceso a los datos de su equipo de RR. HH., y viceversa.

Gobierno y seguridad

Este aspecto se relaciona con la capa de datos en el sentido de que es necesario aplicar políticas de acceso y seguridad detalladas a todos los datos de la organización. Normalmente, los almacenes de datos tienen muy buenas capacidades de gobierno de datos y seguridad integradas, por lo que no es necesario que realice un gran trabajo de ingeniería de datos a medida para incluirlas. Es importante planificar el gobierno y la seguridad a medida que agrega más datos a su almacén y su empresa crece.

+ Herramientas de acceso al almacén de datos

Aunque las herramientas de acceso son externas a su almacén de datos, pueden considerarse como su interfaz de usuario. Aquí es donde encontrará las herramientas de informes y visualización, utilizadas por los analistas de datos y los usuarios empresariales para interactuar con los datos, extraer información y crear visualizaciones que el resto de la empresa puede consumir. Algunas de estas herramientas son Tableau, Looker y Qlik.

Funciones de OLAP y OLTP en los almacenes de datos

OLAP (procesamiento analítico en línea) es un software que realiza análisis multidimensionales a altas velocidades sobre grandes volúmenes de datos desde un almacén de datos unificado y centralizado. OLTP (procesamiento transaccional en línea) permite la ejecución en tiempo real de grandes cantidades de transacciones de bases de datos por un gran número de personas, normalmente a través de Internet. La principal diferencia entre OLAP y OLTP está en el nombre: OLAP es de naturaleza analítica y OLTP es transaccional.

Las herramientas OLAP están diseñadas para el análisis multidimensional de datos en un almacén de datos, que contiene datos históricos y transaccionales. Los usos habituales de OLAP incluyen la minería de datos y otras aplicaciones de inteligencia empresarial, cálculos analíticos complejos y escenarios predictivos, así como funciones de elaboración de informes empresariales como el análisis financiero, la elaboración de presupuestos y la planificación de previsiones.

OLTP está diseñado para dar soporte a aplicaciones orientadas a transacciones, procesando las transacciones recientes de la forma más rápida y precisa posible. Los usos más comunes de OLTP incluyen cajeros automáticos, software de comercio electrónico, procesamiento de pagos con tarjeta de crédito, reservas en línea, sistemas de reservas y herramientas de mantenimiento de registros.

Para profundizar en las diferencias entre estos enfoques, consulte "Diferencia entre OLAP y OLTP

Esquemas en almacenes de datos

Los esquemas son formas de organizar los datos en una base o almacén de datos. Existen dos tipos principales de estructuras de esquemas, en estrella y en copo de nieve, los cuales influyen en el diseño del modelo de datos.

Esquema en estrella: este esquema consta de una tabla de datos que se puede unir a varias tablas de dimensión denormalizadas. Se considera el tipo de esquema más simple y común, y sus usuarios se benefician de una velocidad más rápida al realizar consultas.

Esquema en copo de nieve: aunque no se ha adoptado tan ampliamente, el esquema en copo de nieve es otra estructura organizativa de los almacenes de datos. En este caso, la tabla de datos está conectada a varias tablas de dimensión normalizadas, y estas tablas de dimensión tienen tablas secundarias. Los usuarios de un esquema en copo de nieve se benefician de sus bajos niveles de redundancia de datos, pero tiene un coste para el rendimiento de las consultas. 

Almacén de datos vs. base de datos, data lake y data mart

Almacén de datos, base de datos, data lake y data mart son términos que tienden a utilizarse indistintamente. Aunque los términos son similares, existen diferencias importantes:

Almacén de datos vs. data lake
 

A través de una canalización de datos, un almacén de datos recopila datos sin procesar de múltiples fuentes en un repositorio central, estructurado mediante esquemas predefinidos diseñados para el análisis de datos. Un data lake es un almacén de datos sin esquemas predefinidos. Como resultado, permite realizar más tipos de análisis que un almacén de datos. Los data lakes se construyen comúnmente en plataformas de big data como Apache Hadoop.

Almacén de datos vs. data mart
 

Un data mart es un subconjunto de un almacén de datos que contiene datos específicos de una línea de negocio o departamento determinado. Como contienen un subconjunto de datos más pequeño, los data marts permiten a un departamento o línea de negocio descubrir información más específica con mayor rapidez que cuando se trabaja con el conjunto de datos más amplio del almacén de datos.

Almacén de datos vs. base de datos
 

Una base de datos se crea principalmente para consultas rápidas y procesamiento de transacciones, no para análisis. Normalmente, una base de datos sirve como almacén de datos centrado en una aplicación específica, mientras que un almacén de datos almacena datos de cualquier número (o incluso de todas) las aplicaciones de la organización.

Una base de datos se centra en actualizar datos en tiempo real, mientras que un almacén de datos tiene un alcance más amplio, capturando datos actuales e históricos para análisis predictivos, machine learning y otros tipos de análisis avanzados.

Tipos de almacenes de datos

Almacén de datos en la nube
 

Un almacén de datos en la nube es un almacén de datos creado específicamente para ejecutarse en la nube y se ofrece a los clientes como un servicio administrado. Los almacenes de datos basados en la nube se han hecho más populares entre los últimos cinco y siete años, ya que más empresas utilizan servicios de computación en la nube y buscan reducir la huella de sus centros de datos locales.

Con un almacén de datos en la nube, la infraestructura física del almacén de datos es gestionada por la empresa en la nube, lo que significa que el cliente no tiene que hacer una inversión inicial en hardware o software y no tiene que gestionar ni mantener la solución de almacenamiento de datos.

Software de almacenamiento de datos (local o con licencia)
 

Una empresa puede comprar una licencia de almacenamiento de datos y luego implementar un almacén de datos en su propia infraestructura local. Aunque suele ser más caro que un servicio de almacenamiento de datos en la nube, podría ser una mejor opción para entidades gubernamentales, instituciones financieras u otras organizaciones que desean tener más control sobre sus datos o necesitan cumplir con estrictas normas o regulaciones de seguridad o privacidad de datos.

Dispositivo de almacenamiento de datos
 

Un dispositivo de almacenamiento de datos es un paquete preintegrado de hardware y software (CPU, almacenamiento, sistema operativo y software de almacenamiento de datos) que una empresa puede conectar a su red y empezar a usar tal cual. En términos de coste inicial, velocidad de implementación, facilidad de escalabilidad y control de administración de datos, un dispositivo de almacenamiento de datos se encuentra en algún lugar entre las implementaciones en la nube y locales.

Ventajas de un almacén de datos

Un almacén de datos proporciona una base para lo siguiente:

  • Mejor calidad de los datos: un almacén de datos centraliza datos procedentes de distintas fuentes, como sistemas transaccionales, bases de datos operativas y archivos planos. A continuación, limpia los datos operativos, elimina los duplicados y los estandariza para crear una única fuente de información.

  • Obtención de información empresarial más rápida: los datos de fuentes dispares limitan la capacidad de los responsables de la toma de decisiones para establecer estrategias empresariales con confianza. Los almacenes de datos permiten la integración de datos, lo que a su vez permite a los usuarios empresariales aprovechar todos los datos de la empresa en cada decisión empresarial. Los datos del almacén de datos permiten elaborar informes sobre temas, tendencias, agregaciones y otras relaciones entre los datos recopilados de una aplicación de gestión del ciclo de vida de ingeniería (ELM, por sus siglas en inglés).

  • Toma de decisiones más inteligente:  un almacén de datos admite funciones de BI a gran escala, como la minería de datos (búsqueda de patrones y relaciones invisibles en los datos), la inteligencia artificial y el machine learning, herramientas que los profesionales de datos y los líderes empresariales pueden utilizar para obtener pruebas sólidas para tomar decisiones más inteligentes en prácticamente todas las áreas de la organización, desde los procesos empresariales hasta la gestión financiera y de inventarios.

  • Obtención y consolidación de ventajas competitivas: todo lo anterior se combina para ayudar a las organizaciones a encontrar más oportunidades en los datos con mayor rapidez de lo que es posible a partir de almacenes de datos dispares.
Desafíos de la arquitectura de los almacenes de datos

A medida que las empresas comienzan a albergar más datos y necesitan análisis más avanzados y una amplia gama de datos, los almacenes de datos comienzan a ser costoso y no tan flexibles. Si desea analizar datos no estructurados o semiestructurados, los almacenes de datos no sirven. Cada vez más empresas se están pasando a la arquitectura de lakehouse de datos, que ayuda a abordar lo anterior. El lakehouse de datos abierto le permite ejecutar cargas de trabajo de almacén en todo tipo de datos en una arquitectura abierta y flexible. Estos datos también pueden ser utilizados por científicos e ingenieros de datos que estudian los datos para obtener información empresarial. En lugar de un sistema estrechamente acoplado, el lakehouse de datos es mucho más flexible y también puede gestionar datos no estructurados y semiestructurados, como fotos, vídeos, datos de IoT y más.

El lakehouse de datos también puede soportar sus cargas de trabajo de ciencia de datos, ML e IA, además de sus cargas de trabajo de informes y cuadros de mando. Si lo que busca es abandonar la arquitectura de los almacenes de datos, la mejor opción es desarrollar un lakehouse de datos abierto.

Soluciones relacionadas
Soluciones de almacenamiento de datos

Las soluciones de almacenamiento de datos de IBM ofrecen rendimiento y flexibilidad para dar soporte a datos estructurados y no estructurados para cargas de trabajo analíticas, incluido el machine learning.

Explore las soluciones de almacenamiento de datos
Db2 Warehouse on Cloud

Explore las capacidades de un almacén de datos en la nube elástico y totalmente gestionado creado para el análisis y la IA de alto rendimiento.

Explore Db2 Warehouse on Cloud
IBM Cloud Pak for Data

IBM Cloud Pak for Data es un conjunto modular de componentes de software integrados para el análisis, la organización y la gestión de datos en silos empresariales, instalaciones y nubes.

Explore IBM Cloud Pak for Data
Recursos Encontrar el almacén de datos empresariales adecuado para afrontar el desafío de los datos y la IA

La IA puede presentar una serie de desafíos que los almacenes de datos empresariales y los data marts pueden ayudar a superar. Descubra cómo evaluar el valor total que puede proporcionar una solución de este tipo.

Cómo elegir el almacén de datos adecuado para la IA

Para elegir un almacén de datos empresariales, las empresas deben tener en cuenta el impacto de la IA, los diferenciadores clave del almacén y la variedad de modelos de implementación. Este libro electrónico le será de gran ayuda.

The Data Differentiator

Una guía para crear una organización basada en datos e impulsar la ventaja empresarial.

Dé el siguiente paso

Escale cargas de trabajo de IA, para todos sus datos, en cualquier lugar con IBM watsonx.data, un almacén de datos adaptado construido sobre una arquitectura de lakehouse de datos abierta.

Explore watsonx.data Solicite una demostración en directo