Una despensa de datos (data mart) es un subconjunto de un almacén de datos centrado en una línea de negocio, departamento o área en particular. Los data marts ponen datos específicos a disposición de un grupo definido de usuarios, lo que les permite acceder rápidamente a información crítica sin perder tiempo buscando en todo un almacén de datos. Por ejemplo, muchas empresas pueden tener un data mart para un departamento específico en la empresa, como finanzas, ventas o marketing.
Los data marts, los almacenes de datos y los data lakes son repositorios de datos centrales cruciales, pero atienden diferentes necesidades dentro de una organización.
Un almacén de datos es un sistema que agrega datos de varios orígenes en un único almacén de datos central y coherente para dar soporte a la minería de datos, la inteligencia artificial (IA) y machine learning que, en última instancia, mejora el análisis sofisticado y la inteligencia empresarial. A través de este proceso estratégico de recopilación, las soluciones de almacén de datos reúnen datos de los diferentes orígenes para que estén disponibles de forma unificada.
Un almacén de datos (como se ha indicado anteriormente) es una versión focalizada de un almacén de datos que contiene un subconjunto más pequeño de datos importantes y necesarios para un equipo único o un grupo seleccionado de usuarios dentro de una organización. Un almacén de datos se crea a partir de un almacén de datos existente (u otros orígenes de datos) a través de un procedimiento complejo que implica varias tecnologías y herramientas para diseñar y construir una base de datos física, rellenarla con datos y configurar complejos protocolos de gestión y acceso.
Si bien es un proceso complicado, permite a una línea de negocio descubrir información más específica más rápido que si se trabaja con un conjunto de datos de un almacén de datos más amplio. Por ejemplo, los equipos de marketing pueden beneficiarse de crear un almacén de datos a partir de un almacén existente, ya que sus actividades suelen realizarse de forma independiente del resto de la empresa. Por lo tanto, el equipo no necesita acceso a todos los datos de la empresa.
Un data lake, o lago de datos, también es un repositorio de datos. Un data lake proporciona almacenamiento masivo de datos no estructurados o datos sin procesar a través de varios orígenes pero la información aún no ha sido procesada ni preparada para su análisis. La capacidad de almacenar datos en un formato sin procesar hace que los data lake sean más accesibles y rentables que los almacenes de datos. No es necesario limpiar y procesar datos antes de su ingesta.
Por ejemplo, los gobiernos pueden utilizar la tecnología para realizar el seguimiento de datos sobre el comportamiento del tráfico, el uso de la energía y las vías fluviales, y almacenarlos en un data lake mientras averiguan cómo utilizar los datos para crear "ciudades más inteligentes" con servicios más eficientes.
Los data marts están diseñados para atender las necesidades de grupos específicos ya que abarcan un tema de datos comparativamente limitado. Y si bien un data mart aún puede contener millones de registros, su objetivo es proporcionar a los usuarios de la empresa los datos más relevantes en el menor tiempo posible.
Con su diseño más pequeño y focalizado, un data mart presenta varias ventajas para el usuario final, incluidas las siguientes:
Existen tres tipos de data marts cuya diferencia radica en la relación con el almacén de datos y los respectivos orígenes de datos de cada sistema.
Un data mart es una base de datos relacional centrada en un tema que almacena datos de transacciones en filas y columnas, lo que facilita su acceso, organización y comprensión. Como contiene datos históricos, esta estructura facilita que un analista determine las tendencias de los datos. Los campos de datos típicos incluyen orden numérico, valor de tiempo y referencias a uno o más objetos.
Las empresas organizan los data marts en un esquema multidimensional como modelo para atender las necesidades de las personas que utilizan las bases de datos para tareas analíticas. Los tres tipos principales de esquema son estrella, copo de nieve y caja fuerte.
El esquema de estrella es una formación lógica de tablas en una base de datos multidimensional con una forma similar a una estrella. En este modelo, una tabla de hechos (un conjunto de métricas que se relaciona con un evento de negocio o proceso específico) reside en el centro de la estrella, rodeada por varias tablas de dimensión asociadas.
No hay dependencia entre las tablas de dimensión, por lo que un esquema de estrella requiere menos uniones cuando se escriben consultas. Esta estructura facilita las consultas; por ello, los esquemas de estrella son altamente eficientes para los analistas que necesitan acceder y examinar grandes conjuntos de datos.
Un esquema de copo de nieve es una ampliación lógica de un esquema de estrella, creando el modelo con tablas de dimensión adicionales. Las tablas de dimensión están normalizadas para proteger la integridad de los datos y minimizar su redundancia.
Si bien este método requiere menos espacio para almacenar tablas de dimensión, es una estructura compleja que puede ser difícil de mantener. La principal ventaja de utilizar un esquema de copo de nieve es la baja demanda de espacio de disco, pero por contra, incide negativamente sobre el rendimiento debido a las tablas adicionales.
La caja fuerte de datos es una técnica de modelado de bases de datos moderna que permite a los profesionales de TI diseñar almacenes de datos empresariales ágiles. Este enfoque aplica una estructura en capas y ha sido desarrollado específicamente para combatir los problemas de agilidad, flexibilidad y escalabilidad que surgen al usar los otros modelos de esquema.
La caja fuerte elimina la necesidad de limpieza del esquema de estrella y agiliza la adición de nuevos orígenes de datos sin generar ninguna disrupción al esquema existente.
Los data marts guían decisiones importantes a nivel departamental. Por ejemplo, un equipo de marketing puede utilizar data marts para analizar los comportamientos de los consumidores, mientras que el personal de ventas podría utilizarlas para compilar informes trimestrales de ventas. Como estas tareas se realizan dentro de sus respectivos departamentos, los equipos no necesitan acceso a todos los datos empresariales.
Por lo general, un data mart es creado y gestionado por el departamento específico de la empresa que tiene intención de utilizarla. El proceso para diseñar un data mart generalmente comprende los siguientes pasos:
Con el trabajo de base hecho, puede maximizar el valor de un data mart si utiliza herramientas de inteligencia empresarial avanzadas, como Qlik o SiSense. Estas soluciones incluyen un panel de control y visualizaciones que facilitan discernir información de los datos, lo que a su vez conduce a decisiones más inteligentes que benefician a la compañía.
Si bien los data marts ofrecen a las empresas las ventajas de una mayor eficiencia y flexibilidad, el crecimiento imparable de los datos plantea un problema para las empresas que siguen utilizando una solución en local.
A medida que los almacenes de datos se migren a la nube, los data marts los seguirán. Al reunir los recursos de datos en un único repositorio que contiene todos los data marts, las empresas pueden reducir costes y asegurar que todos los departamentos tengan acceso ilimitado a los datos que necesitan en tiempo real.
Las plataformas basadas en la nube permiten crear, compartir y almacenar conjuntos de datos masivos con facilidad, allanando el camino a un acceso a datos y análisis más eficiente y efectivo. Los sistemas en la nube están diseñados para facilitar el crecimiento sostenible del negocio. Además, muchos proveedores de software como servicio (SaaS) modernos separan almacenamiento de datos de la informática para mejorar la escalabilidad a la hora de consultar datos.
Explore las funcionalidades de un almacén de datos en nube elástico y completamente gestionado, creado para la analítica de alto rendimiento y la IA.
Descubra cómo IBM InfoSphere Master Data Management facilita la colaboración y la innovación entre usuarios de negocio y de TI con datos maestros fiables en toda la empresa.
La IA puede presentar distintos retos que los almacenes de datos empresariales y los data marts pueden ayudar a superar. Descubra cómo evaluar el valor total que puede proporcionar una solución de este tipo.
Conozca la opinión del analista David Menninger de Ventana Research sobre la intersección entre data lakes y almacenes de datos, una consideración importante a la hora de crear cualquier data mart.