Una arquitectura de datos describe cómo se gestionan los datos, desde la recopilación hasta la transformación, la distribución y el consumo, estableciendo el plan de cómo fluyen los datos a través de los sistemas de almacenamiento de datos. Es fundamental para las operaciones de procesamiento de datos y las aplicaciones de inteligencia artificial (IA).
El diseño de una arquitectura de datos suele basarse en los requisitos empresariales y las necesidades de datos, que son los que utilizan los arquitectos de datos y los ingenieros de datos para definir el modelo de datos y las estructuras de datos subyacentes que lo soportan. El diseño suele facilitar una estrategia o necesidad empresarial, como la elaboración de informes o una iniciativa de ciencia de datos.
Boletín del sector
Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
A medida que las organizaciones escalan sus datos, la necesidad de una arquitectura bien estructurada y adaptable se ha vuelto primordial. Y, sin embargo, el 94 % de los líderes de datos mencionaron la ausencia de una arquitectura de datos definida entre sus principales desafíos1.
Una arquitectura de datos moderna puede ayudar a unificar y estandarizar los datos empresariales, lo que permite compartir datos sin problemas entre dominios empresariales. También proporciona una base escalable para casos de uso avanzados como el análisis de datos en tiempo real y la IA generativa, ayudando a los equipos a extraer valor de los datos de forma más rápida y fiable.
A medida que tecnologías como el Internet de las cosas (IoT) generan nuevas fuentes de datos, una arquitectura bien diseñada garantiza que los datos sigan siendo manejables, integrados y útiles durante todo su ciclo de vida. Puede reducir la redundancia, mejorar la calidad de los datos y ayudar a eliminar los silos conectando sistemas en toda la empresa.
Si se hace bien, la arquitectura de datos no es solo una estructura técnica: es una capacidad estratégica que convierte los datos sin procesar en un activo reutilizable.
La arquitectura de datos reúne varios conceptos superpuestos. Lo siguiente puede ayudar a definir el panorama:
La arquitectura de datos moderna tiende a seguir uno de los dos enfoques principales: centralizada o descentralizada. Estos modelos guían la forma en que se recopilan, almacenan y gobiernan los datos empresariales.
Las arquitecturas centralizadas llevan los datos a plataformas unificadas, como data lakes o almacenes de datos, gestionados bajo un único modelo de gobierno de datos. Esto ayuda a reducir la redundancia, mejorar la calidad de los datos y respaldar el modelado de datos estructurados utilizando lenguaje de consulta estructurado (SQL) y otras bases de datos relacionales.
Las arquitecturas descentralizadas distribuyen la propiedad de los datos entre los dominios empresariales. Los equipos gestionan los datos localmente, a menudo utilizando sistemas de bases de datos no relacionales (también llamadas "bases de datos NoSQL") o pipelines basados en eventos con sus propios esquemas, metadatos y controles de acceso. Este enfoque admite casos de uso de integración y procesamiento de datos en tiempo real, transmisión de datos y machine learning (ML).
La mayoría de las organizaciones combinan ambos modelos para equilibrar la escalabilidad, la integración de datos y la agilidad. Este enfoque híbrido puede ayudar a admitir diferentes fuentes de datos, reducir los silos de datos y permitir operaciones nativas de la nube en plataformas como AWS o Microsoft Azure.
Independientemente del modelo arquitectónico que adopte una organización, el éxito depende de qué tan bien estén estructurados los datos subyacentes. Ahí es donde entra en juego el modelado de datos.
Mientras que la arquitectura de datos se centra en cómo fluyen los datos a través de los sistemas, el modelado de datos se centra en cómo se estructuran los datos dentro de esos sistemas. Los modelos de datos definen la forma, las relaciones y las restricciones de la información a medida que se mueve a través de una arquitectura.
La documentación de la arquitectura de datos suele incluir tres tipos de modelos:
También denominados "modelos de dominio", los modelos de datos conceptuales ofrecen una visión holística de lo que contendrá el sistema, cómo se organizará y qué reglas empresariales se aplicarán. Estos modelos suelen crearse durante las primeras fases de la planificación del proyecto e incluyen las clases de entidades (elementos definidos que deben rastrearse en el modelo de datos), sus características y restricciones, las relaciones entre ellas y cualquier requisito pertinente de seguridad o integridad de los datos.
Los modelos de datos lógicos son menos abstractos que los conceptuales y proporcionan más detalles sobre las entidades y relaciones dentro de un dominio determinado. Siguen una notación formal de modelado de datos y definen atributos de datos, como tipos y longitudes de datos, al tiempo que ilustran cómo se conectan las entidades. Es importante destacar que los modelos lógicos siguen siendo independientes de la tecnología y no incluyen requisitos específicos del sistema.
Los modelos de datos físicos son los más detallados de los tres modelos de datos y describen cómo se implementará la base de datos. Definen estructuras de tablas, índices, formatos de almacenamiento y consideraciones de rendimiento. Estos modelos se centran en los aspectos técnicos de cómo se almacenan y acceden a los datos estructurados, y se utilizan para guiar la creación, la configuración y la optimización de esquemas.
Los modelos de datos dan forma a la estructura de la información dentro de un sistema. A partir de ahí, los marcos arquitectónicos más amplios guían la forma en que se implementan los modelos y los sistemas que los rodean.
Una arquitectura de datos puede basarse en marcos de arquitectura empresarial populares, como TOGAF, DAMA-DMBOK 2 y el Marco para la arquitectura empresarial de Zachman.
Esta metodología de arquitectura empresarial la desarrolló The Open Group en 1995. Su arquitectura consta de cuatro pilares:
TOGAF proporciona un marco completo para diseñar e implementar la arquitectura de TI de una empresa, incluida su arquitectura de datos.
DAMA International, inicialmente fundada como Data Management Association International, es una organización sin ánimo de lucro dedicada al avance de la gestión de datos y de la información. Su Data Management Body of Knowledge, DAMA-DMBOK 2, cubre la arquitectura de datos, el gobierno y la ética, el modelado y el diseño de datos, el almacenamiento, la seguridad y la integración.
Desarrollado originalmente por John Zachman en IBM en 1987, este marco utiliza una matriz de seis capas, desde contextual hasta detallada, asignadas a seis preguntas (como qué, por qué y cómo). Proporciona una forma formal de organizar y analizar datos, pero no incluye métodos para hacerlo.
Una arquitectura de datos se construye a partir de múltiples componentes interdependientes que gestionan cómo se mueven, almacenan, gobiernan y acceden los datos. Estos elementos forman la base operativa de los sistemas de datos y respaldan todo, desde la ingesta hasta el análisis.
Los componentes de la arquitectura de datos suelen clasificarse en categories amplias, cada una con varias subcategorías:
Los datos se capturan de fuentes externas e internas y se mueven al sistema para su procesamiento y almacenamiento.
Los pipelines consumen, transforman y transportan datos desde su punto de origen hasta donde se procesan y almacenan. Estos sistemas pueden seguir patrones de lotes, como extraer, transformar, cargar (ETL) y extraer, cargar, transformar (ELT). También pueden transmitir datos casi en tiempo real. Los pipelines modernos suelen incluir lógica de transformación, comprobaciones de calidad y validación de esquemas como parte del flujo.
Las interfaces de programación de aplicaciones (API) y conectores prediseñados permiten una integración perfecta entre sistemas de datos, aplicaciones y herramientas analíticas. Proporcionan una forma estandarizada para agilizar el acceso a datos en diferentes plataformas y son fundamentales para el intercambio de datos en tiempo real.
Una vez consumidos, los datos se almacenan en sistemas escalables, tanto estructurados como no estructurados, donde quedan disponibles para su uso y análisis posteriores.
Un almacén de datos agrega datos de diferentes fuentes de datos relacionales en una empresa en un único repositorio central y coherente. Tras la extracción, los datos fluyen a través de un pipeline ETL, sometiéndose a varias transformaciones para ajustarse al modelo de datos predefinido. Cuando se cargan en el sistema de almacenamiento de datos, los datos están disponibles para dar soporte a diversas aplicaciones de inteligencia empresarial (BI) y ciencia de datos.
Un almacén de datos es una versión centrada de un almacén de datos que contiene un subconjunto más reducido de datos relevantes para un único equipo o grupo de stakeholders. Al limitar el alcance, los almacenes de datos permiten obtener información más rápida y específica que trabajando con el conjunto de datos de almacenes más amplio.
Un data lake almacena datos brutos y sin procesar, incluidos formatos estructurados y no estructurados, a escala. A diferencia de los almacenes de datos, los data lakes no requieren modelado de datos por adelantado, lo que los hace ideales para cargas de trabajo de big data.
Un lakehouse de datos fusiona aspectos de almacenes de datos y data lakes en una única solución de gestión de datos. Combina almacenamiento de bajo coste con un motor de consulta de alto rendimiento y gobierno inteligente de metadatos.
Una base de datos es el repositorio digital básico para almacenar, gestionar y proteger los datos. Los distintos tipos de bases de datos almacenan datos de diferentes maneras. Por ejemplo, las bases de datos relacionales (también llamadas "bases de datos SQL") almacenan los datos en tablas con filas y columnas. Las bases de datos NoSQL pueden almacenarlo como varias estructuras de datos, incluidos pares clave-valor o gráficos.
A medida que los datos fluyen y se acumulan, las herramientas de gobierno garantizan que estén bien organizados, sean seguros y se puedan descubrir a lo largo de su ciclo de vida.
Un catálogo de datos es un inventario centralizado de los activos de datos de una organización. Utiliza los metadatos para proporcionar el contexto de cada conjunto de datos, incluidos su origen, estructura, propiedad, historial de uso y calidad. Los catálogos de datos ayudan a los usuarios a encontrar y evaluar los datos, apoyan las iniciativas de gobierno y cumplimiento y facilitan la colaboración entre los equipos.
Las herramientas de linaje rastrean el viaje de los datos a través de los sistemas, mostrando cómo se transformaron y dónde se originaron. Esta visibilidad es esencial para las auditorías, la resolución de problemas y la comprensión de las dependencias. Las plataformas de observabilidad pueden complementar el linaje mediante la monitorización del rendimiento del pipeline y las métricas de calidad de los datos.
Por último, los datos llegan a las personas y los sistemas que los utilizan a través de paneles de control, consultas o herramientas integradas que impulsan las decisiones.
Las plataformas de inteligencia empresarial pueden mejorar el acceso a los datos a través de visualizaciones y paneles de control. Estas herramientas ayudan a los usuarios no técnicos a interpretar tendencias, monitorizar indicadores clave de rendimiento (KPI) y tomar decisiones basadas en datos.
Los endpoints SQL y otras interfaces de consulta permiten a los analistas y científicos de datos Explorar y analizar los datos directamente. Herramientas como Apache Spark e IBM® watsonx.data proporcionan la capa informática necesaria para ejecutar consultas en conjuntos de datos distribuidos a escala.
Algunas arquitecturas admiten la entrega de datos directamente en aplicaciones, flujos de trabajo o API. Estos productos de datos integrados aportan conocimiento sobre las operaciones diarias, lo que permite tomar decisiones basadas en datos.
Los datos de toda la arquitectura también pueden alimentar los flujos de trabajo de IA y ML. Los datos de entrenamiento a menudo proceden de data lake, se transforman a través de pipelines y se utilizan para desarrollar y volver a entrenar modelos. Estos modelos pueden implementarse en productos, paneles de control o procesos empresariales para mejorar la automatización y la predicción.
Implementar una arquitectura de datos implica traducir las necesidades del negocio en una hoja de ruta para la recopilación, la organización, la seguridad y la accesibilidad de datos. Aunque no hay dos implementaciones idénticas, la mayoría sigue un enfoque por fases que se mueve de la planificación a la ejecución.
El proceso comienza estableciendo lo que la empresa necesita de sus datos, ya sea habilitar el machine learning o respaldar el cumplimiento de las normativas. Esto informa de las prioridades arquitectónicas, qué fuentes de datos incluir y qué sistemas requieren integración.
Los arquitectos de datos desarrollan modelos de datos conceptuales, lógicos y físicos para guiar la estructura y el flujo. Estos modelos ayudan a identificar entidades clave, relaciones, requisitos de datos y controles de acceso. Al mismo tiempo, se establecen políticas de gobierno para definir la propiedad, los derechos de acceso y las reglas del ciclo de vida de los datos.
Una vez establecidos los modelos y las políticas, los equipos diseñan la propia arquitectura seleccionando las tecnologías de almacenamiento, integración, gestión de metadatos y consumo. Esto incluye definir cómo se moverán los datos entre los sistemas y dónde residirán en los sistemas de almacenamiento.
La implementación suele implicar la implementación de pipelines de ingesta, el establecimiento de API, la configuración de capas de gobierno y la habilitación de puntos de acceso como panel de control o endpoint de consulta. Los requisitos de seguridad y cumplimiento se integran durante esta etapa para proteger los datos.
Una vez implementada, una arquitectura de datos debe monitorizarse y perfeccionarse continuamente. Los volúmenes de datos crecen; los casos de uso evolucionan; cambio de normativa. Las organizaciones a menudo revisan y reoptimizan sus arquitecturas, especialmente a medida que adoptan plataformas en la nube y adoptan patrones arquitectónicos modernos.
A medida que las organizaciones escalan, también lo hace la necesidad de una arquitectura de datos flexible y resiliente. La arquitectura de datos moderna prioriza la interoperabilidad, el acceso en tiempo real y la capacidad de gestionar los datos como un producto, no solo como un activo. También permite una mayor normalización, gestión de metadatos y democratización a través de las API.
Las características clave de una arquitectura de datos moderna incluyen:
Las organizaciones que modernizan su infraestructura de datos están adoptando nuevas estrategias de datos que reflejan la complejidad de los entornos multinube e híbridos actuales. Este cambio ha dado lugar a nuevos patrones arquitectónicos, en particular tejidos de datos y mallas de datos.
Los tejidos de datos se centran en automatizar la integración y la gestión de datos en entornos híbridos. Utiliza los metadatos activos y el machine learning para descubrir las relaciones entre los sistemas y orquestar los flujos de datos. Un tejido de datos puede aprovisionar productos de datos automáticamente y entregarlos bajo demanda, lo que mejora la eficiencia operativa y reduce los silos.
La malla de datos descentraliza la propiedad de los datos alineando la arquitectura con los dominios empresariales. Anima a los productores de datos, los más cercanos a la fuente, a tratar los datos como un producto y a diseñar API pensando en los consumidores. Este modelo ayuda a eliminar los cuellos de botella y respalda la democratización escalable de los datos en toda la empresa.
Y aunque estos enfoques difieren, no son mutuamente excluyentes. Muchas organizaciones implementan elementos de ambos, utilizando la automatización de un tejido para escalar el gobierno descentralizado de una malla.
Una arquitectura de datos bien construida puede ofrecer a las empresas ventajas significativas, que incluyen:
El solapamiento de campos de datos en distintas fuentes puede provocar incoherencias, imprecisiones y la pérdida de oportunidades para la integración de datos. Una buena arquitectura de datos puede estandarizar la forma en que se almacenan los datos y, potencialmente, reducir la redundancia, lo que permite análisis holísticos y de mejor calidad.
Las arquitecturas de datos bien diseñadas pueden resolver algunos de los desafíos de los data lakes mal gestionados, también conocidos como “pantanos de datos”. Un pantano de datos carece de estándares de datos adecuados (incluidas la calidad de los datos y las prácticas de gobierno de datos) para proporcionar información valiosa. Las arquitecturas de datos pueden ayudar a hacer cumplir los estándares de gobierno de datos y seguridad de datos, lo que permite una supervisión adecuada del pipeline de datos.
Los datos suelen estar aislados debido a las limitaciones técnicas en el almacenamiento de datos y las barreras organizativas dentro de la empresa. Las arquitecturas de datos actuales tienen como objetivo facilitar la integración de datos entre dominios, de modo que las diferentes geografías y funciones empresariales tengan acceso a los datos de los demás. Esto puede conducir a una comprensión mejor y más coherente de las métricas comunes y permite una visión más holística del negocio para fundamentar la toma de decisiones basada en datos.
Una arquitectura de datos moderna puede direccionar cómo se gestionan los datos a lo largo del tiempo. Los datos suelen volverse menos útiles a medida que envejecen y se accede a ellos con menos frecuencia. Con el tiempo, los datos pueden migrarse a tipos de almacenamiento más económicos y lentos para que sigan estando disponibles para informes y auditorías, pero sin el gasto de un almacenamiento de alto rendimiento.
Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.
Presentamos Cognos Analytics 12.0: conocimientos potenciados por IA para una mejor toma de decisiones.