¿Qué es la arquitectura de datos?

Imagen de un moderno edificio geométrico de vidrio

Autores

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

¿Qué es la arquitectura de datos?

Una arquitectura de datos describe cómo se gestionan los datos, desde la recopilación hasta la transformación, la distribución y el consumo, estableciendo el plan de cómo fluyen los datos a través de los sistemas de almacenamiento de datos. Es fundamental para las operaciones de procesamiento de datos y las aplicaciones de inteligencia artificial (IA).

El diseño de una arquitectura de datos suele basarse en los requisitos empresariales y las necesidades de datos, que son los que utilizan los arquitectos de datos y los ingenieros de datos para definir el modelo de datos y las estructuras de datos subyacentes que lo soportan. El diseño suele facilitar una estrategia o necesidad empresarial, como la elaboración de informes o una iniciativa de ciencia de datos.

Las últimas novedades sobre tecnología, respaldadas por conocimientos de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes del sector en materia de IA, automatización, datos y mucho más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Se ha suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Por qué es importante la arquitectura de datos?

A medida que las organizaciones escalan sus datos, la necesidad de una arquitectura bien estructurada y adaptable se ha vuelto primordial. Y, sin embargo, el 94 % de los líderes de datos mencionaron la ausencia de una arquitectura de datos definida entre sus principales desafíos1.

Una arquitectura de datos moderna puede ayudar a unificar y estandarizar los datos empresariales, lo que permite compartir datos sin problemas entre dominios empresariales. También proporciona una base escalable para casos de uso avanzados como el análisis de datos en tiempo real y la IA generativa, ayudando a los equipos a extraer valor de los datos de forma más rápida y fiable.

A medida que tecnologías como el Internet de las cosas (IoT) generan nuevas fuentes de datos, una arquitectura bien diseñada garantiza que los datos sigan siendo manejables, integrados y útiles durante todo su ciclo de vida. Puede reducir la redundancia, mejorar la calidad de los datos y ayudar a eliminar los silos conectando sistemas en toda la empresa.

Si se hace bien, la arquitectura de datos no es solo una estructura técnica: es una capacidad estratégica que convierte los datos sin procesar en un activo reutilizable.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Términos clave de la arquitectura de datos

La arquitectura de datos reúne varios conceptos superpuestos. Lo siguiente puede ayudar a definir el panorama:

  • Plataforma: el entorno tecnológico subyacente que aloja y ejecuta los sistemas de datos. Esto incluye herramientas basadas en la nube o en las instalaciones.
  • Modelo de datos: representación detallada de cómo se organizan los datos en un sistema. Define entidades, relaciones y formatos.
  • Marco: una metodología estratégica utilizada para diseñar y gestionar la arquitectura empresarial. Los marcos proporcionan enfoques estructurados para alinear los sistemas de datos con los objetivos empresariales.
  • Patrón: una solución repetible para un desafío arquitectónico común. Patrones como un tejido de datos o una malla de datos describen formas probadas de mejorar la escalabilidad, el gobierno o la accesibilidad.

Tipos de arquitectura de datos

La arquitectura de datos moderna tiende a seguir uno de los dos enfoques principales: centralizada o descentralizada. Estos modelos guían la forma en que se recopilan, almacenan y gobiernan los datos empresariales.

Las arquitecturas centralizadas llevan los datos a plataformas unificadas, como data lakes o almacenes de datos, gestionados bajo un único modelo de gobierno de datos. Esto ayuda a reducir la redundancia, mejorar la calidad de los datos y respaldar el modelado de datos estructurados utilizando lenguaje de consulta estructurado (SQL) y otras bases de datos relacionales.

Las arquitecturas descentralizadas distribuyen la propiedad de los datos entre los dominios empresariales. Los equipos gestionan los datos localmente, a menudo utilizando sistemas de bases de datos no relacionales (también llamadas "bases de datos NoSQL") o pipelines basados en eventos con sus propios esquemasmetadatos y controles de acceso. Este enfoque admite casos de uso de integración y procesamiento de datos en tiempo real, transmisión de datos y machine learning (ML).

La mayoría de las organizaciones combinan ambos modelos para equilibrar la escalabilidad, la integración de datos y la agilidad. Este enfoque híbrido puede ayudar a admitir diferentes fuentes de datos, reducir los silos de datos y permitir operaciones nativas de la nube en plataformas como AWS o Microsoft Azure.

Independientemente del modelo arquitectónico que adopte una organización, el éxito depende de qué tan bien estén estructurados los datos subyacentes. Ahí es donde entra en juego el modelado de datos.

¿Cuáles son los tres tipos de modelos de datos?

Mientras que la arquitectura de datos se centra en cómo fluyen los datos a través de los sistemas, el modelado de datos se centra en cómo se estructuran los datos dentro de esos sistemas. Los modelos de datos definen la forma, las relaciones y las restricciones de la información a medida que se mueve a través de una arquitectura.

La documentación de la arquitectura de datos suele incluir tres tipos de modelos:

  • Modelos de datos conceptuales
  • Modelos de datos lógicos
  • Modelos de datos físicos

Modelos de datos conceptuales

También denominados "modelos de dominio", los modelos de datos conceptuales ofrecen una visión holística de lo que contendrá el sistema, cómo se organizará y qué reglas empresariales se aplicarán. Estos modelos suelen crearse durante las primeras fases de la planificación del proyecto e incluyen las clases de entidades (elementos definidos que deben rastrearse en el modelo de datos), sus características y restricciones, las relaciones entre ellas y cualquier requisito pertinente de seguridad o integridad de los datos.

Modelos de datos lógicos

Los modelos de datos lógicos son menos abstractos que los conceptuales y proporcionan más detalles sobre las entidades y relaciones dentro de un dominio determinado. Siguen una notación formal de modelado de datos y definen atributos de datos, como tipos y longitudes de datos, al tiempo que ilustran cómo se conectan las entidades. Es importante destacar que los modelos lógicos siguen siendo independientes de la tecnología y no incluyen requisitos específicos del sistema.

Modelos de datos físicos

Los modelos de datos físicos son los más detallados de los tres modelos de datos y describen cómo se implementará la base de datos. Definen estructuras de tablas, índices, formatos de almacenamiento y consideraciones de rendimiento. Estos modelos se centran en los aspectos técnicos de cómo se almacenan y acceden a los datos estructurados, y se utilizan para guiar la creación, la configuración y la optimización de esquemas.

Los modelos de datos dan forma a la estructura de la información dentro de un sistema. A partir de ahí, los marcos arquitectónicos más amplios guían la forma en que se implementan los modelos y los sistemas que los rodean.

Marcos populares de arquitectura de datos

Una arquitectura de datos puede basarse en marcos de arquitectura empresarial populares, como TOGAF, DAMA-DMBOK 2 y el Marco para la arquitectura empresarial de Zachman.

Marco de arquitectura del Open Group (TOGAF)

Esta metodología de arquitectura empresarial la desarrolló The Open Group en 1995. Su arquitectura consta de cuatro pilares:

  • La arquitectura empresarial define la estructura organizativa, la estrategia de datos y los procesos de la empresa.
  • La arquitectura de datos describe los activos de datos conceptuales, lógicos y físicos y cómo se almacenan y gestionan a lo largo de su ciclo de vida.
  • La arquitectura de aplicaciones representa los sistemas de aplicación y cómo se relacionan con los procesos empresariales clave y entre sí.
  • La arquitectura técnica representa la infraestructura de datos (hardware, software y redes) necesaria para dar soporte a las aplicaciones de misión crítica.

TOGAF proporciona un marco completo para diseñar e implementar la arquitectura de TI de una empresa, incluida su arquitectura de datos.

DAMA-DMBOK 2

DAMA International, inicialmente fundada como Data Management Association International, es una organización sin ánimo de lucro dedicada al avance de la gestión de datos y de la información. Su Data Management Body of Knowledge, DAMA-DMBOK 2, cubre la arquitectura de datos, el gobierno y la ética, el modelado y el diseño de datos, el almacenamiento, la seguridad y la integración.

Marco para la arquitectura empresarial de Zachman

Desarrollado originalmente por John Zachman en IBM en 1987, este marco utiliza una matriz de seis capas, desde contextual hasta detallada, asignadas a seis preguntas (como qué, por qué y cómo). Proporciona una forma formal de organizar y analizar datos, pero no incluye métodos para hacerlo.

Componentes de la arquitectura de datos

Una arquitectura de datos se construye a partir de múltiples componentes interdependientes que gestionan cómo se mueven, almacenan, gobiernan y acceden los datos. Estos elementos forman la base operativa de los sistemas de datos y respaldan todo, desde la ingesta hasta el análisis.

Los componentes de la arquitectura de datos suelen clasificarse en categories amplias, cada una con varias subcategorías:

Flujo e integración

Los datos se capturan de fuentes externas e internas y se mueven al sistema para su procesamiento y almacenamiento.

Pipelines de datos

Los pipelines consumen, transforman y transportan datos desde su punto de origen hasta donde se procesan y almacenan. Estos sistemas pueden seguir patrones de lotes, como extraer, transformar, cargar (ETL) y extraer, cargar, transformar (ELT). También pueden transmitir datos casi en tiempo real. Los pipelines modernos suelen incluir lógica de transformación, comprobaciones de calidad y validación de esquemas como parte del flujo.

API y conectores

Las interfaces de programación de aplicaciones (API) y conectores prediseñados permiten una integración perfecta entre sistemas de datos, aplicaciones y herramientas analíticas. Proporcionan una forma estandarizada para agilizar el acceso a datos en diferentes plataformas y son fundamentales para el intercambio de datos en tiempo real.

Sistemas de almacenamiento

Una vez consumidos, los datos se almacenan en sistemas escalables, tanto estructurados como no estructurados, donde quedan disponibles para su uso y análisis posteriores.

Almacenes de datos

Un almacén de datos agrega datos de diferentes fuentes de datos relacionales en una empresa en un único repositorio central y coherente. Tras la extracción, los datos fluyen a través de un pipeline ETL, sometiéndose a varias transformaciones para ajustarse al modelo de datos predefinido. Cuando se cargan en el sistema de almacenamiento de datos, los datos están disponibles para dar soporte a diversas aplicaciones de inteligencia empresarial (BI) y ciencia de datos.

Almacenes de datos (data marts)

Un almacén de datos es una versión centrada de un almacén de datos que contiene un subconjunto más reducido de datos relevantes para un único equipo o grupo de stakeholders. Al limitar el alcance, los almacenes de datos permiten obtener información más rápida y específica que trabajando con el conjunto de datos de almacenes más amplio.

Data lakes

Un data lake almacena datos brutos y sin procesar, incluidos formatos estructurados y no estructurados, a escala. A diferencia de los almacenes de datos, los data lakes no requieren modelado de datos por adelantado, lo que los hace ideales para cargas de trabajo de big data.

Lakehouses de datos

Un lakehouse de datos fusiona aspectos de almacenes de datos y data lakes en una única solución de gestión de datos. Combina almacenamiento de bajo coste con un motor de consulta de alto rendimiento y gobierno inteligente de metadatos.

Bases de datos

Una base de datos es el repositorio digital básico para almacenar, gestionar y proteger los datos. Los distintos tipos de bases de datos almacenan datos de diferentes maneras. Por ejemplo, las bases de datos relacionales (también llamadas "bases de datos SQL") almacenan los datos en tablas con filas y columnas. Las bases de datos NoSQL pueden almacenarlo como varias estructuras de datos, incluidos pares clave-valor o gráficos.

Gobierno y metadatos

A medida que los datos fluyen y se acumulan, las herramientas de gobierno garantizan que estén bien organizados, sean seguros y se puedan descubrir a lo largo de su ciclo de vida.

Catálogos de datos

Un catálogo de datos es un inventario centralizado de los activos de datos de una organización. Utiliza los metadatos para proporcionar el contexto de cada conjunto de datos, incluidos su origen, estructura, propiedad, historial de uso y calidad. Los catálogos de datos ayudan a los usuarios a encontrar y evaluar los datos, apoyan las iniciativas de gobierno y cumplimiento y facilitan la colaboración entre los equipos.

Linaje y observabilidad

Las herramientas de linaje rastrean el viaje de los datos a través de los sistemas, mostrando cómo se transformaron y dónde se originaron. Esta visibilidad es esencial para las auditorías, la resolución de problemas y la comprensión de las dependencias. Las plataformas de observabilidad pueden complementar el linaje mediante la monitorización del rendimiento del pipeline y las métricas de calidad de los datos.  

Acceso y consumo

Por último, los datos llegan a las personas y los sistemas que los utilizan a través de paneles de control, consultas o herramientas integradas que impulsan las decisiones.

Paneles de control y herramientas analíticas

Las plataformas de inteligencia empresarial pueden mejorar el acceso a los datos a través de visualizaciones y paneles de control. Estas herramientas ayudan a los usuarios no técnicos a interpretar tendencias, monitorizar indicadores clave de rendimiento (KPI) y tomar decisiones basadas en datos.

Motores de consulta y computación

Los endpoints SQL y otras interfaces de consulta permiten a los analistas y científicos de datos Explorar y analizar los datos directamente. Herramientas como Apache Spark e IBM®  watsonx.data proporcionan la capa informática necesaria para ejecutar consultas en conjuntos de datos distribuidos a escala.

Productos de datos integrados

Algunas arquitecturas admiten la entrega de datos directamente en aplicaciones, flujos de trabajo o API. Estos productos de datos integrados aportan conocimiento sobre las operaciones diarias, lo que permite tomar decisiones basadas en datos.

Formación en IA y ML

Los datos de toda la arquitectura también pueden alimentar los flujos de trabajo de IA y ML. Los datos de entrenamiento a menudo proceden de data lake, se transforman a través de pipelines y se utilizan para desarrollar y volver a entrenar modelos. Estos modelos pueden implementarse en productos, paneles de control o procesos empresariales para mejorar la automatización y la predicción.

¿Cómo se implementa la arquitectura de datos?

Implementar una arquitectura de datos implica traducir las necesidades del negocio en una hoja de ruta para la recopilación, la organización, la seguridad y la accesibilidad de datos. Aunque no hay dos implementaciones idénticas, la mayoría sigue un enfoque por fases que se mueve de la planificación a la ejecución.

Paso 1: Alinearse con los objetivos comerciales

El proceso comienza estableciendo lo que la empresa necesita de sus datos, ya sea habilitar el machine learning o respaldar el cumplimiento de las normativas. Esto informa de las prioridades arquitectónicas, qué fuentes de datos incluir y qué sistemas requieren integración.

Paso 2: Definir modelos de datos y gobierno

Los arquitectos de datos desarrollan modelos de datos conceptuales, lógicos y físicos para guiar la estructura y el flujo. Estos modelos ayudan a identificar entidades clave, relaciones, requisitos de datos y controles de acceso. Al mismo tiempo, se establecen políticas de gobierno para definir la propiedad, los derechos de acceso y las reglas del ciclo de vida de los datos.

Paso 3: Diseñar la arquitectura

Una vez establecidos los modelos y las políticas, los equipos diseñan la propia arquitectura seleccionando las tecnologías de almacenamiento, integración, gestión de metadatos y consumo. Esto incluye definir cómo se moverán los datos entre los sistemas y dónde residirán en los sistemas de almacenamiento.

Paso 4: Crear e integrar

La implementación suele implicar la implementación de pipelines de ingesta, el establecimiento de API, la configuración de capas de gobierno y la habilitación de puntos de acceso como panel de control o endpoint de consulta. Los requisitos de seguridad y cumplimiento se integran durante esta etapa para proteger los datos.

Paso 5: Monitorizar, evolucionar y ampliar

Una vez implementada, una arquitectura de datos debe monitorizarse y perfeccionarse continuamente. Los volúmenes de datos crecen; los casos de uso evolucionan; cambio de normativa. Las organizaciones a menudo revisan y reoptimizan sus arquitecturas, especialmente a medida que adoptan plataformas en la nube y adoptan patrones arquitectónicos modernos.

Características clave de una arquitectura de datos moderna

A medida que las organizaciones escalan, también lo hace la necesidad de una arquitectura de datos flexible y resiliente. La arquitectura de datos moderna prioriza la interoperabilidad, el acceso en tiempo real y la capacidad de gestionar los datos como un producto, no solo como un activo. También permite una mayor normalización, gestión de metadatos y democratización a través de las API.

Las características clave de una arquitectura de datos moderna incluyen:

  • Diseño nativo de la nube, que ofrece escalabilidad elástica y alta disponibilidad.
  • Pipelines de datos inteligentes, que combinan la integración en tiempo real, la transmisión de datos y los análisis.
  • Integración basada en API con aplicaciones heredadas y modernas.
  • Habilitación de datos en tiempo real, incluida la validación, la clasificación y el gobierno.
  • Servicios desacoplados y extensibles, que respaldan el crecimiento modular y la interoperabilidad abierta.
  • Organización basada en dominios, que utiliza eventos y microservicios para reflejar las estructuras empresariales.
  • Optimización integrada, que equilibra el rendimiento, el coste y la simplicidad.

Patrones de arquitectura de datos modernos

Las organizaciones que modernizan su infraestructura de datos están adoptando nuevas estrategias de datos que reflejan la complejidad de los entornos multinube e híbridos actuales. Este cambio ha dado lugar a nuevos patrones arquitectónicos, en particular tejidos de datos y mallas de datos.

Tejido de datos

Los tejidos de datos se centran en automatizar la integración y la gestión de datos en entornos híbridos. Utiliza los metadatos activos y el machine learning para descubrir las relaciones entre los sistemas y orquestar los flujos de datos. Un tejido de datos puede aprovisionar productos de datos automáticamente y entregarlos bajo demanda, lo que mejora la eficiencia operativa y reduce los silos.

Malla de datos

La malla de datos descentraliza la propiedad de los datos alineando la arquitectura con los dominios empresariales. Anima a los productores de datos, los más cercanos a la fuente, a tratar los datos como un producto y a diseñar API pensando en los consumidores. Este modelo ayuda a eliminar los cuellos de botella y respalda la democratización escalable de los datos en toda la empresa.

Y aunque estos enfoques difieren, no son mutuamente excluyentes. Muchas organizaciones implementan elementos de ambos, utilizando la automatización de un tejido para escalar el gobierno descentralizado de una malla.

Beneficios de las arquitecturas de datos

Una arquitectura de datos bien construida puede ofrecer a las empresas ventajas significativas, que incluyen:

  • Reducción de la redundancia
  • Mejora de la calidad de los datos
  • Habilitación de la integración
  • Gestión del ciclo de vida de los datos

Reducción de la redundancia

El solapamiento de campos de datos en distintas fuentes puede provocar incoherencias, imprecisiones y la pérdida de oportunidades para la integración de datos. Una buena arquitectura de datos puede estandarizar la forma en que se almacenan los datos y, potencialmente, reducir la redundancia, lo que permite análisis holísticos y de mejor calidad.

Mejora de la calidad de los datos

Las arquitecturas de datos bien diseñadas pueden resolver algunos de los desafíos de los data lakes mal gestionados, también conocidos como “pantanos de datos”. Un pantano de datos carece de estándares de datos adecuados (incluidas la calidad de los datos y las prácticas de gobierno de datos) para proporcionar información valiosa. Las arquitecturas de datos pueden ayudar a hacer cumplir los estándares de gobierno de datos y seguridad de datos, lo que permite una supervisión adecuada del pipeline de datos.

Habilitación de la integración

Los datos suelen estar aislados debido a las limitaciones técnicas en el almacenamiento de datos y las barreras organizativas dentro de la empresa. Las arquitecturas de datos actuales tienen como objetivo facilitar la integración de datos entre dominios, de modo que las diferentes geografías y funciones empresariales tengan acceso a los datos de los demás. Esto puede conducir a una comprensión mejor y más coherente de las métricas comunes y permite una visión más holística del negocio para fundamentar la toma de decisiones basada en datos.

Gestión del ciclo de vida de los datos

Una arquitectura de datos moderna puede direccionar cómo se gestionan los datos a lo largo del tiempo. Los datos suelen volverse menos útiles a medida que envejecen y se accede a ellos con menos frecuencia. Con el tiempo, los datos pueden migrarse a tipos de almacenamiento más económicos y lentos para que sigan estando disponibles para informes y auditorías, pero sin el gasto de un almacenamiento de alto rendimiento.

Soluciones relacionadas
Herramientas y soluciones analíticas

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explore soluciones analíticas
Servicios de asesoramiento sobre datos y análisis

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por conocimientos que ofrezca ventajas empresariales.

Descubra los servicios de análisis
IBM Cognos Analytics

Presentamos Cognos Analytics 12.0: conocimientos potenciados por IA para una mejor toma de decisiones.

Explore Cognos Analytics
Dé el siguiente paso

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explore soluciones analíticas Descubra los servicios de análisis