El proceso ETL, que por sus siglas en inglés significa extraer, transformar, cargar, es un proceso de integración de datos que combina, limpia y organiza datos de múltiples fuentes en un único conjunto de datos coherente para su almacenamiento en un almacén de datos , data lake u otro sistema de destino.
Las canalizaciones de datos ETL proporcionan la base para los flujos de trabajo de análisis de datos y machine learning. A través de un serial de reglas de negocio, ETL limpia y organiza los datos para hacer frente a las necesidades específicas de inteligencia de negocios, tales como reportes mensuales, pero también puede abordar análisis más avanzados, que pueden mejorar los procesos de back-end y las experiencias de los usuarios finales.
Las organizaciones suelen emplear ETL pipelines para:
Las empresas han estado generando datos desde la era del ábaco, pero los analytics modernos solo fueron posibles con la llegada del ordenador digital y el almacenamiento de datos.
Un gran paso adelante llegó en la década de 1970, con el paso a bases de datos centralizadas más grandes. Luego, ETL se introdujo como un proceso para integrar y cargar datos para su cálculo y análisis, convertir finalmente en el método principal para procesar datos para proyectos de almacenamiento de datos.
A fines de la década de 1980, los almacenes de datos y la transición de bases de datos transaccionales a bases de datos relacionales que almacenaban la información en formatos de datos relacionales crecieron en popularidad. Las bases de datos transaccionales más antiguas almacenaban información transacción por transacción, y con cada transacción se almacenaba información duplicada del cliente, por lo que no había una manera sencilla de acceder a los datos del cliente de forma unificada a lo largo del tiempo. Con las bases de datos relacionales, el análisis se convirtió en la base de la business intelligence (BI) y en una herramienta importante en la toma de decisiones.
Hasta la llegada del software ETL más sofisticado, los primeros intentos fueron en gran medida manuales por parte del equipo de TI para extraer datos de varios sistemas y conectores, transformar los datos en un formato común y luego cargarlos en tablas interconectadas. Aun así, los primeros pasos de ETL valieron la pena, ya que los algoritmos avanzados , además del auge de las redes neuronales, produjeron oportunidades cada vez más profundas para obtener insights analíticos.
La era del big data llegó en la década de 1990 a medida que las velocidades informáticas y la capacidad de almacenamiento continuaron creciendo rápidamente, con grandes volúmenes de datos extraídos de nuevas fuentes, como las redes sociales y el Internet de las cosas (IoT). Seguía existiendo un factor limitante, ya que los datos a menudo se almacenaban en almacenes de datos on premises.
El siguiente gran paso tanto en computación como en ETL fue la computación en nube, que se popularizó a finales de los noventa. Mediante el uso de almacenes de datos como Amazon Sitio web Services (AWS), Microsoft Azure y Snowflake, ahora se puede acceder a los datos desde cualquier parte del mundo y escalarlos rápidamente para permitir que las soluciones ETL ofrezcan perspectivas detalladas notables y un nuevo beneficio competitivo.
La última evolución son las soluciones ETL que utilizan la transmisión de datos para ofrecer insights actualizados al segundo a partir de enormes cantidades de datos.
La diferencia más obvia entre ETL y ELT (extraer, cargar, transformar) es la diferencia en el orden de las operaciones. ELT copia o exporta los datos desde las ubicaciones de origen, pero en lugar de cargarlos en un área de preparación para su transformación, carga los datos sin procesar directamente en el almacén de datos de destino para transformarlos según sea necesario.
Si bien ambos procesos aprovechan una variedad de repositorios de datos, como bases de datos, almacenes de datos y lagos de datos, cada proceso tiene sus ventajas y desventajas.
ELT es útil para ingerir conjuntos de datos no estructurados de gran volumen, ya que la carga puede ocurrir directamente desde la fuente. ELT puede ser más ideal para la gestión de big data, ya que no necesita mucha planificación inicial para la extracción y el almacenamiento de datos.
El proceso ETL requiere más definición desde el principio. Es necesario identificar puntos de datos específicos para la extracción junto con cualquier “clave” potencial para integrar en sistemas de fuentes dispares. La fuente de datos de entrada a menudo se rastrea mediante el uso de metadatos. Incluso después de completar ese trabajo, es necesario construir las reglas de negocio para las transformaciones de datos. Este trabajo generalmente puede tener dependencias en los requisitos de datos para un tipo determinado de análisis de datos, lo que determinará el nivel de resumen que deben tener los datos.
Si bien los pipelines de ELT se han vuelto cada vez más populares con la adopción de bases de datos en la nube, la tecnología ELT sigue siendo un proceso en desarrollo, lo que significa que aún se están estableciendo las mejores prácticas.
La forma más sencilla de entender cómo funciona ETL es comprender qué ocurre en cada paso del proceso.
Durante la extracción de datos, los datos sin procesar se copian o exportan de las ubicaciones de origen a un área de preparación. Los equipos de gestión de datos pueden extraer datos de una variedad de fuentes diferentes, que pueden ser estructurados o no estructurados. Esos tipos de datos incluyen, pero no se limitan a:
En el área de preparación, los datos sin procesar se someten a procesamiento de datos. Aquí, los datos se transforman y consolidan para su caso de uso analítico previsto. Esta fase del proceso de transformación puede incluir:
En este último paso, los datos transformados se mueven del área de almacenamiento en etapas a un data warehouse de destino. Por lo general, esto implica una carga inicial de todos los datos, seguida de la carga periódica de cambios incrementales en los datos y, con menos frecuencia, actualizaciones completas para borrar y reemplazar los datos en el almacén.
Para la mayoría de las organizaciones que utilizan ETL, el proceso es automatizado, bien definido, continuo y basado en lotes. Por lo general, el proceso de carga ETL se lleva a cabo durante las horas fuera de horario cuando el tráfico en los sistemas de origen y el almacén de datos está en su punto más bajo.
ETL y ELT son solo dos métodos de integración de datos, y hay otros enfoques que también se utilizan para facilitar los flujos de trabajo de integración de datos. Algunos de ellos son:
Identifica y captura solo los datos de origen que han cambiado y mueve esos datos al sistema de destino. CDC se puede utilizar para reducir los recursos necesarios durante el paso de “extracción” de ETL; también se puede utilizar de forma independiente para mover datos que se han transformado en un lago de datos u otro repositorio en tiempo real.
La replicación de datos copia los cambios en las fuentes de datos en tiempo real o por lotes en una base de datos central. La replicación de datos a menudo se incluye como un método de integración de datos. De hecho, se utiliza con mayor frecuencia para crear copias de seguridad para la recuperación ante desastres.
Emplea una capa de abstracción de software para crear una visión unificada, integrada y totalmente utilizable de los datos, sin necesidad de copiar, transformar o cargar físicamente los datos de origen en un sistema de destino.
Las funciones de virtualización de datos permiten a una organización crear almacenes de datos virtuales, lagos de datos y data marts a partir de la misma fuente de datos para el almacenamiento de datos sin el gasto y la complejidad de construir y gestionar plataformas independientes para cada uno. Aunque la virtualización de datos puede emplear junto con ETL, cada vez se considera más una alternativa a ETL y a otros métodos físicos de integración de datos.
Es exactamente lo que parece: consume continuamente flujos de datos en tiempo real, los transforma y los carga en un sistema de destino para su análisis. La palabra clave aquí es continuamente.
En lugar de integrar instantáneas de datos extraídos de diversas fuentes en un momento dado, la IDE integra los datos constantemente a medida que están disponibles. SDI habilita un almacén de datos para potenciar el análisis, el aprendizaje automático y las aplicaciones en tiempo real para mejorar la experiencia del cliente, la detección de fraudes y mucho más.
Las soluciones ETL mejoran la calidad al realizar la limpieza de datos antes de cargarlos en un repositorio diferente.
Una operación por lotes que consume mucho tiempo, ETL se recomienda con mayor frecuencia para crear repositorios de datos de destino más pequeños que requieren actualizaciones menos frecuentes, mientras que otros métodos de integración de datos, incluidos ELT (extracción, carga, transformación), captura de datos modificados (CDC) y virtualización de datos, se emplean para integrar volúmenes cada vez más grandes de datos que cambian o flujos de datos en tiempo real.
En el pasado, las organizaciones escribían su propio código ETL. Ahora hay muchas herramientas ETL comerciales y de código abierto y servicios basados en la nube para elegir. Las capacidades típicas de estos productos incluyen:
Además, muchas herramientas ETL han evolucionado para incluir la capacidad ELT y admitir la integración de datos en tiempo real y streaming para aplicaciones de inteligencia artificial (IA).
Las interfaces de programación de aplicaciones (API) que utilizan Enterprise Application Integration (EAI) se pueden usar en lugar de ETL para obtener una solución más flexible y escalable que incluya integración de flujos de trabajo. Si bien ETL sigue siendo el principal recurso de integración de datos, EAI se utiliza cada vez más con las API en configuraciones basadas en web.
Desarrolle un pipeline de datos de confianza con una herramienta de ETL modernizada en una plataforma de insights nativa de la nube.
Cree canalizaciones de datos resilientes, de alto rendimiento y con costes optimizados para sus iniciativas de IA generativa, análisis en tiempo real, modernización de almacenes y necesidades operativas con las soluciones de integración de datos de IBM.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.