ETL (extracción, transformación, carga) es un antiguo proceso de integración de datos que se utiliza para combinar datos de varias fuentes en un conjunto de datos único y coherente para cargarlo en un almacén de datos, data lake u otro sistema de destino.
A medida que las bases de datos ganaban popularidad en los años 70, se introdujo el ETL como proceso de integración y carga de datos para el cálculo y el análisis, que acabó convirtiéndose en el método principal para procesar datos en proyectos de almacenamiento de datos.
ETL proporciona la base para los flujos de trabajo de análisis de datos y machine learning. A través de una serie de normas empresariales, ETL limpia y organiza los datos de una manera que satisface las necesidades específicas de inteligencia empresarial, como los informes mensuales, pero también puede abordar análisis más avanzados, que pueden mejorar los procesos de back-end o las experiencias de los usuarios finales. Una organización suele utilizar ETL para:
Explore el libro electrónico gratuito de O'Reilly para aprender a dar los primeros pasos con Presto, el motor SQL de código abierto para el análisis de datos.
Regístrese para obtener el informe técnico sobre la gobernanza de la IA
La diferencia más obvia entre ETL y ELT es la diferencia en el orden de las operaciones. ELT copia o exporta los datos desde las ubicaciones de origen, pero en lugar de cargarlos en un área de preparación para su transformación, carga los datos sin procesar directamente en el almacén de datos de destino para transformarlos según sea necesario.
Aunque ambos procesos aprovechan diversos repositorios de datos, como bases de datos, almacenes de datos y data lakes, cada uno tiene sus ventajas e inconvenientes. ELT es especialmente útil para conjuntos de datos no estructurados y de gran volumen, ya que la carga puede realizarse directamente desde la fuente. ELT puede ser más adecuado para la gestión de big data, ya que no necesita mucha planificación previa para la extracción y el almacenamiento de datos.
El proceso ETL, en cambio, requiere más definición al principio. Es necesario identificar puntos de datos específicos para su extracción, junto con posibles "claves" para integrar sistemas de fuentes dispares. Incluso una vez completado ese trabajo, es necesario construir las normas empresariales para las transformaciones de datos. Por lo general, este trabajo puede depender de los requisitos de los datos para un determinado tipo de análisis de datos, lo que determinará el nivel de resumen que deben tener los datos.
Aunque el ELT se ha hecho cada vez más popular con la adopción de bases de datos en la nube, tiene sus propias desventajas por ser el proceso más reciente, lo que significa que aún se están estableciendo las buenas prácticas.
La forma más sencilla de entender cómo funciona ETL es comprender qué ocurre en cada paso del proceso.
Durante la extracción de datos, los datos sin procesar se copian o exportan desde las ubicaciones de origen a una zona de preparación. Los equipos de gestión de datos pueden extraer datos de diversas fuentes. Los datos pueden ser estructurados o no estructurados. Estas fuentes incluyen, entre otras:
En la zona de preparación, los datos sin procesar se procesan. Aquí, los datos se transforman y consolidan para su caso de uso analítico previsto. Esta fase puede implicar las siguientes tareas:
En este último paso, los datos transformados se trasladan de la zona de preparación a un almacén de datos de destino. Normalmente, esto implica una carga inicial de todos los datos, seguida de cargas periódicas de cambios incrementales de datos y, con menos frecuencia, actualizaciones completas para borrar y reemplazar datos en el almacén. Para la mayoría de las organizaciones que utilizan ETL, el proceso es automatizado, bien definido, continuo y por lotes. Normalmente, el ETL se realiza fuera de las horas de trabajo, cuando el tráfico en los sistemas de origen y el almacén de datos es mínimo.
ETL y ELT son sólo dos métodos de integración de datos, y hay otros enfoques que también se utilizan para facilitar los flujos de trabajo de integración de datos. Algunos de ellos son:
Las soluciones ETL mejoran la calidad realizando una limpieza de los datos antes de cargarlos en un repositorio diferente. ETL, una operación por lotes que consume mucho tiempo, se recomienda más a menudo para crear repositorios de datos de destino más pequeños que requieren una actualización menos frecuente, mientras que otros métodos de integración de datos (incluyendo ELT [extracción, carga, transformación], captura de datos de cambio (CDC) y virtualización de datos) se utilizan para integrar volúmenes cada vez mayores de datos que cambian o flujos de datos en tiempo real.
En el pasado, las organizaciones escribían su propio código ETL. Ahora hay muchas herramientas ETL comerciales y de código abierto y servicios en la nube entre los que elegir. Entre las capacidades típicas de estos productos se incluyen las siguientes:
Además, muchas herramientas ETL han evolucionado para incluir la capacidad ELT y admitir la integración de datos en tiempo real y streaming para aplicaciones de inteligencia artificial (IA).
Las interfaces de programación de aplicaciones (API) que utilizan la integración de aplicaciones empresariales (EAI) se pueden utilizar en lugar de ETL para obtener una solución más flexible y escalable que incluya la integración del flujo de trabajo. Si bien ETL sigue siendo el principal recurso de integración de datos, EAI se usa cada vez más con API en entornos basados en la web.
IBM Cloud Pak for Data es una plataforma de datos abierta y extensible que proporciona una estructura de datos para que todos los datos estén disponibles para la IA y el análisis, en cualquier nube.
La IA está desbloqueando el valor de los datos de nuevas formas. Organice sus datos para que estén listos para un mundo de IA y multinube con soluciones DataOps.
La integración de datos permite transformar datos estructurados y no estructurados y entregarlos a cualquier sistema en una plataforma de big data escalable.
Aprenda a extraer, transformar y cargar o extraer, cargar y luego transformar mientras descubre formas de procesar y analizar grandes conjuntos de datos con facilidad utilizando esta herramienta.
Conozca las similitudes y diferencias en las definiciones, beneficios y casos de uso de ELT y ETL.
Descubra el poder de los flujos ETL con Node-RED y aprenda a agilizar, implementar y automatizar estos procesos críticos y desbloquear todo el potencial de sus datos.