ETL (que significa extrair, transformar, carregar ) é um processo de integração de dados de longa data usado para combinar dados de várias fontes em um conjunto de dados único e consistente para carregar em um data warehouse, data lake ou outro sistema de destino.
Conforme os bancos de dados se tornavam mais populares na década de 1970, o ETL foi introduzido como um processo para integração e carregamento de dados para computação e análise, tornando-se eventualmente o método principal para processar dados em projetos de data warehousing.
O ETL fornece a base para análise de dados e fluxos de trabalho de aprendizado de máquina. Por meio de uma série de business rules. o ETL limpa e organiza dados de forma a atender necessidades específicas de business intelligence, como relatórios mensais, mas também pode lidar com análises mais avançadas, que podem melhorar processos de back-end ou experiências de usuário final. O ETL é frequentemente usado por uma organização para:
Explore o ebook gratuito de O'Reilly ebook para aprender como começar a usar o Presto, o mecanismo SQL de código aberto para análise de dados.
Cadastre-se para receber o white paper sobre governança de IA
A diferença mais óbvia entre ETL e ELT é a diferença na ordem das operações. O ELT copia ou exporta os dados das localizações de origem, mas em vez de carregá-los para uma área de preparação para transformação, ele carrega os dados brutos diretamente no armazenamento de dados de destino para serem transformados conforme necessário.
Embora ambos os processos utilizem uma variedade de repositórios de dados, como bancos de dados, data warehouses e data lakes, cada processo tem suas vantagens e desvantagens. O ELT é particularmente útil para conjuntos de dados não estruturados e de alto volume, pois o carregamento pode ocorrer diretamente da fonte. O ELT pode ser mais ideal para gerenciamento de big data, pois não requer muito planejamento inicial para extração e armazenamento de dados.
O processo ETL, por outro lado, requer mais definição no início. Pontos de dados específicos precisam ser identificados para extração, juntamente com quaisquer "chaves" em potencial para integração em sistemas de origem díspares. Mesmo após a conclusão desse trabalho, as business rules para transformações de dados precisam ser construídas. Esse trabalho geralmente pode ter dependências dos requisitos de dados para um determinado tipo de análise de dados, o que determinará o nível de resumo que os dados precisam ter.
Embora o ELT tenha se tornado cada vez mais popular com a adoção de cloud databases, ele tem suas próprias desvantagens por ser um processo mais recente, o que significa que as melhores práticas ainda estão sendo estabelecidas.
A maneira mais fácil de entender como o ETL funciona é compreender o que acontece em cada etapa do processo.
Durante a extração de dados, os dados brutos são copiados ou exportados das localizações de origem para uma área de preparação. As equipes de gerenciamento de dados podem extrair dados de uma variedade de fontes de dados, que podem ser estruturadas ou não estruturadas. Essas fontes incluem, entre outras:
Na área de preparação, os dados brutos passam por processamento de dados. Aqui, os dados são transformados e consolidados para o caso de uso analítico pretendido. Essa fase pode envolver as seguintes tarefas:
Nesta última etapa, os dados transformados são movidos da área de preparação para um armazém de dados de destino. Normalmente, isso envolve uma carga inicial de todos os dados, seguida por carregamentos periódicos de mudanças incrementais nos dados e, menos frequentemente, atualizações completas para apagar e substituir os dados no armazém. Para a maioria das organizações que utilizam ETL, o processo é automatizado, bem definido, contínuo e orientado por lotes. Normalmente, o ETL ocorre fora do horário comercial, quando o tráfego nos sistemas de origem e no data warehouse é mais baixo.
ETL e ELT são apenas dois métodos de integração de dados, e existem outras abordagens que também são usadas para facilitar os fluxos de trabalho de integração de dados. Alguns deles incluem:
As soluções ETL melhoram a qualidade ao realizar a limpeza dos dados antes de carregá-los em um repositório diferente. Uma operação em lote que consome tempo, o ETL é recomendado com mais frequência para criar repositórios de dados de destino menores que requerem atualizações menos frequentes, enquanto outros métodos de integração de dados, incluindo ELT (extração, carga, transformação), captura de mudanças de dados (CDC) e virtualização de dados, são usados para integrar volumes cada vez maiores de dados que mudam ou fluxos de dados em tempo real.
No passado, as organizações escreviam seu próprio código ETL. Atualmente, há muitas ferramentas de ETL comerciais e de código aberto e serviços de nuvem para escolher. Os recursos típicos desses produtos incluem o seguinte:
Além disso, muitas ferramentas de ETL evoluíram para incluir o recurso ELT e oferecer suporte à integração de dados em tempo real e streaming para aplicativos de inteligência artificial (IA).
As Interfaces de Programação de Aplicativos (APIs) utilizando Integração de Aplicações Empresariais (EAI) podem ser usadas no lugar do ETL para uma solução mais flexível e escalável que inclui integração de fluxo de trabalho. Embora o ETL ainda seja o principal recurso de integração de dados, o EAI é cada vez mais usado com APIs em configurações baseadas na web.
O IBM Cloud Pak for Data é uma plataforma de dados aberta e extensível que fornece uma malha de dados para disponibilizar todos os dados para IA e análises, em qualquer nuvem.
IA está desbloqueando o valor dos dados de novas maneiras. Organize seus dados para torná-los prontos para um mundo de IA e multinuvem com soluções DataOps.
A integração de dados permite que você transforme dados estruturados e não estruturados e os entregue a qualquer sistema em uma plataforma de big data escalável.
Aprenda como extrair, transformar e carregar OU extrair, carregar e então transformar enquanto descobre maneiras de processar e analisar conjuntos de dados grandes com facilidade usando esta ferramenta.
Conheça as semelhanças e diferenças nas definições, benefícios e casos de uso de ELT e ETL.
Descubra o poder dos fluxos de ETL com o Node-RED e saiba como simplificar, implementar e automatizar esses processos críticos e liberar todo o potencial de seus dados.