O que é Extract, Load, Transform (ELT)?

Vista aérea do canteiro de obras de Barangaroo

O que é ELT?

ELT, que significa "Extrair, Carregar, Transformar (Extract, Load, Transform)", é outro tipo de processo de integração de dados, semelhante ao ETL, "Extrair, Transformar, Carregar (Extract, Transform, Load)". Esse processo migra dados brutos de um sistema de origem para um recurso de destino, como um data warehouse.

Embora semelhante ao ETL, o ELT é uma abordagem fundamentalmente diferente para o pré-processamento de dados, que só recentemente ganhou adoção com a transição para ambientes de nuvem.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA  

Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think.

Como funciona o ELT

O ELT consiste em três estágios principais: extrair, carregar e transformar. Cada um desses estágios é detalhado abaixo.

Extrair

Durante a extração de dados, os dados são copiados ou exportados das localizações de origem para uma área de preparação. O conjunto de dados pode consistir em muitos tipos de dados e vir de praticamente qualquer fonte estruturada ou não estruturada, incluindo, entre outros:

SQL servers ou servidores NoSQL
Sistemas CRM e ERP
Arquivos de texto e documentos
E-mail
Páginas da web

Dito isso, é mais comumente usado com dados não estruturados.

Carregar

Nessa etapa, os dados transformados são migrados da área de preparo para uma área de armazenamento de dados, como um data warehouse ou data lake.

Para a maioria das organizações, o processo de carregamento de dados é automatizado, bem definido, contínuo e orientado por lotes. Normalmente, o ELT ocorre durante o horário comercial, quando o tráfego nos sistemas de origem e no data warehouse está em seu pico e os consumidores estão esperando para usar os dados para análise ou outros motivos.

Transformar

Nesse estágio, é empregada uma abordagem de esquema na gravação, que aplica o esquema aos dados usando SQL ou transforma os dados antes da análise. Esse estágio pode envolver o seguinte:

Filtragem, limpeza, eliminação de duplicações, validação e autenticação dos dados.
Realização de cálculos, traduções, análises de dados ou resumos com base nos dados brutos. Isso pode incluir tudo, desde alterar cabeçalhos de linhas e colunas para fins de consistência até converter moedas ou unidades de medida, bem como editar strings de texto e adicionar ou calcular médias de valores, o que for necessário para atender aos propósitos analíticos ou de BI específicos da organização.
Remoção, criptografia, ocultação ou proteção de outra forma dos dados governados pelo governo ou pelas regulamentações do setor.
Formatação dos dados em tabelas ou tabelas unidas com base no esquema implementado no warehouse.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Veja todos os episódios de Mixture of Experts

ETL versus ELT

É possível confundir o ELT com seu processo irmão, conhecido por um acrônimo quase idêntico. No entanto, existem várias diferenças distintas entre o ELT e o ETL, que significa extrair, transformar e carregar. É um processo de integração de dados que combina dados de várias fontes de dados em um único armazenamento de dados consistente, que é carregado para um data warehouse ou outro sistema de destino. As ferramentas tradicionais de ETL foram projetadas para criar armazenamento de dados compatíveis com aplicações de business intelligence (BI) e inteligência artificial (IA).

ETL e ELT – quais são as diferenças?

A diferença óbvia é que o processo ELT executa a função "carregar" antes da função "transformar" – uma reversão da segunda e terceira etapas do processo ETL. O ELT copia ou exporta os dados das localizações de origem, mas em vez de transferi-los para uma área de preparação para transformação, ele carrega os dados brutos diretamente para o armazenamento de dados de destino, onde podem ser transformados conforme a necessidade. O ELT não transforma nenhum dado em trânsito.

No entanto, a ordem das etapas não é a única diferença. No ELT, o armazenamento de dados de destino pode ser um data warehouse, mas, na maioria das vezes, é um data lake, que é um grande armazenamento central projetado para armazenar dados estruturados e não estruturados em escala maciça.

Os data lakes são gerenciados usando uma plataforma de big data (como o Apache Hadoop) ou um sistema de gerenciamento de dados NoSQL distribuído. Eles podem ser compatíveis com a business intelligence, mas, com mais frequência, são criados para serem compatíveis com a inteligência artificial, o aprendizado de máquina, a análise de dados preditiva e as aplicações orientadas por streams de dados e eventos em tempo real.

Também existem outras diferenças entre o ETL e o ELT. Por exemplo, como transforma os dados antes de transferi-los para o repositório central, o ETL pode tornar a conformidade com a privacidade de dados mais simples ou sistemática do que o ELT (por exemplo, se os analistas não transformarem dados confidenciais antes de precisarem usá-los, eles poderão ficar desmascarados no data lake). No entanto, os cientistas de dados podem preferir o ELT, que permite que eles joguem em uma "sandbox" de dados brutos e façam sua própria transformação de dados adaptada a aplicações específicas. Mas, na maioria dos casos, a escolha entre ETL e ELT dependerá da escolha entre os recursos e necessidades de negócios disponíveis.

Benefícios do ELT

O ELT oferece várias vantagens para os usuários que integram o processo a seus fluxos de trabalho. Vamos dar uma olhada em alguns dos benefícios notáveis:

Migre os dados para o destino mais rapidamente para uma disponibilidade mais rápida

Quando grandes quantidades de dados de streaming são geradas, o ELT permite que esses dados sejam carregados imediatamente e os transforma após chegarem ao seu destino. Isso evita qualquer lentidão que pode ocorrer com frequência se a transformação ocorrer antes da função "Carregar", como no ETL. Muitas vezes, é preciso tomar decisões em relação a esses dados, e atrasos são inaceitáveis. Um exemplo disso é o mercado de ações, que gera grandes quantidades de dados que são consumidos em tempo real. Em cenários como esse, o ELT é a solução ideal, pois a transformação ocorre após os dados chegarem ao seu destino.

Preocupações separadas

Como os dados são transformados quando chegam ao seu destino, o ELT permite que o destinatário dos dados controle a manipulação dos dados. Com o ELT, o desacoplamento dos estágios de transformação e carregamento garante que um erro de codificação ou outro erro no estágio de transformação não afete outro estágio.

Evite problemas de escalonamento do servidor

O ELT utiliza o poder e o tamanho do data warehouse para permitir a transformação, ou computação escalável, em grande escala. O data warehouse de destino pode aumentar ou diminuir nós conforme a necessidade, especialmente em um cenário de nuvem no qual há vários nós em cada cluster e vários clusters que podem ser utilizados. Isso permite flexibilidade e escalabilidade sob demanda.

Economize dinheiro

O ELT requer um servidor menos potente para transformação de dados e aproveita os recursos já existentes no warehouse. Isso resulta em economia de custos e eficiência de recursos.

Flexibilidade

O ELT permite o uso do repositório de destino de sua escolha, para flexibilidade de custos e recursos. Os data warehouses usam a arquitetura MPP (Massively Parallel Processing), incluindo armazenamento baseado em memória colunar de volumes de dados. Os processos de data lake que aplicam um esquema ou modelo de transformação assim que os dados são recebidos (também cunhados como "esquema na leitura") também são compatíveis. Esses processos eficientes oferecem flexibilidade para grandes quantidades de dados.

Operações contínuas

A operação contínua é ideal para qualquer ambiente que exija acesso rápido aos dados. O ELT é adequado para dados utilizados em ambientes de nuvem, que frequentemente incluem aplicativos acessados sob demanda continuamente. Da mesma forma, a transformação do ELT nativa da nuvem fornece a escalabilidade e a flexibilidade mencionadas anteriormente.

Desafios associados à mudança de uma arquitetura ETL para ELT

Uma organização pode optar por fazer a transição de uma arquitetura ETL para uma arquitetura ELT. O motivo da transição pode ser uma mudança no uso de seu produto ou serviço, de modo que resposta e interação em tempo real sejam necessárias, ou a quantidade de dados cresceu exponencialmente e a transformação está atrasando o estágio de "Carregamento" devido às demandas de alto volume de processamento na infraestrutura. Uma organização também pode optar por fazer a transição do ETL para ELT se tiver migrado para a nuvem e quiser descarregar o processamento ou usar dados no local de destino mais cedo.

Em um cenário de transição, é realista esperar encontrar desafios. Em primeiro lugar, lógica e código completamente diferentes são usados no ELT e ETL. Isso pode exigir uma reconfiguração completa e, possivelmente, uma nova infraestrutura ou um novo provedor com infraestrutura na nuvem. Além disso, com o ELT, os dados brutos são enviados para o warehouse de destino. Portanto, a segurança é uma consideração e deve ser implementada para manter os dados seguros.

O passado e o futuro do ELT

O ELT não é uma tecnologia nova. As tabelas de preparação eram usadas anteriormente para migrar dados para um warehouse para processamento e transformação, muitas vezes usando scripts SQL. Os scripts SQL são codificados permanentemente e, portanto, sujeitos a possíveis erros de codificação. Com o uso do SQL, os clientes tinham que escolher entre a execução nativa do warehouse usando scripts SQL e programação declarativa, também conhecida como autoria declarativa. A autoria declarativa fornece os benefícios de ambientes de data warehouse mais modernos e baseados em nuvem por meio da criação de código que descreve o que o programa deve alcançar em vez de como ele o alcançará. Esse processo evita os erros de codificação inerentes a outros processos, especialmente quando a transformação ocorre antes da função "Carregar".

Casos de uso

O ELT é normalmente usado em ambientes de uso de dados de alto volume ou em tempo real. Exemplos específicos são:

Organizações que precisam de acesso instantâneo. Os exemplos incluem bolsas de valores ou distribuidores atacadistas em grande escala de ações, componentes industriais e outros materiais, que precisam de acesso em tempo real aos dados atuais para acesso imediato à business intelligence.
Organizações com enormes volumes de dados. Os exemplos incluem sistemas meteorológicos, como serviços climáticos, que coletam, agrupam e usam grandes quantidades de dados regularmente. Empresas com grandes volumes de transações também podem se enquadrar nessa categoria. Uma organização como um laboratório de astronomia com telescópios extremamente grandes gera uma grande quantidade de dados que precisarão ser coletados e analisados. Pode haver sobreposição entre as duas categorias, pois há muitos setores que produzem e usam uma grande quantidade de dados e precisam de acesso em tempo real a esses dados.

Integração de dados para líderes de dados

Explore a complexidade crescente dos ambientes de nuvem híbrida juntamente com os elementos básicos de integração de dados de multinuvem, tais como a virtualização de dados, replicação, catalogação e automação, que ajudam a controlar a expansão.

Recursos

2024 Gartner® Magic Quadrant™ para ferramentas de integração de dados

IBM reconhecida como líder pelo 19.º ano consecutivo no Gartner Magic Quadrant™ 2024 para Ferramentas de Integração de Dados.

Aumente a adoção da IA com dados preparados para ela

Descubra por que a inteligência e a integração de dados impulsionadas por IA são críticas para estimular a preparação de dados estruturados e não estruturados e acelerar os resultados da IA.

O data lakehouse híbrido e aberto para IA

Conheça o poder da integração de uma estratégia de data lakehouse à sua arquitetura de dados, incluindo a otimização dos custos das suas cargas de trabalho e a escala de IA, com todos os seus dados, em qualquer lugar.

O diferenciador dos dados

Explore o guia do líder de dados para criar uma organização baseada em dados e gerar vantagem comercial.

Os cinco principais motivos para modernizar sua integração de dados

Aprofunde-se nos cinco principais motivos para modernizar sua integração de dados com o IBM Cloud Pak for Data.

Gartner® Predicts 2024: como a IA afetará os usuários das análises de dados

Tenha acesso a insights exclusivos sobre o cenário em evolução das soluções avançadas de BI, destacando as principais descobertas, suposições e recomendações para líderes de dados e de análises.

Soluções relacionadas

IBM StreamSets

Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.

Explore o StreamSets

IBM Databand

Conheça o IBM Databand, o software de observabilidade para pipelines de dados. Ele coleta metadados automaticamente para criar linhas de base históricas, detectar anomalias e criar fluxos de trabalho para corrigir problemas de qualidade dos dados.

Explore o Databand

Soluções de integração de dados

Crie pipelines de dados resilientes, de alto desempenho e de baixo custo para suas iniciativas de IA generativa, análise de dados em tempo real, modernização de armazéns e necessidades operacionais com as soluções de integração de dados da IBM.

Conheça soluções de integração de dados

Dê o próximo passo

Conheça o IBM® DataStage, uma ferramenta de ETL (extração, transformação e carregamento) que oferece uma interface visual para projetar, desenvolver e implementar pipelines de dados. Está disponível como SaaS gerenciado na IBM® Cloud, para auto-hospedagem, e como complemento ao IBM® Cloud Pak for Data.