Início topics ELT ELT (Extrair, Carregar, Transformar)
ETL é um processo que extrai, carrega e transforma dados de várias fontes para um armazém de dados ou outro repositório de dados unificado.
Plano de fundo azul e preto
O que é ELT?

ELT, que significa "Extrair, Carregar, Transformar" é outro tipo de processo de integração de dados, semelhante à sua contraparte ETL, "Extrair, Transformar, Carregar". Esse processo move dados não processados de um sistema de origem para um recurso de destino, como um armazém de dados. Embora seja semelhante ao ETL, o ELT é uma abordagem fundamentalmente diferente ao pré-processamento de dados, que passou a ganhar mais adeptos há pouco tempo com a transição para ambientes em cloud.

Como o ELT funciona

O ELT consiste em três etapas primárias; Extrair, Carregar e Transformar. Cada uma dessas etapas é detalhada a seguir.

Extrair

Durante a extração de dados, os dados são copiados ou exportados dos locais de origem para uma área de preparação. O conjunto de dados pode consistir em muitos tipos de dados e ser proveniente de praticamente qualquer origem estruturada ou não estruturada, incluindo, mas não limitado a:

  • Servidores SQL ou  NoSQL 
  • Sistemas CRM e ERP
  • Arquivos de texto e documentos
  • E-mail
  • Páginas da web

Dito isso, geralmente é usado com dados não estruturados.

Carregar

Nesta etapa, os dados transformados são movidos da área de preparação para uma área de armazenamento de dados, como um armazém de dados ou data lake.

Para a maioria das organizações, o processo de carregamento de dados é automatizado, bem definido, contínuo e orientado a lotes. Normalmente, o ELT ocorre durante o horário comercial quando o tráfego nos sistemas de origem e o armazém de dados está em seu pico e os consumidores estão esperando para usar os dados para análise ou para outra finalidade.

Transformar

Nesta etapa, é utilizada uma abordagem schema-on-write, que aplica o esquema para os dados usando SQL ou transforma os dados, antes da análise. Esta etapa pode envolver o que se segue:

  • Filtragem, limpeza, deduplicação, validação e autenticação dos dados.
  • Executando cálculos, conversões, análise de dados ou resumos baseados nos dados brutos. Isso pode incluir tudo, desde alterar cabeçalhos de linha e coluna para consistência até converter moedas ou unidades de medida, bem como editar sequências de texto e incluir ou calcular a média de valores, o que for necessário para se adequar aos propósitos analíticos ou de BI específicos da organização.
  • Removendo, criptografando, ocultando ou de outra forma protegendo dados controlados por regulamentações governamentais ou do setor.
  • Formatação dos dados em tabelas ou tabelas unidas com base no esquema implementado no armazém.
ETL vs ELT

É possível confundir ELT com seu processo irmão conhecido por um acrônimo quase idêntico. No entanto, existem várias diferenças distintas entre ELT e ETL, que significa extrair, transformar e carregar. É um processo de integração de dados que combina dados de várias fontes de dados em um armazenamento de dados único e consistente que é carregado para um armazém de dados ou outro sistema de destino. As ferramentas ETL tradicionais foram projetadas para criar data warehousing em suporte de aplicativos de Business Intelligence (BI) e de Inteligência Artificial (IA).

ETL e ELT, quais são as diferenças?

A diferença óbvia é que o processo ELT executa a função Carregar antes da função Transformar, uma inversão da segunda e terceira etapas do processo ETL. O ELT copia ou exporta os dados dos locais de origem, mas, em vez de carregá-los em uma área de preparação para transformação, ele carrega os dados brutos diretamente no armazenamento de dados de destino para serem transformados conforme necessário. O ELT não transforma nenhum dado no trânsito.

No entanto, a ordem das etapas não é a única diferença. No ELT, o armazenamento de dados de destino pode ser um armazém de dados, mas, mais frequentemente, é um data lake, que é um armazenamento central grande projetado para manter tanto dados estruturados quanto não estruturados em grande escala.

Os data lakes são gerenciados usando uma plataforma big data (como a Apache Hadoop) ou um sistema de gerenciamento de dados noSQL distribuído. Eles podem suportar inteligência de negócios, mas, mais frequentemente, eles são criados para suportar inteligência artificial, aprendizado de máquina, análise preditiva e aplicativos orientados por dados em tempo real e fluxos de eventos.

Também existem outras diferenças entre ETL e ELT. Por exemplo, uma vez que ele transforma os dados antes de migrá-los para um repositório central, o ETL pode tornar a conformidade da privacidade de dados mais simples ou mais sistemática do que o ELT (por exemplo, se os analistas não transformarem dados sensíveis antes de precisarem usá-los, esses dados podem permanecer sem máscara no data lake). No entanto, os cientistas de dados podem preferir o ELT, que os permite testar em um "ambiente de simulação" de dados brutos e executar sua própria transformação de dados customizada para aplicativos específicos. Mas, na maioria dos casos, a opção entre ETL e ELT dependerá da opção entre recursos de negócios disponíveis e as necessidades.

Vantagens do ELT

O ELT oferece várias vantagens para os usuários que integram o processo em seus fluxos de trabalho. Vamos dar uma olhada em algumas das vantagens notáveis:

Migre dados para o destino mais rapidamente para disponibilidade mais rápida

Quando grandes quantidades de dados de fluxo são geradas, o ELT permite que esses dados sejam carregados imediatamente e os transforma após chegarem ao seu destino. Isso evita qualquer lentidão que muitas vezes pode ocorrer caso a transformação ocorra antes da função Carregar, como no ETL. Muitas vezes, decisões precisam ser tomadas em relação a esses dados, e atrasos são inaceitáveis. Um exemplo disso é o mercado de ações, que gera grandes quantidades de dados que são consumidos em tempo real. Em cenários como este, o ELT é a solução de escolha, uma vez que a transformação ocorre após os dados chegarem ao seu destino.

Preocupações separadas

Como os dados são transformados quando chegam ao seu destino, o ELT permite que o destinatário dos dados controle a manipulação de dados. Com o ELT, o desacoplamento das etapas de transformação e de carregamento garante que um erro de programação ou outro erro na etapa de transformação não afete outra etapa.

Evite problemas de ajuste de escala de servidor

O ELT utiliza o poder e o tamanho do armazém de dados para permitir a transformação, ou computação escalável, em grande escala. O armazém de dados de destino pode aumentar ou diminuir nós conforme necessário, particularmente em um cenário de nuvem em que há vários nós dentro de cada cluster e vários clusters que podem ser utilizados. Isso permite flexibilidade e escalabilidade sob demanda.

Economize

O ELT requer um servidor menos potente para a transformação de dados e aproveita os recursos já existentes no armazém. Isso resulta em economia de custo e eficiência de recursos.

Flexibilidade

O ELT possibilita o uso do repositório de destino de escolha, para flexibilidade de custo e de recursos. Armazéns de dados usam a arquitetura MPP (Massively Parallel Processing), incluindo o armazenamento colunar baseado em memória de volumes de dados. Processos de data lake que aplicam um esquema ou modelo de transformação tão logo os dados são recebidos (também denominado "schema-on-read") também são suportados. Esses processos eficientes fornecem flexibilidade para grandes quantidades de dados.

Operação contínua

A operação contínua é ideal para qualquer ambiente que requer acesso rápido aos dados. O ELT é bem adequado para dados utilizados dentro de ambientes em nuvem que frequentemente incluirão aplicativos continuamente acessados sob demanda. Da mesma forma, a transformação ELT nativa de cloud fornece a escalabilidade e a flexibilidade supramencionadas.

Desafios associados à migração de uma arquitetura ETL para uma ELT

Uma organização pode optar por fazer a transição de uma arquitetura ETL para uma arquitetura ELT. O motivo da transição pode ser uma mudança no uso de seu produto ou serviço de tal forma que uma resposta e interação em tempo real sejam necessárias, ou a quantidade de dados cresceu exponencialmente e a transformação está atrasando a etapa Carregar devido a altas demandas de processamento de volumes na infraestrutura. Uma organização também pode optar por fazer a transição do ETL para o ELT caso ela tenha migrado para a nuvem e gostaria de descarregar o processamento ou o uso de dados no local de destino mais cedo.

Em um cenário de transição, é realista esperar encontrar desafios. Sobretudo, lógica e código completamente diferentes são usados no ELT vs. ETL. Isso pode exigir uma reconfiguração completa e possivelmente uma nova infraestrutura ou um novo provedor com infraestrutura na nuvem. Além disso, com o ELT, os dados brutos são enviados para o armazém de destino. Portanto, a segurança é uma contraprestação e deve ser implementada para manter os dados seguros.

O passado e o futuro do ELT

ELT não é uma nova tecnologia. As tabelas de preparação eram usadas anteriormente para migrar dados para um armazém para processamento e transformação, muitas vezes usando scripts SQL. Os scripts SQL são codificados permanentemente e, portanto, sujeitos a potenciais erros de programação. Com o uso do SQL, os clientes tiveram que escolher entre a execução nativa do armazém usando scripts SQL e a programação declarativa, também conhecida como autoria declarativa. A autoria declarativa fornece os benefícios de ambientes de armazém de dados mais modernos e baseados em nuvem por meio da criação de código que descreve o que o programa deve alcançar em vez de como ele irá realizar. Este processo evita os erros de programação inerentes em outros processos, principalmente quando a transformação ocorre antes da função Carregar.

Casos de uso

O ELT é normalmente usado em ambientes de uso de dados de alto volume ou em tempo real. Exemplos específicos são:

  • Organizações que necessitam de acesso instantâneo. Exemplos incluem bolsas de valores ou distribuidores atacadistas em grande escala de estoques, componentes industriais e outros materiais que necessitam de acesso em tempo real a dados atuais para acesso imediato à inteligência de negócios.
  • Organizações com grandes volumes de dados. Exemplos incluem sistemas meteorológicos, como serviços meteorológicos que coletam, agrupam e usam grandes quantidades de dados regularmente. Empresas com grandes volumes de transações também podem se enquadrar nessa categoria. Uma organização, como um laboratório de astronomia com telescópios extremamente grandes gera uma grande quantidade de dados que precisarão ser agrupados e analisados. Pode haver sobreposição entre as duas categorias, uma vez que existem muitos setores que produzem e usam uma grande quantidade de dados e necessitam de acesso em tempo real a esses dados.
Soluções relacionadas
IBM Cloud Pak for Data

O IBM Cloud Pak for Data é uma plataforma de dados aberta e extensível que fornece uma malha de dados para disponibilizar todos os dados para IA e análise de dados, em qualquer cloud.

Conheça o IBM Cloud Pak for Data
IBM DataOps

As inovações da IA mostram como os dados são valiosos. Com as soluções de DataOps, você organiza seus dados e se prepara para um mundo com IA e multicloud.

Explore o IBM DataOps
Integração de dados

A integração de dados permite transformar dados estruturados e não estruturados e usá-los em qualquer sistema em uma plataforma de big data escalável.

Conheça a integração de dados
Dê o próximo passo

A IBM oferece vários serviços e soluções de integração de dados projetados para oferecer suporte a um pipeline de dados pronto para negócios e fornecer à sua empresa as ferramentas necessárias para escalar com eficiência. A IBM, líder em integração de dados, oferece às empresas a confiança de que precisam ao gerenciar projetos de big data, aplicativos e tecnologia de aprendizado de máquina. Com plataformas líderes do setor, como o IBM Cloud Pak® for Data, as organizações podem modernizar seus processos de DataOps e, ao mesmo tempo, usar as melhores ferramentas de virtualização para atingir a velocidade e a escalabilidade de que seus negócios precisam agora e no futuro.

Conheça o IBM® Cloud Pak for Data