O que é um pipeline de dados?

Atualizado: 14 de junho de 2024
Colaborador: Cole Stryker

Um pipeline de dados é um método no qual dados brutos são ingeridos de várias fontes de dados, transformados e, em seguida, transferidos para um armazenamento de dados, como um data lake ou data warehouse, para análise.

Antes de os dados entrarem em um repositório de dados, eles geralmente passam por algum processamento de dados. Isso inclui transformações de dados, como filtragem, mascaramento e agregações, que garantem a integração e padronização de dados apropriadas. Isso é particularmente importante quando o destino do conjunto de dados é um banco de dados relacional. Esse tipo de repositório de dados tem um esquema definido que requer alinhamento, ou seja, correspondência de colunas e tipos de dados, para atualizar os dados existentes com novos dados. 

Como o nome sugere, os pipelines de dados funcionam como o "encaminhamento" para os projetos de ciência de dados ou dashboards de business intelligence. Os dados podem ser obtidos em uma grande variedade de lugares – APIs, bancos de dados SQL e NoSQL, arquivos, etc. – mas, infelizmente, esses dados geralmente não estão prontos para uso imediato. Durante o fornecimento, a linhagem de dados é rastreada para documentar a relação entre os dados corporativos em várias aplicações comerciais e de TI, por exemplo, onde os dados estão atualmente e como são armazenados em um ambiente, como no local, em um data lake ou em um data warehouse.

As tarefas de preparação de dados geralmente recaem sobre os ombros dos cientistas ou engenheiros de dados, que estruturam os dados para atender às necessidades dos casos de uso comercial e lidar com grandes quantidades de dados. O tipo de processamento de dados que um pipeline de dados exige geralmente é determinado por meio de uma combinação de análise exploratória de dados e requisitos de negócios definidos. Depois que os dados tiverem sido devidamente filtrados, mesclados e resumidos, eles poderão ser armazenados e disponibilizados para uso. Pipelines de dados bem organizados fornecem a base para uma série de projetos de dados; isso pode incluir análises exploratórias de dados, visualizações de dados e tarefas de aprendizado de máquina.

Agora disponível: watsonx.data

Amplie as cargas de trabalho de IA para todos os seus dados, em qualquer lugar.

Tipos de pipelines de dados

Existem vários tipos principais de pipelines de dados, cada um apropriado para tarefas específicas em plataformas específicas.

Processamento em lote

O desenvolvimento do processamento em lote foi uma etapa crítica na criação de infraestruturas de dados confiáveis e escaláveis. No 2004, o MapReduce, um algoritmo de processamento em lote, foi patenteado e posteriormente integrado a sistemas de código aberto, como Hadoop, CouchDB e MongoDB.

Como o nome indica, o processamento em lote carrega "lotes" de dados em um repositório durante intervalos de tempo definidos, que normalmente são programados fora do horário de pico comercial. Dessa forma, outras cargas de trabalho não são afetadas, uma vez que os trabalhos de processamento em lote tendem a trabalhar com grandes volumes de dados, o que pode sobrecarregar o sistema geral. O processamento em lote geralmente é o pipeline de dados ideal quando não há uma necessidade imediata de analisar um conjunto de dados específico (por exemplo, contabilidade mensal) e está mais associado ao processo de integração de dados ETL, que significa "extrair, transformar e carregar."

Os trabalhos de processamento em lote formam um fluxo de trabalho de comandos sequenciados, em que a produção de um comando se torna o input do próximo comando. Por exemplo, um comando pode iniciar a ingestão de dados, o próximo comando pode desencadear a filtragem de colunas específicas e o comando subsequente pode lidar com a agregação. Essa série de comandos continuará até que a qualidade dos dados seja completamente transformada e reescrita em um repositório de dados.

Dados de streaming

Diferentemente do processamento em lote, os pipelines de dados de streaming, também conhecidos como arquiteturas orientadas por eventos, processam continuamente os eventos gerados por várias fontes, como sensores ou interações do usuário em um aplicativo. Os eventos são processados e analisados e, em seguida, armazenados em bancos de dados ou enviados para uma análise mais aprofundada.

Os dados de streaming são aproveitados quando é necessário que os dados sejam atualizados continuamente. Por exemplo, as aplicações ou sistemas de ponto de venda precisam de dados em tempo real para atualizar o inventário e o histórico de vendas dos seus produtos; dessa forma, os vendedores podem informar aos consumidores se um produto está em estoque ou não. Uma única ação, como a venda de um produto, é considerada um "evento", e os eventos relacionados, como a adição de um item ao carrinho, geralmente são agrupados como um "tópico" ou "fluxo". Esses eventos são então transportados por meio de sistemas de mensagens ou intermediadores de mensagens, como a oferta de código aberto Apache Kafka. 

Como os eventos de dados são processados logo após a ocorrência, os sistemas de processamento de streaming têm latência menor do que os sistemas em lote, mas não são considerados tão confiáveis quanto os sistemas de processamento em lote, pois as mensagens podem ser descartadas involuntariamente ou passar muito tempo na fila. Os intermediadores de mensagens ajudam a lidar com essa preocupação por meio de confirmações, em que um consumidor confirma o processamento da mensagem ao intermediador para removê-la da fila.

Comece a usar o IBM Cloud Pak for Data

Pipelines de integração de dados

Os pipelines de integração de dados se concentram na mesclagem de dados de várias fontes em uma única exibição unificada. Esses pipelines geralmente envolvem processos de extração, transformação e carregamento (ETL) que limpam, enriquecem ou modificam dados brutos antes de armazená-los em um repositório centralizado, como um data warehouse ou data lake. Os pipelines de integração de dados são essenciais para lidar com sistemas díspares que geram formatos ou estruturas incompatíveis. Por exemplo, uma conexão pode ser adicionada ao Amazon S3 (Amazon Simple Storage Service) – um serviço oferecido pelo Amazon Web Services (AWS) que fornece armazenamento de objetos por meio de uma interface de serviço da web.

Pipelines de dados nativos da nuvem

Uma plataforma de dados moderna inclui um pacote de produtos de software nativos da nuvem que permitem a coleta, limpeza, transformação e análise dos dados de uma organização para ajudar a melhorar a tomada de decisões. Os pipelines de dados atuais estão se tornando cada vez mais complexos e importantes para a análise de dados e a tomada de decisões baseadas em dados. Uma plataforma de dados moderna gera confiança nesses dados por meio da ingestão, armazenamento, processamento e transformação de forma a garantir informações precisas e oportunas, reduzir o silo de dados, permitir o autoatendimento e melhorar a qualidade dos dados.

Arquitetura de pipeline de dados

Três etapas principais compõem a arquitetura de um pipeline de dados. 

1. Ingestão de dados: os dados são coletados de várias fontes, incluindo plataformas de software como serviço (SaaS), dispositivos de internet das coisas (IoT) e dispositivos móveis, e várias estruturas de dados, tanto de dados estruturados quanto não estruturados. Nos dados de streaming, essas fontes de dados brutos são normalmente conhecidas como produtores, editores ou remetentes. Embora as empresas possam optar por extrair os dados somente quando estiverem prontas para processá-los, é uma prática recomendável colocar primeiro os dados brutos em um provedor de data warehouse em nuvem. Dessa forma, a empresa pode atualizar quaisquer dados históricos se precisar fazer ajustes nos trabalhos de processamento de dados. Durante esse processo de ingestão de dados, várias validações e verificações podem ser realizadas a fim de garantir a consistência e precisão dos dados.

2. Transformação de dados: durante esta etapa, uma série de trabalhos são executados para processar os dados no formato exigido pelo repositório de dados de destino. Esses trabalhos incorporam automação e governança para fluxos de trabalho repetitivos, como relatórios comerciais, garantindo que os dados sejam limpos e transformados de forma consistente.  Por exemplo, um fluxo de dados pode vir em um formato JSON aninhado, e o estágio de transformação de dados terá como objetivo desenrolar esse JSON para extrair os principais campos para análise.

3. Armazenamento de dados: os dados transformados são então armazenados em um repositório de dados, onde podem ser expostos a diversos stakeholders. Nos dados de streaming, esses dados transformados são normalmente conhecidos como consumidores, assinantes ou destinatários.  

Pipeline de dados versus pipeline ETL

Você pode descobrir que alguns termos, como pipeline de dados e pipeline ETL, são usados de forma intercambiável nas conversas. No entanto, você deve pensar em um pipeline ETL como uma subcategoria de pipelines de dados. Os dois tipos de pipelines se distinguem por três características principais:

Os pipelines ETL seguem uma sequência específica. Como a abreviação indica, eles extraem os dados, transformam os dados e, em seguida, carregam e armazenam os dados em um repositório de dados. Nem todos os pipelines de dados precisam seguir essa sequência. De fato, os pipelines ELT (extrair, carregar, transformar) se tornaram mais populares com o advento das ferramentas nativas da nuvem, em que os dados podem ser gerados e armazenados em várias fontes e plataformas. Embora a ingestão de dados ainda ocorra primeiro com esse tipo de pipeline, todas as transformações são aplicadas depois que os dados são carregados no data warehouse baseado em nuvem.  
Os pipelines ETL também tendem a implicar o uso de processamento em lote, mas, como observado acima, o escopo dos pipelines de dados é mais amplo. Eles também podem incluir o processamento de fluxo. 
Por fim, embora improvável, os pipelines de dados como um todo não precisam necessariamente passar por uma transformação de dados, como acontece com os pipelines ETL. É raro ver um pipeline de dados que não utiliza transformações para facilitar a análise de dados.

Casos de uso de pipelines de dados

À medida que o big data continua crescendo, o gerenciamento de dados se torna uma prioridade cada vez maior. Embora os pipelines de dados sirvam a várias funções, as seguintes são para aplicação comercial:

Análise exploratória de dados: os cientistas de dados usam a análise exploratória de dados (EDA) para analisar e investigar conjuntos de dados e resumir suas principais características, muitas vezes empregando métodos de visualização de dados. Ela ajuda a determinar a melhor maneira de manipular fontes de dados para obter as respostas necessárias, facilitando para os cientistas de dados descobrir padrões, identificar anomalias, testar uma hipótese ou verificar suposições.
Visualização de dados: para representar os dados por meio de gráficos comuns, podem ser criadas visualizações de dados como gráficos, infográficos e até animações. Essas exibições visuais de informações comunicam relações de dados complexas e insights baseados em dados de uma maneira fácil de entender.
Aprendizado de máquina: um ramo da inteligência artificial (IA) e da ciência da computação, o aprendizado de máquina se concentra no uso de dados e algoritmos para imitar o modo como os humanos aprendem, melhorando gradualmente sua precisão. Por meio do uso de métodos estatísticos, os algoritmos são treinados para fazer classificações ou previsões, descobrindo insights importantes nos projetos de mineração de dados.
Observabilidade de dados: para verificar a precisão e a segurança dos dados que estão sendo usados, a observabilidade de dados aplica uma variedade de ferramentas para monitoramento, rastreamento e alerta sobre eventos esperados e anomalias.

Soluções IBM

IBM DataStage

IBM DataStage é uma ferramenta líder de mercado em integração de dados que ajuda a projetar, desenvolver e executar tarefas que migram e transformam dados.

Explore o IBM DataStage

Replicação de dados da IBM

O IBM Data Replication é um software de sincronização de dados que mantém múltiplos armazenamentos de dados sincronizados quase em tempo real. O IBM Data Replication é uma solução de baixo impacto que rastreia apenas as alterações de dados capturadas pelo registro.

Explore o IBM Data Replication

IBM Databand

O IBM Databand é um software de observabilidade para pipelines de dados e warehouses que coleta metadados automaticamente para criar linhas de base históricas, detectar anomalias, fazer a triagem de alertas e monitorar o funcionamento e a confiabilidade dos gráficos acíclicos direcionados (DAGs) do Apache Airflow.

Explore o IBM Databand

IBM watsonx.data

O IBM watsonx.data é um armazenamento de dados adequado ao propósito, desenvolvido em uma arquitetura de data lakehouse aberta para escalar análises de dados e cargas de trabalho de IA, para todos os seus dados, em qualquer lugar.

Explore o IBM Watsonx.data

Recursos

Crie uma base de dados sólida para IA

Leia o smartpaper sobre como criar uma base de dados robusta para IA, concentrando-se em três áreas principais de gerenciamento de dados: acesso, governança, privacidade e conformidade.

State Bank of India

Saiba como o State Bank of India usou várias soluções IBM, juntamente com a metodologia IBM Garage™, para desenvolver uma plataforma bancária online abrangente.

Dê o próximo passo

IBM DataStage é uma ferramenta líder de mercado em integração de dados que permite projetar, desenvolver e executar tarefas para mover e transformar dados. No seu núcleo, o DataStage suporta padrões de extração, transformação e carregamento (ETL) e de extração, carregamento e transformação (ELT).

Conheça o DataStage

Faça um teste gratuito