O que é uma plataforma de dados moderna?

Uma plataforma de dados moderna é um conjunto de produtos de software nativos da nuvem que possibilitam a coleta, limpeza, transformação e análise dos dados de uma organização para auxiliar na melhoria do processo de tomada de decisão.

Os pipelines de dados de hoje se tornaram cada vez mais complexos e importantes para análise de dados e tomada de decisões orientadas por dados. Uma plataforma de dados moderna estabelece confiança nesses dados ao coletá-los, armazená-los, processá-los e transformá-los de maneira que garanta informações precisas e pontuais, reduza os silos de dados, possibilite o autoatendimento e aprimore a qualidade de dados.

Uma plataforma de dados moderna, também conhecida como stack de dados moderna, é composta por cinco camadas básicas críticas: armazenamento e processamento de dados, ingestão de dados, transformação de dados, business intelligence (BI) e análise e observabilidade de dados.

Os dois princípios fundamentais que governam as plataformas de dados modernas são:

Disponibilidade: os dados devem estar prontamente disponíveis em um data lake ou data warehouses, que separam armazenamento e computação. A divisão dessas funções possibilita o armazenamento de grandes quantidades de dados de forma relativamente barata.
Elasticidade: as funções de computação são baseadas na nuvem, o que permite escalabilidade automática.Por exemplo, se a maioria dos dados e análises for consumida em um determinado dia e horário, o processamento poderá ser automaticamente ampliado para proporcionar uma melhor experiência ao cliente e reduzido à medida que as necessidades de carga de trabalho diminuírem.

Agende hoje mesmo uma demonstração do IBM Databand

Veja como a observabilidade proativa de dados pode ajudá-lo a detectar incidentes de dados mais rapidamente e resolvê-los com eficiência.

Conteúdo relacionado

Assine a newsletter da IBM

Filosofias modernas da plataforma de dados

Uma plataforma de dados moderna é suportada não apenas pela tecnologia, mas também pelo DevOps, DataOps e filosofias ágeis. Embora DevOps e DataOps tenham propósitos completamente diferentes, cada um é semelhante à filosofia ágil, que é projetada para acelerar os ciclos de trabalho do projeto.

O DevOps se concentra no desenvolvimento de produtos, enquanto o DataOps se concentra na criação e manutenção de um sistema de arquitetura de dados distribuídos que agrega valor aos negócios a partir dos dados.

Ágil é uma filosofia de desenvolvimento de software que promove velocidade e eficiência, mas sem eliminar o fator "humano". Ele enfatiza as conversas pessoais como forma de maximizar as comunicações e, ao mesmo tempo, enfatiza a automação como forma de minimizar os erros.

Armazenamento e processamento de dados

A primeira camada fundamental de uma plataforma de dados moderna é o armazenamento e processamento.

Os sistemas modernos de armazenamento de dados tem o foco no uso eficiente de dados, o que inclui onde armazenar dados e como processá-los. Os dois formatos de armazenamento mais populares são data warehouses e data lakes, embora data lakehouses e malha de dados estejam ganhando popularidade.

O data warehouse

Os data warehouses são projetados para gerenciar dados estruturados com casos de uso claros e definidos.

A origem dos data warehouses remonta aos anos 1990, quando bancos de dados eram empregados para o armazenamento de informações. Esses data warehouses estavam no local e tinham capacidade de armazenamento muito limitada.

Por volta de 2013, os data warehouses começaram a migrar para a nuvem, onde a escalabilidade se tornou subitamente possível. Os data warehouses baseados na nuvem continuam sendo o sistema de armazenamento de dados preferido, devido à otimização do poder de processamento e da velocidade de processamento.

Para que um data warehouse funcione adequadamente, os dados precisam ser coletados, reformatados, limpos e carregados no warehouse. Qualquer dado que não possa ser reformatado pode ser perdido.

O data lake

Em janeiro de 2008, o Yahoo disponibilizou o Hadoop (que se baseia em NoSQL) como um projeto de código aberto para a Apache Software Foundation. Os data lakes foram originalmente desenvolvidos no Hadoop, foram escaláveis e projetados para uso no local. Infelizmente, o ecossistema Hadoop é extremamente complexo e difícil de usar. Os data lakes começaram a migrar para a nuvem em torno de 2015, tornando-os muito mais baratos e mais fáceis de usar.

Originalmente, os data lakes foram projetados para coletar dados brutos não estruturados sem aplicar esquemas (formatos), de modo que os pesquisadores pudessem obter mais insights de uma ampla gama de dados. Devido a problemas na análise de informações antigas, imprecisas ou inúteis, os data lakes podem se transformar em "swamps de dados" menos eficazes.

Uma arquitetura típica de data lake pode ter dados armazenados em um Object Storage, como o Amazon S3 da AWS, juntamente com uma ferramenta como o Spark para processar os dados.

O data lakehouse

Os lakehouses de dados combinam a flexibilidade, eficiência de custos e capacidade de escalabilidade dos data lakes com as transações ACID (atomicidade, consistência, isolamento e durabilidade) e recursos de gerenciamento de dados dos data warehouses.(ACID é um acrônimo para o conjunto de 4 propriedades chave que definem uma transação: atomicidade, consistência, isolamento e durabilidade.)

Os lakehouses de dados oferecem suporte a BI (Business Intelligence) e aprendizado de máquina, sendo uma de suas principais vantagens o uso de camadas de metadados. Os data lakehouses também usam um novo mecanismo de consulta, projetado para pesquisas SQL de alto desempenho.

Malha de dados

Ao contrário de data warehouses, data lakes e data lakehouses, a abordagem de malha de dados descentraliza a responsabilidade sobre os dados. Com esse modelo arquitetônico, um domínio específico (por exemplo, parceiro de negócios ou departamento) não detém a propriedade de seus dados, mas os compartilha livremente com outros domínios. Isso significa que todos os dados dentro do sistema de malha de dados devem manter um formato uniforme.

Os sistemas de malha de dados podem ser úteis para empresas que oferecem suporte a vários domínios de dados. Dentro do design de malha de dados, existe uma camada de governança de dados e uma camada de observabilidade. Há também uma camada universal de interoperabilidade.

A malha de dados pode ser útil para organizações que estão se expandindo rapidamente e precisam de escalabilidade para armazenar dados.

Ingestão de dados

O processo de inserir dados em um sistema de armazenamento para uso futuro é chamado de ingestão de dados, que é a segunda camada de uma plataforma de dados moderna.

Em termos simples, ingestão de dados significa mover dados de várias fontes para um local central. A partir daí, os dados podem ser empregados para fins de manutenção de registros ou para processamento e análise adicionais, com base na disponibilidade de dados acessíveis, consistentes e precisos.

As organizações tomam decisões de negócios usando os dados de sua infraestrutura analítica. O valor desses dados depende do quão bem eles são ingeridos e integrados. Se houver problemas durante o processo de ingestão, como conjuntos de dados desatualizados ou ausentes, todas as etapas do processo de análise sofrerão. Isso é especialmente verdadeiro quando se trata de big data.

Modelos de processamento de dados

A ingestão de dados pode ser realizada de várias maneiras, e a forma como uma camada de ingestão de dados específica é projetada pode ser baseada em diferentes modelos de processamento. Os dados podem vir de uma variedade de fontes distintas, incluindo plataformas SaaS, dispositivos de Internet das Coisas (IoT) e dispositivos móveis. Um bom modelo de processamento de dados serve como base para uma estratégia de dados eficiente, portanto, as organizações devem determinar qual modelo é mais adequado às suas circunstâncias.

Processamento em lote é a forma mais comum de ingestão de dados, embora não seja projetado para processamento em tempo real. Em vez disso, coleta e agrupa dados de origem em lotes, que são enviados para o destino. O processamento em lote pode ser iniciado usando uma programação simples ou ativado quando houver determinadas condições predeterminadas. Ele é normalmente usado quando os dados em tempo real não são necessários, porque exigem menos trabalho e são mais baratos do que o processamento em tempo real.
Processamento em tempo real (também chamado de streaming ou processamento de fluxo) não agrupa dados. Em vez disso, os dados são obtidos, transformados e carregados assim que são reconhecidos. O processamento em tempo real é mais caro porque exige monitoramento constante das fontes de dados e aceita automaticamente novas informações.

Transformação de dados

A próxima camada, transformação de dados, lida com a alteração dos valores, estrutura e formato dos dados, o que frequentemente é necessário para projetos de análise de dados. Os dados podem ser transformados antes ou depois da chegada ao seu destino de armazenamento ao usar um pipeline de dados.

Até recentemente, os modelos modernos de ingestão de dados usavam um procedimento ETL (extrair, transformar, carregar) para retirar dados de sua origem, reformatá-los e transportá-los para seu destino. Isso fez sentido quando as empresas precisavam usar sistemas de análise internos caros. Fazer o trabalho de preparação antes de entregá-lo, incluindo transformações, ajudou a reduzir os custos. Organizações que ainda usam data warehouses locais normalmente usam um processo de ETL.

Atualmente, muitas organizações preferem data warehouses baseados em nuvem (IBM, Snowflake, Google BigQuery, Microsoft Azure e outros) porque podem dimensionar recursos de computação e armazenamento conforme necessário. A escalabilidade da nuvem permite que as transformações de pré-carregamento sejam ignoradas, para que os dados brutos possam ser enviados para o data warehouse mais rapidamente. Os dados são transformados depois de chegarem usando um modelo ELT (extrair, carregar, transformar), normalmente ao responder a uma consulta.

Neste ponto, os dados podem ser traduzidos para um formato SQL e executados dentro do data warehouse durante a pesquisa.

A transformação de dados tem várias vantagens:

Usabilidade: Padronizar os dados e organizá-los na estrutura adequada permite que sua equipe de engenharia de dados gere valor comercial a partir do que, de outra forma, seriam dados inutilizáveis e não analisados.

Qualidade dos dados: transformar dados brutos ajuda a identificar e corrigir erros de dados, inconsistências e valores ausentes, levando a dados mais limpos e precisos.
Melhor organização: dados transformados são mais fáceis de processar tanto para pessoas quanto para computadores.

Inteligência empresarial e funções analíticas

A quarta camada da plataforma de dados moderna é o business intelligence (BI) e as ferramentas de análise.

Em 1865, Richard Millar Devens apresentou a expressão "inteligência comercial" na "Cyclopædia of Commercial and Business Anecdotes". Ele utilizou o termo para descrever como o banqueiro Sir Henry Furnese lucrou com informações ao coletá-las e utilizá-las antes de sua concorrência.

Atualmente, uma grande quantidade de informações comerciais é obtida por meio da análise de negócios, bem como da análise de dados. Ferramentas de BI (Business Intelligence) e análise de dados podem ser utilizadas para acessar, analisar e transformar dados em visualizações que fornecem insights compreensíveis. Fornecer informações detalhadas a pesquisadores e cientistas de dados pode ajudá-los a tomar decisões táticas e estratégicas nos negócios.

Observabilidade de dados

A última das cinco camadas fundamentais de uma plataforma de dados moderna é a observabilidade de dados.

A observabilidade dos dados descreve a capacidade de observar e observar o estado dos dados e sua integridade. Ele abrange várias atividades e tecnologias que, quando combinadas, permitem que o usuário identifique e resolva dificuldades com os dados quase em tempo real.

A observabilidade permite que as equipes de engenharia de dados respondam a perguntas específicas sobre o que está acontecendo nos bastidores de sistemas extremamente distribuídos. Ele pode mostrar onde os dados estão se movendo lentamente e o que está quebrado.

Gerentes, equipes de dados e várias outras partes interessadas podem receber alertas sobre possíveis problemas para que possam resolvê-los de forma proativa. Embora o recurso de previsibilidade possa ser útil, ele não garante que detectará todos os problemas.

Para tornar a observabilidade de dados útil, ela precisa incluir estes recursos:

Monitoramento do SLA: mede os metadados do pipeline e a qualidade dos dados em relação aos padrões predefinidos.
Monitoramento: um painel detalhado que mostra as métricas operacionais de um sistema ou pipeline.
Registro: registros históricos (rastreamento, comparações, análise) de eventos são mantidos para comparação com anomalias recém-descobertas.
Alerta: as notificações são enviadas para anomalias e eventos esperados.
Análise: um processo de detecção automatizado que se adapta ao seu sistema.
Rastreamento: oferece a capacidade de rastrear métricas e eventos específicos.
Comparações: fornece um histórico de histórico e alertas de anomalia.

Para muitas organizações, a observabilidade é compartimentalizada, o que significa que apenas determinados departamentos têm acesso aos dados. Filosoficamente, um sistema de malha de dados resolve isso ao exigir que os dados sejam compartilhados, o que geralmente é desencorajado em sistemas tradicionais de armazenamento e processamento.

Outras camadas da plataforma de dados moderna

Além das cinco camadas fundamentais acima, outras camadas que são comuns em um stack de dados moderna incluem:

Descoberta de dados

Dados inacessíveis são essencialmente dados inúteis. A descoberta de dados ajuda a garantir que eles não fiquem parados. Trata-se de coletar, avaliar e explorar dados de diferentes fontes para ajudar os líderes de negócios a entender as tendências e os padrões encontrados nos dados. Ele pode limpar e preparar dados e, às vezes, está associado à BI, pois pode reunir dados isolados para análise.

Governança de dados

As plataformas de dados modernas enfatizam a governança e a segurança de dados para proteger informações sensíveis, garantir conformidade regulatória e gerenciar a qualidade dos dados. Ferramentas que são compatíveis com este controle de acesso de dados de feição da camada, criptografia, auditoria e rastreamento de linhagem de dados.

Catálogo de dados e gerenciamento de metadados

Catalogação de dados e gerenciamento de metadados são cruciais para descobrir e entender os ativos de dados disponíveis. Isso ajuda os usuários a encontrar os dados certos para sua análise.

Aprendizado de máquina e IA

Em algumas plataformas de dados modernas, encontramos recursos de aprendizado de máquina e IA que permitem análises preditivas, detecção de anomalias e tomadas de decisão automáticas.

Produtos relacionados

IBM Databand

O IBM^® Databand^® é um software de observabilidade para pipelines e warehouses de dados que coleta metadados automaticamente para criar linhas de base históricas, detectar anomalias e fazer triagem de alertas para corrigir problemas de qualidade de dados.

Explore o Databand

IBM DataStage

Com suporte para os padrões ETL e ELT, o IBM^® DataStage^® oferece integração de dados flexível e quase em tempo real, tanto no local quanto na nuvem.

Conheça o DataStage

IBM Knowledge Catalog

Um catálogo de dados inteligente para a era da IA, o IBM^® O Knowledge Catalog permite acessar, organizar, categorizar e compartilhar dados e ativos de conhecimento, independentemente de onde estejam armazenados.

Conheça o Knowledge Catalog

Recursos

O que é observabilidade de dados?

Faça uma análise detalhada para compreender o que é a observabilidade de dados, por que ela é importante, como evoluiu junto com os sistemas de dados modernos e as melhores práticas para implementar um framework de observabilidade de dados.

O que é ELT (Extrair, Carregar, Transformar)? Um guia para iniciantes

Entenda o que é ELT, como o processo funciona, qual a diferença em relação ao ETL, os desafios e limitações envolvidos e as melhores práticas para implementar pipelines de ELT.

Uma moderna plataforma de dados em nuvem é a base de todas as cadeias de suprimentos inteligentes

Durante anos, as cadeias de suprimentos das empresas se apoiaram nas bases instáveis de dados desconectados, não verificáveis e inoportunos. Dados limpos e conectados são a base das operações da cadeia de suprimentos de última geração.

O que é ciência de dados?

Saiba como a ciência de dados pode fornecer insights de negócios e acelerar a transformação digital e permitir a tomada de decisões baseada em dados.

Dê o próximo passo

Implemente hoje mesmo a observabilidade proativa de dados com o IBM Databand para saber quando há problemas de integridade de dados antes de chegarem ao conhecimento dos seus usuários.

Explore o Databand