Uma plataforma de dados moderna é um conjunto de produtos de software nativos da nuvem que possibilitam a coleta, limpeza, transformação e análise dos dados de uma organização para auxiliar na melhoria do processo de tomada de decisão.
Os pipelines de dados de hoje se tornaram cada vez mais complexos e importantes para análise de dados e tomada de decisões orientadas por dados. Uma plataforma de dados moderna estabelece confiança nesses dados ao coletá-los, armazená-los, processá-los e transformá-los de maneira que garanta informações precisas e pontuais, reduza os silos de dados, possibilite o autoatendimento e aprimore a qualidade de dados.
Uma plataforma de dados moderna, também conhecida como stack de dados moderna, é composta por cinco camadas básicas críticas: armazenamento e processamento de dados, ingestão de dados, transformação de dados, business intelligence (BI) e análise e observabilidade de dados.
Os dois princípios fundamentais que governam as plataformas de dados modernas são:
Veja como a observabilidade proativa de dados pode ajudá-lo a detectar incidentes de dados mais rapidamente e resolvê-los com eficiência.
Assine a newsletter da IBM
Uma plataforma de dados moderna é suportada não apenas pela tecnologia, mas também pelo DevOps, DataOps e filosofias ágeis. Embora DevOps e DataOps tenham propósitos completamente diferentes, cada um é semelhante à filosofia ágil, que é projetada para acelerar os ciclos de trabalho do projeto.
O DevOps se concentra no desenvolvimento de produtos, enquanto o DataOps se concentra na criação e manutenção de um sistema de arquitetura de dados distribuídos que agrega valor aos negócios a partir dos dados.
Ágil é uma filosofia de desenvolvimento de software que promove velocidade e eficiência, mas sem eliminar o fator "humano". Ele enfatiza as conversas pessoais como forma de maximizar as comunicações e, ao mesmo tempo, enfatiza a automação como forma de minimizar os erros.
A primeira camada fundamental de uma plataforma de dados moderna é o armazenamento e processamento.
Os sistemas modernos de armazenamento de dados tem o foco no uso eficiente de dados, o que inclui onde armazenar dados e como processá-los. Os dois formatos de armazenamento mais populares são data warehouses e data lakes, embora data lakehouses e malha de dados estejam ganhando popularidade.
O data warehouse
Os data warehouses são projetados para gerenciar dados estruturados com casos de uso claros e definidos.
A origem dos data warehouses remonta aos anos 1990, quando bancos de dados eram empregados para o armazenamento de informações. Esses data warehouses estavam no local e tinham capacidade de armazenamento muito limitada.
Por volta de 2013, os data warehouses começaram a migrar para a nuvem, onde a escalabilidade se tornou subitamente possível. Os data warehouses baseados na nuvem continuam sendo o sistema de armazenamento de dados preferido, devido à otimização do poder de processamento e da velocidade de processamento.
Para que um data warehouse funcione adequadamente, os dados precisam ser coletados, reformatados, limpos e carregados no warehouse. Qualquer dado que não possa ser reformatado pode ser perdido.
O data lake
Em janeiro de 2008, o Yahoo disponibilizou o Hadoop (que se baseia em NoSQL) como um projeto de código aberto para a Apache Software Foundation. Os data lakes foram originalmente desenvolvidos no Hadoop, foram escaláveis e projetados para uso no local. Infelizmente, o ecossistema Hadoop é extremamente complexo e difícil de usar. Os data lakes começaram a migrar para a nuvem em torno de 2015, tornando-os muito mais baratos e mais fáceis de usar.
Originalmente, os data lakes foram projetados para coletar dados brutos não estruturados sem aplicar esquemas (formatos), de modo que os pesquisadores pudessem obter mais insights de uma ampla gama de dados. Devido a problemas na análise de informações antigas, imprecisas ou inúteis, os data lakes podem se transformar em "swamps de dados" menos eficazes.
Uma arquitetura típica de data lake pode ter dados armazenados em um Object Storage, como o Amazon S3 da AWS, juntamente com uma ferramenta como o Spark para processar os dados.
O data lakehouse
Os lakehouses de dados combinam a flexibilidade, eficiência de custos e capacidade de escalabilidade dos data lakes com as transações ACID (atomicidade, consistência, isolamento e durabilidade) e recursos de gerenciamento de dados dos data warehouses.(ACID é um acrônimo para o conjunto de 4 propriedades chave que definem uma transação: atomicidade, consistência, isolamento e durabilidade.)
Os lakehouses de dados oferecem suporte a BI (Business Intelligence) e aprendizado de máquina, sendo uma de suas principais vantagens o uso de camadas de metadados. Os data lakehouses também usam um novo mecanismo de consulta, projetado para pesquisas SQL de alto desempenho.
Malha de dados
Ao contrário de data warehouses, data lakes e data lakehouses, a abordagem de malha de dados descentraliza a responsabilidade sobre os dados. Com esse modelo arquitetônico, um domínio específico (por exemplo, parceiro de negócios ou departamento) não detém a propriedade de seus dados, mas os compartilha livremente com outros domínios. Isso significa que todos os dados dentro do sistema de malha de dados devem manter um formato uniforme.
Os sistemas de malha de dados podem ser úteis para empresas que oferecem suporte a vários domínios de dados. Dentro do design de malha de dados, existe uma camada de governança de dados e uma camada de observabilidade. Há também uma camada universal de interoperabilidade.
A malha de dados pode ser útil para organizações que estão se expandindo rapidamente e precisam de escalabilidade para armazenar dados.
O processo de inserir dados em um sistema de armazenamento para uso futuro é chamado de ingestão de dados, que é a segunda camada de uma plataforma de dados moderna.
Em termos simples, ingestão de dados significa mover dados de várias fontes para um local central. A partir daí, os dados podem ser empregados para fins de manutenção de registros ou para processamento e análise adicionais, com base na disponibilidade de dados acessíveis, consistentes e precisos.
As organizações tomam decisões de negócios usando os dados de sua infraestrutura analítica. O valor desses dados depende do quão bem eles são ingeridos e integrados. Se houver problemas durante o processo de ingestão, como conjuntos de dados desatualizados ou ausentes, todas as etapas do processo de análise sofrerão. Isso é especialmente verdadeiro quando se trata de big data.
Modelos de processamento de dados
A ingestão de dados pode ser realizada de várias maneiras, e a forma como uma camada de ingestão de dados específica é projetada pode ser baseada em diferentes modelos de processamento. Os dados podem vir de uma variedade de fontes distintas, incluindo plataformas SaaS, dispositivos de Internet das Coisas (IoT) e dispositivos móveis. Um bom modelo de processamento de dados serve como base para uma estratégia de dados eficiente, portanto, as organizações devem determinar qual modelo é mais adequado às suas circunstâncias.
A próxima camada, transformação de dados, lida com a alteração dos valores, estrutura e formato dos dados, o que frequentemente é necessário para projetos de análise de dados. Os dados podem ser transformados antes ou depois da chegada ao seu destino de armazenamento ao usar um pipeline de dados.
Até recentemente, os modelos modernos de ingestão de dados usavam um procedimento ETL (extrair, transformar, carregar) para retirar dados de sua origem, reformatá-los e transportá-los para seu destino. Isso fez sentido quando as empresas precisavam usar sistemas de análise internos caros. Fazer o trabalho de preparação antes de entregá-lo, incluindo transformações, ajudou a reduzir os custos. Organizações que ainda usam data warehouses locais normalmente usam um processo de ETL.
Atualmente, muitas organizações preferem data warehouses baseados em nuvem (IBM, Snowflake, Google BigQuery, Microsoft Azure e outros) porque podem dimensionar recursos de computação e armazenamento conforme necessário. A escalabilidade da nuvem permite que as transformações de pré-carregamento sejam ignoradas, para que os dados brutos possam ser enviados para o data warehouse mais rapidamente. Os dados são transformados depois de chegarem usando um modelo ELT (extrair, carregar, transformar), normalmente ao responder a uma consulta.
Neste ponto, os dados podem ser traduzidos para um formato SQL e executados dentro do data warehouse durante a pesquisa.
A transformação de dados tem várias vantagens:
A quarta camada da plataforma de dados moderna é o business intelligence (BI) e as ferramentas de análise.
Em 1865, Richard Millar Devens apresentou a expressão "inteligência comercial" na "Cyclopædia of Commercial and Business Anecdotes". Ele utilizou o termo para descrever como o banqueiro Sir Henry Furnese lucrou com informações ao coletá-las e utilizá-las antes de sua concorrência.
Atualmente, uma grande quantidade de informações comerciais é obtida por meio da análise de negócios, bem como da análise de dados. Ferramentas de BI (Business Intelligence) e análise de dados podem ser utilizadas para acessar, analisar e transformar dados em visualizações que fornecem insights compreensíveis. Fornecer informações detalhadas a pesquisadores e cientistas de dados pode ajudá-los a tomar decisões táticas e estratégicas nos negócios.
A última das cinco camadas fundamentais de uma plataforma de dados moderna é a observabilidade de dados.
A observabilidade dos dados descreve a capacidade de observar e observar o estado dos dados e sua integridade. Ele abrange várias atividades e tecnologias que, quando combinadas, permitem que o usuário identifique e resolva dificuldades com os dados quase em tempo real.
A observabilidade permite que as equipes de engenharia de dados respondam a perguntas específicas sobre o que está acontecendo nos bastidores de sistemas extremamente distribuídos. Ele pode mostrar onde os dados estão se movendo lentamente e o que está quebrado.
Gerentes, equipes de dados e várias outras partes interessadas podem receber alertas sobre possíveis problemas para que possam resolvê-los de forma proativa. Embora o recurso de previsibilidade possa ser útil, ele não garante que detectará todos os problemas.
Para tornar a observabilidade de dados útil, ela precisa incluir estes recursos:
Para muitas organizações, a observabilidade é compartimentalizada, o que significa que apenas determinados departamentos têm acesso aos dados. Filosoficamente, um sistema de malha de dados resolve isso ao exigir que os dados sejam compartilhados, o que geralmente é desencorajado em sistemas tradicionais de armazenamento e processamento.
Além das cinco camadas fundamentais acima, outras camadas que são comuns em um stack de dados moderna incluem:
Dados inacessíveis são essencialmente dados inúteis. A descoberta de dados ajuda a garantir que eles não fiquem parados. Trata-se de coletar, avaliar e explorar dados de diferentes fontes para ajudar os líderes de negócios a entender as tendências e os padrões encontrados nos dados. Ele pode limpar e preparar dados e, às vezes, está associado à BI, pois pode reunir dados isolados para análise.
As plataformas de dados modernas enfatizam a governança e a segurança de dados para proteger informações sensíveis, garantir conformidade regulatória e gerenciar a qualidade dos dados. Ferramentas que são compatíveis com este controle de acesso de dados de feição da camada, criptografia, auditoria e rastreamento de linhagem de dados.
Catalogação de dados e gerenciamento de metadados são cruciais para descobrir e entender os ativos de dados disponíveis. Isso ajuda os usuários a encontrar os dados certos para sua análise.
Em algumas plataformas de dados modernas, encontramos recursos de aprendizado de máquina e IA que permitem análises preditivas, detecção de anomalias e tomadas de decisão automáticas.
O IBM® Databand® é um software de observabilidade para pipelines e warehouses de dados que coleta metadados automaticamente para criar linhas de base históricas, detectar anomalias e fazer triagem de alertas para corrigir problemas de qualidade de dados.
Com suporte para os padrões ETL e ELT, o IBM® DataStage® oferece integração de dados flexível e quase em tempo real, tanto no local quanto na nuvem.
Um catálogo de dados inteligente para a era da IA, o IBM® O Knowledge Catalog permite acessar, organizar, categorizar e compartilhar dados e ativos de conhecimento, independentemente de onde estejam armazenados.
Faça uma análise detalhada para compreender o que é a observabilidade de dados, por que ela é importante, como evoluiu junto com os sistemas de dados modernos e as melhores práticas para implementar um framework de observabilidade de dados.
Entenda o que é ELT, como o processo funciona, qual a diferença em relação ao ETL, os desafios e limitações envolvidos e as melhores práticas para implementar pipelines de ELT.
Durante anos, as cadeias de suprimentos das empresas se apoiaram nas bases instáveis de dados desconectados, não verificáveis e inoportunos. Dados limpos e conectados são a base das operações da cadeia de suprimentos de última geração.
Saiba como a ciência de dados pode fornecer insights de negócios e acelerar a transformação digital e permitir a tomada de decisões baseada em dados.