O que é data lakehouse?

Data lakehouses buscam resolver os desafios centrais tanto de data warehouses quanto de data lakes para produzir uma solução de gerenciamento de dados mais ideal para organizações. Eles representam a próxima evolução das soluções de gerenciamento de dados no mercado.

Um data lakehouse é uma plataforma de dados que mescla os melhores aspectos dos data warehouses e data lakes em uma única solução de gerenciamento de dados. Os data warehouses tendem a ter mais desempenho do que os data lakes, mas podem ser mais caros e limitados em sua capacidade de escalar. Um data lakehouse tenta resolver isso ao aproveitar o armazenamento de objetos na nuvem para armazenar uma gama mais ampla de tipos de dados — ou seja, dados estruturados, dados não estruturados e dados semiestruturados. Ao reunir esses benefícios em uma arquitetura de dados, as equipes de dados podem acelerar o processamento de dados, pois não precisam mais usar dois sistemas de dados díspares para concluir e escalar análises mais avançadas, como o aprendizado de máquina.

Por que a governança de IA é um imperativo empresarial na ampliação da inteligência artificial empresarial

Saiba mais sobre as barreiras à adoção de IA, particularmente a falta de soluções de governança de IA e gerenciamento de riscos.

Conteúdo relacionado

Cadastre-se para receber o e-book sobre fluxos de trabalho de IA responsáveis

Data warehouse vs. data lake vs. data lakehouse

Uma vez que data lakehouses surgiram dos desafios dos data warehouses e data lakes, vale a pena definir esses diferentes repositórios de dados e entender como eles diferem.

Data warehouse

Um data warehouse coleta dados brutos de múltiplas fontes em um repositório central e os organiza em uma infraestrutura de banco de dados relacional. Esse sistema de gerenciamento de dados apoia principalmente análises de dados e aplicações de business intelligence, como relatórios corporativos. O sistema usa processos ETL para extrair, transformar e carregar dados em seu destino. No entanto, é limitado por sua ineficiência e custo, especialmente à medida que o número de fontes de dados e a quantidade de dados crescem ao longo do tempo.

Data lake

Os data lakes são comumente desenvolvidos em plataformas de big data como o Apache Hadoop. São conhecidos por seu baixo custo e flexibilidade de armazenamento, pois não possuem os esquemas predefinidos dos data warehouses tradicionais. Eles também armazenam diferentes tipos de dados, como áudio, vídeo e texto. Uma vez que os produtores de dados geram muitos dados não estruturados, essa é uma distinção importante, pois isso também possibilita mais projetos de ciência de dados e inteligência artificial (IA), o que, por sua vez, gera insights mais inovadores e melhora a tomada de decisão em uma organização. No entanto, data lakes não estão livres de seus próprios desafios. O tamanho e a complexidade dos data lakes podem exigir mais recursos técnicos, como cientistas de dados e engenheiros de dados, para navegar na quantidade de dados que armazena. Além disso, uma vez que a governança de dados é implementada mais a jusante nesses sistemas, data lakes tendem a ser mais propensos a silos de dados, que podem evoluir posteriormente para um data swamp. Quando isso acontece, o data lake pode se tornar inutilizável.

Data lakes e data warehouses são tipicamente usados em conjunto. Data lakes atuam como um sistema de captura para novos dados, e data warehouses aplicam estrutura downstream a dados específicos deste sistema. No entanto, coordenar esses sistemas para fornecer dados confiáveis pode ser custoso tanto em tempo quanto em recursos. Tempos de processamento longos contribuem para a obsolescência dos dados e camadas adicionais de ETL introduzem mais risco à qualidade dos dados.

Data Lakehouse

O data lakehouse otimiza as falhas dentro de data warehouses e data lakes para formar um sistema de gerenciamento de dados melhor. Ele oferece às organizações armazenamento rápido e de baixo custo para seus dados empresariais, ao mesmo tempo em que fornece flexibilidade suficiente para suportar cargas de trabalho tanto de análise de dados quanto de aprendizado de máquina.

Soluções relacionadas

Soluções de gerenciamento de dados

Soluções de data lake

Características principais de um data lakehouse

Como mencionado anteriormente, os data lakehouses combinam os melhores recursos dos data warehouses com os mais otimizados dos data lakes. Ele aproveita estruturas de dados semelhantes dos data warehouses e as combina com o armazenamento de baixo custo e a flexibilidade dos data lakes, permitindo que as organizações armazenem e acessem big data de forma rápida e mais eficiente, ao mesmo tempo em que lhes permite mitigar potenciais problemas de qualidade de dados. Ele suporta conjuntos de dados diversos, ou seja, tanto dados estruturados quanto não estruturados, atendendo às necessidades de fluxos de trabalho de business intelligence e ciência de dados. Ele geralmente suporta linguagens de programação como Python, R e SQL de alta performance.

Data lakehouses também suportam transações ACID em cargas de trabalho de dados maiores. ACID significa atomicidade, consistência, isolamento e durabilidade; todas propriedades essenciais que definem uma transação para garantir a integridade dos dados.A atomicidade pode ser definida como a realização de todas as alterações em dados como se constituíssem uma única ação. Consistência é quando os dados estão em um estado consistente quando uma transação começa e quando ela termina. Isolamento refere-se ao estado intermediário da transação sendo invisível para outras transações. Como resultado, transações que são executadas simultaneamente parecem ser serializadas. Durabilidade é quando, após uma transação ser concluída com sucesso, as alterações nos dados persistem e não são desfeitas, mesmo no caso de uma falha do sistema.Esta característica é crítica para garantir a consistência dos dados à medida que múltiplos usuários leem e escrevem dados simultaneamente.

Arquitetura de data lakehouse

Um data lakehouse tipicamente consiste em cinco camadas: camada de ingestão, camada de armazenamento, camada de metadados, camada de API e camada de consumo. Estas compõem o padrão arquitetônico dos data lakehouses.

Camada de ingestão

Esta primeira camada reúne dados de uma variedade de fontes diferentes e os transforma em um formato que pode ser armazenado e analisado em um lakehouse. A camada de ingestão pode usar protocolos para se conectar com fontes internas e externas, como sistemas de gerenciamento de banco de dados, bancos de dados NoSQL, redes sociais e outros. Como o nome sugere, essa camada é responsável pela ingestão de dados.

Camada de armazenamento

Nesta camada, os dados estruturados, não estruturados e semiestruturados são armazenados em formatos de arquivo de código aberto, como Parquet ou Optimized Row Columnar (ORC). O benefício real de um lakehouse é a capacidade do sistema de aceitar todos os tipos de dados a um custo acessível.

Camada de metadados

A camada de metadados é a base do data lakehouse. É um catálogo unificado que fornece metadados para cada objeto no armazenamento do lake, ajudando a organizar e fornecer informações sobre os dados no sistema. Esta camada também dá ao usuário a oportunidade de usar recursos de gerenciamento, como transações ACID, cache de arquivo e indexação para consultas mais rápidas. Os usuários podem implementar esquemas predefinidos nesta camada, que habilitam recursos de governança de dados e auditoria.

Camada de API

Um data lakehouse usa APIs para aumentar o processamento de tarefas e realizar análises mais avançadas. Especificamente, essa camada oferece aos consumidores e/ou desenvolvedores a oportunidade de usar uma variedade de linguagens e bibliotecas, como o TensorFlow, em um nível abstrato. As APIs são otimizadas para o consumo de ativos de dados.

Camada de consumo de dados

Esta camada final da arquitetura do data lakehouse hospeda aplicativos clientes e ferramentas, o que significa que tem acesso a todos os metadados e dados armazenados no lake. Os usuários de uma organização podem usar o lakehouse e realizar tarefas analíticas, como dashboards de business intelligence, visualização de dados e outros trabalhos de aprendizado de máquina.

Benefícios de um data lakehouse

Uma vez que o data lakehouse foi projetado para reunir os melhores recursos de um data warehouse e um data lake, ele oferece benefícios chave específicos para seus usuários. Isso inclui:

Redundância de dados reduzida: o sistema único de armazenamento de dados permite uma plataforma simplificada para realizar todas as demandas de dados de negócios. Data lakehouses também simplificam a observabilidade de dados ao reduzir a quantidade de dados que passam pelos pipelines de dados para múltiplos sistemas.
Custo-benefício: como os data lakehouses se beneficiam dos custos mais baixos do armazenamento de objetos na nuvem, os custos operacionais de um data lakehouse são comparativamente menores que os de data warehouses. Adicionalmente, a arquitetura híbrida de um data lakehouse elimina a necessidade de manter múltiplos sistemas de armazenamento de dados, tornando-o menos caro para operar.
Suporta ampla variedade de cargas de trabalho: os data lakehouses podem lidar com diferentes casos de uso em todo o ciclo de vida do gerenciamento de dados. Ele também pode oferecer suporte a fluxos de trabalho de business intelligence e visualização de dados ou fluxos de trabalho mais complexos de ciência de dados.
Melhor governança: arquitetura do data lakehouse mitiga os problemas comuns de governança que vêm com data lakes. Por exemplo, à medida que os dados são ingeridos e carregados, ele pode garantir que os dados atendam aos requisitos de esquema definidos, reduzindo problemas de qualidade de dados downstream.
Mais escala: em data warehouses tradicionais, computação e armazenamento eram acoplados juntos, o que aumentava os custos operacionais. Data lakehouses separam armazenamento e computação, permitindo que equipes de dados acessem o mesmo armazenamento de dados enquanto usam diferentes nós de computação para diferentes aplicações. Isso resulta em mais escalabilidade e flexibilidade.
Suporte de streaming: o data lakehouse é construído para os negócios e tecnologia de hoje e muitas fontes de dados usam streaming em tempo real diretamente de dispositivos. O sistema lakehouse suporta essa ingestão em tempo real, que só se tornará mais popular no futuro.

Produtos relacionados

Data Lakehouse

IBM watsonx.data

Escale cargas de trabalho de IA, para todos os seus dados, em qualquer lugar. O IBM watsonx.data é o único armazenamento de dados aberto do setor que permite que você aproveite vários mecanismos de consulta para executar cargas de trabalho governadas, onde quer que estejam, resultando em maximização da utilização de recursos e redução de custos.

Explore o IBM watsonx.data

Veja a demostração interativa

Gerenciamento de dados

IBM Db2

Com base em décadas de inovação em segurança, escalabilidade e disponibilidade de dados, mantenha suas aplicações e análise de dados protegidas, com alto desempenho e resiliência, em qualquer lugar com o IBM Db2.

Explore o IBM Db2

Gerenciamento de dados

Netezza Performance Server

O avançado data warehouse nativo da nuvem projetado para análises e insights unificados e escaláveis disponíveis em qualquer lugar. Com escalabilidade elástica granular e funcionalidade de pausa e retomada, o Netezza Performance Server oferece controle de custos e recursos em uma escala empresarial massiva.

Explore Netezza Performance Server

Recursos de data lakehouse

AIOps essencial para gerenciamento de resiliência unificada em data lakehouses

A IBM Research propõe que a abordagem unificada dos data lakehouses cria uma oportunidade única para gerenciamento unificado de resiliência de dados.

The Forrester Wave™: Gerenciamento de dados para análise, 4.º trimestre de 2023

As soluções da IBM fornecem recursos que resolvem desafios do ambiente analítico. Veja por que a IBM é nomeada líder em soluções de gerenciamento de dados para análises.

Trindade da plataforma de dados: competitiva ou complementar?

Compreenda como esses conceitos podem se interligar ou ser empregados em conjunto.

Noções básicas do Presto: o que é o Presto?

Saiba mais sobre o mecanismo de consulta de código aberto, rápido e flexível, disponível com a arquitetura de data lakehouse aberto do watsonx.data.

Dê o próximo passo

Escale cargas de trabalho de IA para todos os seus dados, em qualquer lugar, com o IBM watsonx.data, um armazenamento de dados feito sob medida, construído em uma arquitetura aberta de data lakehouse.

Explore o watsonx.data

Agende uma demonstração em tempo real

Notas de rodapé

¹ Lakehouse: A New Generation of Open Platforms that Unify
Data Warehousing and Advanced Analytics (link fora de ibm.com), Stanford, 2021