Início topics data warehouse O que é um data warehouse?
Explore a solução de data warehouse da IBM Inscreva-se para receber atualizações de IA
Ilustração com colagem de pictogramas de nuvens, gráfico de pizza, pictogramas de gráficos
O que é um data warehouse?

Um data warehouse, ou data warehouse empresarial (EDW), é um sistema que agrega dados de diferentes fontes em um único repositório de dados central, consistente, para apoiar análise de dados, mineração de dados, inteligência artificial (IA) e aprendizado de máquina.

 

Um sistema de data warehouse permite que uma organização execute análises poderosas em grandes quantidades de dados (petabytes) de maneiras que um banco de dados comum não pode.

Os sistemas de armazenamento de dados fazem parte das soluções de business intelligence (BI) há mais de três décadas, mas evoluíram recentemente com o surgimento de novos tipos de dados e métodos de hospedagem de dados. Tradicionalmente, um data warehouse era hospedado localmente—muitas vezes em um computador mainframe—e sua funcionalidade estava focada em extrair dados de outras fontes, limpar e preparar os dados, e carregar e manter os dados em um banco de dados relacional. Mais recentemente, um data warehouse pode ser hospedado em um aparelho dedicado ou na nuvem, e a maioria dos data warehouses adicionou recursos de análise e ferramentas de visualização e apresentação de dados.

Crie fluxos de trabalho de IA responsáveis com controle de IA

Aprenda os fundamentos e as melhores práticas para ajudar suas equipes a acelerar a IA responsável.

Conteúdo relacionado

Inscreva-se para receber o e-book sobre Presto

Arquitetura de data warehouse

De um modo geral, os data warehouses têm uma arquitetura de três camadas, que consiste em:
 

  • Camada inferior: a camada inferior consiste em um servidor de data warehouse, geralmente um sistema de banco de dados relacional, que coleta, limpa e transforma dados de múltiplas fontes por meio de um processo conhecido como Extract, Transform, and Load (ETL) ou um processo conhecido como Extract, Load, and Transform (ELT). Para a maioria das organizações que usam ETL, o processo depende de automação, e é eficiente, bem definido, contínuo e baseado em lote.
     

  • Camada intermediária: a camada intermediária consiste em um servidor OLAP (processamento analítico online) que possibilita velocidades de consulta rápidas. Três tipos de modelos OLAP podem ser usados nesta camada, conhecidos como ROLAP, MOLAP e HOLAP. O tipo de modelo OLAP usado depende do tipo de sistema de banco de dados que existe.

     

  • Camada superior: a camada superior é representada por algum tipo de interface de usuário front-end ou ferramenta de relatórios, que permite aos usuários finais realizar análises de dados ad-hoc em seus dados de negócios.

Uma breve história da arquitetura de data warehouse

A maioria dos data warehouses será construída em torno de um sistema de banco de dados relacional, seja localmente ou na nuvem, onde os dados são armazenados e processados. Outros componentes incluiriam um sistema de gerenciamento de metadados e uma camada de conectividade de API, permitindo que o armazém extraia dados de fontes organizacionais e forneça acesso a ferramentas de análise e visualização.

Um data warehouse típico tem quatro componentes principais: um banco de dados central, ferramentas ETL, metadados e ferramentas de acesso. Todos esses componentes são projetados para velocidade, para que você possa obter resultados rapidamente e analisar dados em tempo real.

O data warehouse existe há décadas. Nascido na década de 1980, ele atendeu à necessidade de otimizar a análise de dados. À medida que as aplicações de negócios das empresas começaram a crescer e gerar/armazenar mais dados, elas precisavam de sistemas de data warehouse que pudessem gerenciar e analisar os dados. Em um alto nível, os administradores de banco de dados podiam extrair dados de seus sistemas operacionais e adicionar um esquema a ele via transformação antes de carregá-lo em seu data warehouse.

À medida que a arquitetura de data warehouse evoluiu e cresceu em popularidade, mais pessoas dentro de uma empresa começaram a usá-lo para acessar dados—e o data warehouse facilitou isso com dados estruturados. É nesse ponto que os metadados se tornam importantes. Relatórios e dashboards se tornaram um caso de uso importante, e SQL (linguagem de consulta estruturada) se tornou a maneira padrão de interagir com esses dados.

Componentes da arquitetura de data warehouse

Vamos dar uma olhada mais de perto em cada componente.

etl

Quando analistas de banco de dados querem migrar dados de uma fonte de dados para seu data warehouse, esse é o processo que eles usam. Em resumo, ETL converte dados em um formato utilizável para que, uma vez no data warehouse, possam ser analisados/consultados/etc.

Metadados

Metadados são dados sobre dados. Basicamente, descrevem todos os dados armazenados em um sistema para torná-los pesquisáveis. Alguns exemplos de metadados incluem autores, datas ou locais de um artigo, data de criação de um arquivo, o tamanho de um arquivo etc. Pense nisso como os títulos de uma coluna em uma planilha. Os metadados permitem que você organize seus dados para torná-los utilizáveis, para que você possa analisá-los para criar dashboards e relatórios.

Processamento de consulta SQL

SQL é a linguagem padrão para consultar seus dados. Essa é a linguagem que os analistas usam para extrair insights de seus dados armazenados no data warehouse. Normalmente, os data warehouses têm tecnologias proprietárias de processamento de consultas SQL intimamente acopladas ao computador. Isso permite um desempenho muito alto quando se trata de suas análises. No entanto, é importante notar que o custo de um data warehouse pode começar a ficar caro quanto mais dados e recursos de computação SQL você tem.

Camada de dados

A camada de dados é a camada de acesso que permite aos usuários chegar realmente aos dados. É tipicamente onde você encontraria um data mart. Esta camada particiona segmentos de seus dados dependendo de quem você quer dar acesso, então você pode ser muito granular em toda a sua organização. Por exemplo, você pode não querer dar à sua equipe de vendas acesso aos dados da sua equipe de RH, e vice-versa.

Governança e segurança

Isso está relacionado à camada de dados, pois você precisa ser capaz de fornecer acesso detalhado e políticas de segurança em todos os dados da sua organização. Normalmente, os data warehouses têm recursos integrados de governança e segurança de dados muito bons, portanto, você não precisa fazer muito trabalho de engenharia de dados personalizado para incluir isso. É importante planejar a governança e segurança à medida que você adiciona mais dados ao seu armazém e conforme sua empresa cresce.

+ Ferramentas de acesso ao data warehouse

Embora as ferramentas de acesso sejam externas ao seu data warehouse, elas podem ser vistas como a frente amigável ao usuário corporativo. É aqui que você encontraria suas ferramentas de relatórios e visualização, usadas por analistas de dados e usuários de negócios para interagir com os dados, extrair insights e criar visualizações que o resto do negócio pode consumir. Exemplos dessas ferramentas incluem Tableau, Looker e Qlik.

OLTP vs OLAP em data warehouse

OLAP (processamento analítico on-line) é um software para realizar análises multidimensionais em alta velocidade em grandes volumes de dados de um armazenamento de dados unificado e centralizado, como um data warehouse. OLTP (processamento transacional on-line), possibilita a execução em tempo real de um grande número de transações de banco de dados por muitas pessoas, tipicamente pela internet. A principal diferença entre OLAP e OLTP está no nome: OLAP é analítico por natureza, e OLTP é transacional.

As ferramentas OLAP são projetadas para a análise multidimensional de dados em um data warehouse, que contém tanto dados históricos quanto transacionais. Usos comuns do OLAP incluem mineração de dados e outras aplicações de business intelligence, cálculos analíticos complexos, cenários preditivos, bem como funções de relatórios de negócios como análise financeira, orçamento e planejamento de previsões.

Por outro lado, OLTP é projetado para suportar aplicações orientadas a transações processando transações recentes o mais rápido e precisamente possível. Usos comuns do OLTP incluem caixas eletrônicos, software de e-commerce, processamento de dados de pagamento com cartão de crédito, reservas online, sistemas de reserva e ferramentas de registro.

Para um aprofundamento nas diferenças entre essas abordagens, confira "OLAP vs. OLTP: qual a Diferença?"

Esquemas em data warehouses

Esquemas são maneiras de organizar dados dentro de um banco de dados ou data warehouse. Existem dois tipos principais de estruturas de esquema, o esquema estrela e o esquema floco de neve, que impactarão o design do seu modelo de dados.

Esquema estrela: este esquema consiste em uma tabela de fatos que pode ser unida a um número de tabelas de dimensão desnormalizadas. É considerado o tipo de esquema mais simples e comum, e seus usuários se beneficiam de suas velocidades mais rápidas durante as consultas.

Esquema floco de neve: embora não seja tão amplamente adotado, o esquema floco de neve é outra estrutura de organização em data warehouses. Neste caso, a tabela de fatos está conectada a um número de tabelas de dimensão normalizadas, e essas tabelas de dimensão têm tabelas filhas. Usuários de um esquema floco de neve se beneficiam de seus baixos níveis de redundância de dados, mas isso vem a um custo para o desempenho da consulta.

Data warehouse vs. banco de dados, data lake e data mart

Data warehouse, banco de dados, data lake e data mart são termos que tendem a ser usados de forma intercambiável. Embora os termos sejam similares, existem diferenças importantes:

Data warehouse vs. data lake

Usando um pipeline de dados, um data warehouse reúne dados brutos de múltiplas fontes em um repositório central, estruturado usando esquemas predefinidos projetados para análise de dados. Um data lake é um data warehouse sem os esquemas predefinidos. Como resultado, ele possibilita mais tipos de análises do que um data warehouse. Data lakes são comumente construídos em plataformas de big data como Apache Hadoop.

Data warehouse vs. data mart
 

Um data mart é um subconjunto de um data warehouse que contém dados específicos para uma linha de negócios ou departamento particular. Por conterem um subconjunto menor de dados, data marts permitem que um departamento ou linha de negócios descubra insights mais focados mais rapidamente do que seria possível ao trabalhar com o conjunto de dados mais amplo do data warehouse.

Data warehouse vs. banco de dados

Um banco de dados é construído principalmente para consultas rápidas e processamento de transações, não para análises. Um banco de dados geralmente serve como o armazenamento de dados focado para uma aplicação específica, enquanto um data warehouse armazena dados de qualquer número (ou até mesmo todos) das aplicações em sua organização.

Um banco de dados foca na atualização de dados em tempo real enquanto um data warehouse tem um escopo mais amplo, capturando dados atuais e históricos para análises preditivas, aprendizado de máquina e outros tipos avançados de análise.

Tipos de data warehouses

Data warehouse na nuvem

Um data warehouse na nuvem é um data warehouse especificamente construído para funcionar na nuvem e é oferecido aos clientes como um serviço gerenciado. Os data warehouses baseados na nuvem têm se tornado mais populares nos últimos cinco a sete anos, à medida que mais empresas usam serviços de computação em nuvem e buscam reduzir sua pegada no data center local.

Com um data warehouse na nuvem, a infraestrutura física do data warehouse é gerenciada pela empresa de nuvem, o que significa que o cliente não precisa fazer um investimento inicial em hardware ou software e não precisa gerenciar ou manter a solução de data warehouse.

Software de data warehouse (no local/licença)

Uma empresa pode comprar uma licença de data warehouse e depois implementar um data warehouse em sua própria infraestrutura local. Embora isso geralmente seja mais caro do que um serviço de data warehouse na nuvem, pode ser uma escolha melhor para entidades governamentais, instituições financeiras ou outras organizações que desejam mais controle sobre seus dados ou precisam cumprir padrões ou regulamentações de segurança ou privacidade de dados rigorosos.

Appliance de data warehouse

Um appliance de data warehouse é um pacote pré-integrado de hardware e software — CPUs, armazenamento, sistema operacional e software de data warehouse — que uma empresa pode conectar à sua rede e começar a usar como está. Um appliance de data warehouse fica entre as implementações na nuvem e locais em termos de custo inicial, velocidade de implementação, facilidade de escalabilidade e controle de gerenciamento de dados.

Benefícios de um data warehouse

Um data warehouse fornece uma base para o seguinte:

  • Melhor qualidade de dados: um data warehouse centraliza dados de uma variedade de fontes de dados, como sistemas transacionais, bancos de dados operacionais e arquivos planos. Em seguida, limpa os dados operacionais, elimina duplicatas e os padroniza para criar uma única fonte de verdade.

  • Insights de negócios mais rápidos: dados de fontes díspares limitam a capacidade dos tomadores de decisão de estabelecer estratégias de negócios com confiança. Os data warehouses permitem a integração de dados, permitindo que os usuários corporativos aproveitem todos os dados de uma empresa em cada decisão de negócios. Os dados do data warehouse possibilitam relatar sobre temas, tendências, agregações e outras relações entre dados coletados de um aplicativo de gerenciamento do ciclo de vida de engenharia (ELM).

  • Tomada de decisão mais inteligente: um data warehouse suporta funções de BI em grande escala, como mineração de dados (descoberta de padrões e relações não vistos em dados), inteligência artificial e aprendizado de máquina — ferramentas que profissionais de dados e líderes empresariais podem usar para obter evidências sólidas para tomar decisões mais inteligentes em praticamente todas as áreas da organização, desde processos de negócios até gestão financeira e gestão de inventário.
  • Ganhar e aumentar vantagem competitiva: tudo isso combina para ajudar uma organização a encontrar mais oportunidades em dados, mais rapidamente do que é possível a partir de armazenamentos de dados díspares.
Desafios com a arquitetura de data warehouse

À medida que as empresas começam a armazenar mais dados e precisam de análises mais avançadas e uma ampla gama de dados, o data warehouse começa a se tornar caro e não tão flexível. Se você deseja analisar dados não estruturados ou semi-estruturados, o data warehouse não funcionará. Estamos vendo mais empresas migrando para a arquitetura data lakehouse, o que ajuda a resolver o problema. O data lakehouse aberto permite que você execute cargas de trabalho de data warehouse em todos os tipos de dados em uma arquitetura aberta e flexível. Esses dados também podem ser usados por cientistas e engenheiros de dados que estudam dados para obter insights de negócios. Em vez de um sistema rigidamente acoplado, o data lakehouse é muito mais flexível e também pode gerenciar dados não estruturados e semi-estruturados, como fotos, vídeos, dados de IoT e mais.

O data lakehouse também pode suportar suas cargas de trabalho de ciência de dados, ML e IA, além de suas cargas de trabalho de relatórios e dashboards. Se você está procurando atualizar a arquitetura de data warehouse, então desenvolver um data lakehouse aberto é o caminho a seguir.

Soluções relacionadas
Soluções de data warehouse

As soluções de data warehouse da IBM oferecem desempenho e flexibilidade para suportar dados estruturados e não estruturados para cargas de trabalho de análise de dados, incluindo aprendizado de máquina.

Explore as soluções de data warehouse
Db2 Warehouse on Cloud

Explore os recursos de um data warehouse na nuvem totalmente gerenciado e elástico, construído para análises de alto desempenho e IA.

Explore o Db2 Warehouse on Cloud
IBM Cloud Pak for Data

O IBM Cloud Pak for Data é um conjunto modular de componentes de software integrados para análise de dados, organização e gerenciamento em silos de negócios, locais e em nuvens.

Conheça o IBM Cloud Pak® for Data
Recursos Encontrando o data warehouse empresarial certo para atender ao desafio de dados e IA

A IA pode apresentar vários desafios que os data warehouses empresariais e data marts podem ajudar a superar. Descubra como avaliar o valor total que tal solução pode fornecer.

Como escolher o data warehouse certo para IA

Para escolher um data warehouse empresarial, as empresas devem considerar o impacto da IA, os diferenciadores chave do warehouse e a variedade de modelos de implementação. Este ebook ajuda a fazer exatamente isso.

O diferenciador dos dados

Um guia para construir uma organização orientada por dados e impulsionar a vantagem comercial.

Dê o próximo passo

Escale cargas de trabalho de IA para todos os seus dados, em qualquer lugar, com o IBM watsonx.data, um armazenamento de dados feito sob medida, construído em uma arquitetura aberta de data lakehouse.

Explore o watsonx.data Agende uma demonstração em tempo real