Início Estudos de caso Migração de dados do global chief data office da IBM Aumento drástico da velocidade de migração de dados
O Chief Data Office da IBM moderniza a migração de dados com o IBM DataStage
Colegas resolvendo problemas no computador juntos

Em um estudo de caso anterior, compartilhamos como o Global Chief Data Office (GCDO) da IBM enfrentou o desafio bastante comum de dados dispersos pela empresa e como, sem uma plataforma comercialmente disponível, desenvolveu a Cognitive Enterprise Data Platform (CEDP) como uma fonte central de dados governados para os usuários carregarem, transformarem e analisarem dados empresariais.Esse caso de uso continua nossa história de modernização de CEDP, aproveitando a solução IBM Cloud Pak for Data.

Desta vez, é tudo uma questão de migração de dados.

O ponto crítico era claro. Enormes quantidades de dados precisavam ser ingeridas em nossa plataforma unificada, e isso levaria meses para ser concluído.

As cargas de dados iniciais (IDLs) replicam os dados de um sistema para outro usando a opção captura de dados de mudança (CDC). A CDC aumenta a eficiência porque, após a primeira transferência, somente os dados alterados precisam ser migrados.

Como essa primeira transferência, as IDLs geralmente são uma enorme quantidade de dados, e as tabelas que o GCDO precisava carregar não eram exceção: a maior das dezenas de tabelas continha 426 milhões de registros, pesando 186 GB.O carregamento de conjuntos de dados estava demorando semanas em alguns casos.Chegando ao ponto de ruptura e essencialmente bloqueado para progredir, o GCDO precisava de uma nova solução.Eles o encontraram na solução IBM DataStage para IBM Cloud Pak for Data.

Carregamento mais rápido de dados

 

Carregamento inicial de dados em uma fração do tempo, de 3 dias a 3 horas

Migração de dados em escala

 

Migração estável e sem erros de centenas de tabelas de dados com bilhões de linhas cada, incluindo páginas de parâmetros para dimensionar um único trabalho de milhares de maneiras

Após apenas alguns dias de testes altamente bem-sucedidos, incorporamos o DataStage para IBM Cloud Pak for Data... IDLs de 60 milhões de registros que levavam três dias foram concluídos em apenas cerca de três horas. Inderpal Bhandari Global Chief Data Officer IBM
Modernizando a migração de dados

Quando o GCDO iniciou sua jornada de dados e IA, a solução IBM Cloud Pak for Data não existia. Embora a CEDP tenha impulsionado um avanço significativo, o desenvolvimento da solução IBM Cloud Pak for Data deu ao GCDO uma vantagem no campo para levar sua própria plataforma a um nível superior.

Como um pacote de serviços e extensões que podem ser usados conforme necessário, a solução IBM Cloud Pak for Data deu ao GCDO a flexibilidade necessária para modernizar em etapas e começar com as necessidades mais urgentes primeiro. Não havia uma ordem prescritiva para adoção ou implantação.

O GCDO começou a usar o pacote de serviços de IA dentro da solução IBM Cloud Pak for Data, incluindo a solução IBM Watson Studio.A tecnologia IBM Watson Studio é executada no local e na nuvem, analisando dados na solução IBM Db2 Big SQL.Os detalhes desta parte da jornada de modernização do CDO estão descritos neste estudo de caso.

Para o próximo passo na jornada, o GCDO recorreu à tecnologia DataStage para aumentar drasticamente a velocidade de ingestão de grandes quantidades de dados com estabilidade e precisão.

“Após vários meses configurando servidores, estabelecendo conexões de banco de dados e esforços de configuração e autoaprendizagem por tentativa e erro, uma tabela de 60 milhões de registros ainda levaria três dias para replicar”, diz Frank Duffy, gerente sênior de projeto do GCDO Master Data. "Analisando essas estatísticas, com aproximadamente 20 tabelas grandes a serem removidas, estávamos prevendo mais 60 dias apenas para migrar os dados."

A equipe de movimentação de dados da CDO testou o desempenho da tecnologia DataStage e Spark na execução de casos de uso comuns de carregamento de dados.Em mais de 75% dos casos, eles alcançaram um desempenho melhor com a tecnologia DataStage do que com a tecnologia Spark.Para os 25% restantes, os resultados foram bastante similares.

Além do desempenho, fatores que atraíram o GCDO para a solução DataStage incluíram:

 

 

  • Integração com o ecossistema IBM Cloud Pak for Data, especificamente relacionado ao IBM Watson Knowledge Catalog e à linhagem de dados
  • Amplitude de fontes, destinos e estágios intermediários suportados que atendiam às necessidades atuais e futuras
  • Estágios personalizados para encapsular necessidades em unidades reutilizáveis quando necessário
  • Recursos que suportavam uma abordagem baseada em padrões

 

A solução IBM Cloud Pak for Data está alinhada com várias fontes de dados do setor e está constantemente evoluindo essas fontes para atender a novas tecnologias.A solução DataStage para IBM Cloud Pak for Data vem com um grande inventário de conectores de setor, representando a maioria dos repositórios de dados com os quais os usuários do GCDO queriam trabalhar.Esses conectores significavam que o GCDO poderia trabalhar com esses diferentes formatos e sistemas de armazenamento sem precisar escrever nenhum código.

Nos casos em que um conector ainda não estava disponível, conectores personalizados poderiam ser desenvolvidos, implementados e adicionados ao canvas.

A solução DataStage para IBM Cloud Pak for Data também oferece a funcionalidade Runtime Column Propagation, que atraiu os engenheiros do GCDO porque permitiu uma abordagem baseada em padrões para a migração de dados. Ao expressar padrões comuns de migração de dados como tarefas, o GCDO ampliou as operações para suportar milhares de tabelas sem precisar aumentar a equipe.

"O recurso de padrão do DataStage para IBM Cloud Pak for Data nos permitiu ter um trabalho que poderia ser executado de milhares de maneiras", diz Rick McCall, líder técnico do GCDO para a ferramenta de migração de dados."Em alguns casos, tínhamos mais de 8.000 empregos – páginas e páginas deles – que poderiam ser associados a um único padrão e executados como um único trabalho.Isso significa um conjunto de código, desempenho otimizado e controle de fonte, tudo integrado em uma solução super rápida e confiável."

Outro benefício da solução DataStage para IBM Cloud Pak for Data é que ela se integra sem dificuldades ao RedHat OpenShift. Além disso, disponibiliza suporte para APIs, permitindo que os usuários criem fluxos de trabalho personalizados conforme necessário.

"O DataStage para IBM Cloud Pak for Data foi um divisor de águas para a nossa ingestão de dados", diz Peter Herr, líder global de dados mestres de clientes."Nossa equipe tentou de tudo dentro das restrições do nosso sistema existente e ainda estava em um impasse para realizar de maneira aceitável a enorme quantidade de migração de dados que precisávamos.Quando Rick e equipe nos mostraram a velocidade e o poder do DataStage, ficamos produtivos em semanas, em vez de meses."

O DataStage para IBM Cloud Pak for Data foi um divisor de águas para a ingestão de dados.A equipe havia tentado de tudo dentro das restrições de nosso sistema existente e ainda estava em um impasse para realizar de forma aceitável a enorme quantidade de migração de dados que precisávamos. Quando Rick e a equipe nos mostraram a velocidade e o poder do DataStage, fomos produtivos em semanas, em vez de meses. Peter Herr Líder global de dados mestres de clientes IBM Global Chief Data Office
Da plataforma à privacidade

Uma vez que o GCDO escolheu a solução DataStage para IBM Cloud Pak for Data, os resultados positivos surgiram rapidamente.Na própria fase piloto, enormes tabelas com bilhões de linhas foram carregadas em horas, em vez de dias.Tabelas menores foram migradas em minutos.Além disso, independentemente do tamanho da tabela, a ingestão de dados foi livre de erros e altamente estável.

"Não é necessário dizer que a migração de dados impulsionada pelo DataStage foi uma dádiva para ajudar a resgatar nosso esforço de migração de dados e nos mover de um estado bloqueado para um estado pronto para produção em questão de semanas", diz Duffy.

“O IBM Cloud Pak for Data continua promovendo o CEDP”, diz Inderpal Bhandari, Global Chief Data Officer da IBM“O DataStage for IBM Cloud Pak for Data como mecanismo de nossa estratégia de migração de dados nos economizou literalmente semanas e trouxe novos níveis de eficiência e flexibilidade no atendimento aos nossos usuários.Em seguida, temos como objetivo aproveitar o IBM Cloud Pak for Data à medida que desenvolvemos nossos recursos de privacidade em toda a empresa.”

O GCDO está se associando ao escritório de privacidade da IBM para construir o motor que alimentará um sistema híbrido de nuvem de ponta a ponta, que aumentará dramaticamente a eficiência de nossa conformidade regulatória.O roteiro atual para recursos de privacidade inclui Watson Knowledge Catalog, IBM Knowledge Accelerators e IBM OpenPages with Watson da solução IBM Cloud Pak for Data.

Descubra soluções para ajudar você a eliminar silos de dados

Logotipo da IBM
Sobre o IBM Global Chief Data Office

O IBM Global Chief Data Office desenvolve estratégias de dados e plataformas que incluem sistemas de governança e gerenciamento, parcerias profundas de dados e funções de análise de dados.A estratégia transforma os dados de negócios em valor comercial.Essas plataformas se tornam a fonte de dados central para funções de análise de dados corporativos em toda a empresa e para desenvolver e expandir talentos.Juntos, esses recursos inovadores usam insights analíticos para permitir o crescimento e a produtividade.

Dê o próximo passo
Inscreva-se para receber newsletters selecionadas sobre as novidades em tecnologia, negócios e liderança intelectual. Receba o melhor da IBM em sua caixa de entrada Uma plataforma unificada de dados e IA agrega benefícios comerciais Estudo de caso
Notas de rodapé

© Copyright IBM Corporation 2022. IBM corporation, IBM watson, New orchard road, Armonk, NY 10504

Produzido nos Estados Unidos da América, março de 2022.

IBM, o logotipo IBM, ibm.com,DataStage, Db2, IBM Cloud Pak, OpenPages e IBM Watson são marcas comerciais da International Business Machines Corp., registradas em diversas jurisdições em todo o mundo.Outros nomes de produtos e serviços podem ser marcas comerciais da IBM ou de outras empresas.Há uma lista atualizada de marcas registradas da IBM disponível na web em "Copyright and trademark information" em https://www.ibm.com/br-pt/legal/copytrade.

Red Hat e OpenShift são marcas comerciais ou marcas registradas da Red Hat, Inc. ou de suas subsidiárias nos Estados Unidos e em outros países.

Este documento é atual na data de sua publicação inicial, podendo ser alterado pela IBM a qualquer momento. Nem todas as ofertas estão disponíveis em todos os países em que a IBM opera.

Os dados de desempenho e exemplos de clientes citados são apresentados apenas para fins ilustrativos. Os resultados reais de desempenho podem variar de acordo com configurações e condições operacionais específicas. AS INFORMAÇÕES CONTIDAS NESTE DOCUMENTO SÃO FORNECIDAS NO ESTADO EM QUE SEM ENCONTRAM, SEM QUALQUER GARANTIA, EXPRESSA OU IMPLÍCITA, INCLUINDO SEM QUAISQUER GARANTIAS DE COMERCIALIZAÇÃO, ADEQUAÇÃO A DETERMINADO FIM E QUALQUER GARANTIA OU CONDIÇÃO DE NÃO INFRAÇÃO. Os produtos IBM têm garantia de acordo com os termos e condições dos contratos sob os quais são fornecidos.

O cliente é responsável por garantir a conformidade com as leis e regulamentações aplicáveis a ele. A IBM não fornece conselho jurídico ou representa ou garante que seus serviços ou produtos garantirão que o cliente esteja em conformidade com qualquer lei ou regulamento.