主页 Case Studies IBM 全球首席数据办公室数据迁移 显著提高数据迁移速度
IBM 首席数据办公室通过 IBM DataStage 实现数据迁移现代化
一同在电脑上解决问题的同事们

在较早的成功案例中,我们分享了 IBM 全球首席数据办公室(GCDO)如何面对数据分散在公司各处的司空见惯的挑战,以及如何在没有商用平台的情况下开发认知企业数据平台(CEDP),作为已治理数据据的中心来源,供用户加载、转换和分析企业数据。此用例延续了我们利用IBM Cloud Pak for Data解决方案实现 CEDP 现代化的故事。

这一次,一切均关乎数据迁移。

痛点显而易见。需要将大量数据引入我们的统一平台,并且需要几个月的时间才能完成。

初始数据加载 (IDL) 使用变更数据捕获 (CDC) 将数据从一个系统复制到另一系统。CDC 可提高效率,因为在首次传输后只需迁移更改的数据。

作为首次传输,IDL 通常对应着巨大的数据量,而 GCDO 需加载的表也不例外:在数十个表中,其中最大的一个包含 4.26 亿条记录,其大小更是高达 186 GB。某些情况下,加载数据集需要数周时间才能完成。由于 GCDO 已接近临界点且基本无法取得进展,因此需要一个新的解决方案。最终,它们在 IBM DataStage for IBM Cloud Pak for Data 解决方案中找到了答案。

更快的数据加载

 

从 3 天到 3 个小时,初始数据加载用时较短

大规模数据迁移

 

数百个数据表(其中每个数据表均有数十亿行记录)的无差错、稳定数据迁移,包括以数千种方式调整单个作业的各种参数

经过几天异常成功的测试后,我们对 DataStage for IBM Cloud Pak for Data 进行了整合......原本需要 3 天的 6000 万条记录的 IDL 在约 3 个小时内便告完成。 Inderpal Bhandari 全球首席数据官 IBM
实现数据迁移现代化

当 GCDO 开启其数据与 AI 之旅时,IBM Cloud Pak for Data 解决方案彼时尚不存在。虽然 CEDP 推动实现了重大进步,但 IBM Cloud Pak for Data 解决方案的开发却为 GCDO 自身带来了先天优势,从而将其自己的平台提升到新的水平。

作为一套可按需使用的服务和扩展,IBM Cloud Pak for Data 解决方案可为 GCDO 提供所需的灵活性,以便其分阶段实现现代化,并首先满足最高优先级的需求。针对采用或部署,并无任何强制命令。

首先,GCDO 开始使用 IBM Cloud Pak for Data 解决方案中的 AI 服务套件,其中包括 IBM Watson Studio 解决方案。IBM Watson Studio 技术可在本地和云端运行,并可分析 IBM Db2 Big SQL 解决方案中的数据。本成功案例详细介绍了 GCDO 现代化之旅中有关此部分的内容。

在此旅程的下一步骤中,GCDO 开始转向 DataStage 技术,以期大幅提高稳定且准确地采集大量数据的速度。

“经过数月的服务器设置、数据库连接、试错配置和自学习工作,复制包含 6,000 万条记录的表仍需耗时三天”,GCDO 主数据高级项目经理 Frank Duffy 表示。“根据这些统计信息,大约还有 20 个大型表需要迁移,因此还需 60 天来迁移这些数据。”

GCDO 的数据移动团队测试了 DataStage 和 Spark 技术在执行常见数据负载用例时的性能。在超过 75% 的用例中,DataStage 技术获得的性能比 Spark 技术更好。剩下 25% 的用例得到结果势均力敌。

除性能之外,吸引 GCDO 使用 DataStage 解决方案的因素还包括:

 

 

  • 与 IBM Cloud Pak for Data 生态系统的集成,尤其是与 IBM Watson Knowledge Catalog 和数据沿袭相关的集成
  • 满足当前及前瞻性需求的受支持来源、目标和中间阶段的广度
  • 可在必要时将需求嵌入到可重用单元中的自定义阶段
  • 支持基于模式的方法的功能

 

IBM Cloud Pak for Data 解决方案与多个行业数据源保持一致,并不断发展这些数据源,以满足新技术的要求。DataStage for IBM Cloud Pak for Data 解决方案捆绑了大量行业连接器,代表了 GCDO 用户希望使用的大多数数据存储。这些连接器意味着 GCDO 可以使用这些不同存储格式和系统工作,而无需编写任何代码。

在连接器尚不可用的情况下,可开发、部署自定义连接器并将其拖放到画布上。

DataStage for IBM Cloud Pak for Data 解决方案还提供运行时列传播功能。该功能对 GCDO 工程师很有吸引力,因为它支持基于模式的数据迁移方法。通过将常见数据移动模式表示为作业,GCDO 可扩展操作规模从而支持数千个表,而无需增加人员配置。

“DataStage for IBM Cloud Pak for Data 的模式功能为我们提供了一个可运行数千种方式的作业”,GCDO 数据迁移工具技术主管 Rick McCall 说道。“某些情况下,我们有 8,000 多个作业(堪称数量巨大)可能会与单个模式关联,并作为单个作业来运行。这意味着,一组代码、优化后的性能和源代码控制全部都会整合到一个速度超快、超可靠的解决方案中。”

DataStage for IBM Cloud Pak for Data 解决方案的另一大优势在于它可与 RedHat OpenShift 无缝集成。此外,它还提供 API 支持,以便用户可按需围绕它构建自定义工作流程。

“DataStage for IBM Cloud Pak for Data 改变了我们的数据摄取方式”,客户主数据全球负责人 Peter Herr 说道。“我们的团队已在现有系统的限制范围内尝试了所有办法,但在以可接受的方式完成我们所需的大量数据迁移方面仍感到非常困难。当 Rick 和团队向我们展示 DataStage 的迅猛速度和强大功能时,我们在几周而不是几个月内就实现了高效运转。”

DataStage for IBM Cloud Pak for Data 改变了我们数据摄取的游戏规则。团队已在现有系统的限制范围内尝试了所有方法,但仍然无法打破僵局,以可接受的方式完成我们所需的大量数据迁移。当 Rick 和团队向我们展示 DataStage 的迅猛速度和强大功能时,我们在几周而不是几个月内就实现了高效运转。 Peter Herr 客户主数据全球负责人 IBM 全球首席数据办公室
从平台到隐私

GCDO 选择 DataStage for IBM Cloud Pak for Data 解决方案后,很快便取得了积极成果。仅在试验阶段,包含数十亿行记录的超大表仅在数小时而不是数天内便加载完成。而较小的表只需几分钟便可完成迁移。此外,无论表的大小如何,数据摄取均不会出现任何错误且十分稳定。

Duffy 表示,“毋庸置疑,由 DataStage 提供支持的数据移动是天赐之物,它可以帮助我们挽救数据迁移工作,并在几周内将我们从受困状态转变为生产就绪状态。”

“IBM Cloud Pak for Data 将继续推动 CEDP 的发展”,IBM 全球首席数据官 Inderpal Bhandari 说道。“作为我们数据移动策略的引擎,DataStage for IBM Cloud Pak for Data 为我们节省了数周时间,并在服务用户方面将效率和灵活性提升到了新的水平。接下来,我们的目标是在构建企业范围内的隐私功能时继续利用 IBM Cloud Pak for Data。”

GCDO 正与 IBM 首席隐私办公室共同构建该引擎以便为端到端的混合云系统提供支持,而此举将大幅提高我们的监管合规效率。当前,针对隐私功能的路线图会以 IBM Cloud Pak for Data 解决方案中的 Watson Knowledge Catalog、IBM Knowledge AcceleratorsIBM OpenPages with Watson 作为主打产品。

发现解决方案,消除数据孤岛

IBM 徽标
关于 IBM 全球首席数据办公室

IBM 全球首席数据办公室已开发出众多数据战略和平台,其中包括治理与管理系统、深度数据与分析合作伙伴关系。该战略可将业务数据转化为业务价值。这些平台也成为整个企业的业务分析以及人才培养和扩充的中央数据源。这些创新能力共同利用分析洞察来促进增长并提高工作效率。

采取下一步行动
订阅精选简讯,了解最新的技术、商业和思想领导力。 充分利用收件箱,从 IBM 获取最佳资源。 统一的数据和 AI 平台帮助增加业务优势 成功案例
脚注

© Copyright IBM Corporation 2022。IBM Corporation, IBM Watson, New Orchard Road, Armonk, NY 10504

美国出品,2022 年 3 月。

IBM、IBM 徽标、ibm.com、Db2、IBM Cloud 以及 IBM Watson 是 International Business Machines Corp. 在世界各地司法辖区的注册商标。其他产品和服务名称可能是 IBM 或其他公司的商标。有关 IBM 商标的最新清单,请访问网站:https://www.ibm.com/cn-zh/legal/copytrade

Red Hat® 和 OpenShift® 是 Red Hat, Inc. 或其子公司在美国和其他国家/地区的商标或注册商标。

本文档为自最初公布日期起的最新版本,IBM 可能随时对其进行更改。IBM 并不一定在开展业务的所有国家或地区提供所有产品或服务。

文中引用的性能数据和客户示例仅作演示说明之用。实际性能结果可能因具体配置和操作条件而异。本文档中的信息均“按原样”提供,不涉及任何明示或暗示的保证,包括适销性、特定用途适用性的任何保证,以及不侵权的任何保证或条件。IBM 产品根据其提供时所依据的协议条款和条件获得保证。

客户负责确保遵守适用的法律和法规。IBM 不提供任何法律咨询,也不声明或保证其服务或产品经确保客户遵循任何法律或法规。