主页 topics DataOps 什么是 DataOps?
深入了解 IBM Databand 订阅 AI 最新消息
包含云朵、饼图、象征符号图形的拼贴插图

发布日期:2024 年 4 月 5 日
撰稿人:Tim Mucci、Mark Scapicchio、Cole Stryker

什么是 DataOps?

DataOps 是一组协作式数据管理实践,旨在加快交付速度、保持质量、促进协作并从数据中提供最大价值。DataOps 以开发运维实践为蓝本,目标是确保以前孤立的开发功能实现自动化和敏捷性。DevOps 关注的是简化软件开发任务,而 DataOps 则专注于数据管理和数据分析流程的自动化。

DataOps 利用自动化技术来简化多项数据管理功能。这些功能包括在需要时在不同系统之间自动传输数据,以及实现流程自动化,以识别和解决数据中的不一致和错误。DataOps 优先实现重复和手动任务的自动化,以便让数据团队可以进行更具战略性的工作。

自动执行这些流程可以保护数据集,使它们随时可用和访问以用于分析目的,同时证明任务的执行一致且准确,以最大限度地减少人为错误。这些简化的工作流程可以在需要时加快数据交付速度,因为自动化管道可以更有效地处理大量数据。此外 DataOps 鼓励持续测试和监控数据管道以确保它们正常运行并得到正确治理。

DataOps 框架:4 个关键组件及其实施方法。
相关内容

DataOps:交互式指南

什么是现代数据平台?

为什么 DataOps 很重要?

手动数据管理任务非常耗时,而且业务需求总是在不断发展。从收集到交付的整个数据管理流程采用简化方法,确保组织足够灵活,能够处理具有挑战性的多步骤计划。它还允许数据团队在开发数据产品时管理爆炸式数据增长。

DataOps 的核心目的是打破数据生产者(上游用户)和数据使用者(下游用户)之间的开放孤岛,以确保对可靠数据源的访问。数据孤岛在限制访问和分析方面非常有效,因此通过跨部门统一数据,DataOps 促进了团队之间的协作,这些团队可以访问和分析相关数据以满足其独特需求。DataOps 强调数据和业务团队之间的沟通和协作可提高速度、可靠性、质量保证和治理。此外,随后的跨学科合作可以更全面地了解数据,从而实现更有见地的分析。

在 DataOps 框架中,由数据科学家、工程师、分析人员、IT 运营、数据管理、软件开发团队和业务线利益相关者组成的数据团队共同定义和实现业务目标。因此,随着数据量和类型的增长以及业务用户和数据科学家中新用例的出现,DataOps 有助于避免管理和交付成为瓶颈的常见挑战。DataOps 涉及实施数据管道编排、数据质量监控、治理、安全和自助服务数据访问平台等流程。

管道协调工具可管理数据流,并自动执行提取计划、数据转换和加载流程等任务。它们还可以自动执行复杂的工作流程,并确保数据管道平稳运行,从而帮助数据团队节省时间和资源。

数据质量监控可实时主动识别数据质量,确保用于分析的数据可靠且值得信赖。

治理流程可确保数据受到保护,并符合各种法规和组织策略。它们还定义谁对特定数据资产负责,规范谁有权访问或修改数据,并在数据流经管道时跟踪来源和转换,以提高透明度。

安全流程与治理协同工作,可保护数据免遭未经授权的访问、修改或丢失。安全流程包括数据加密、修补数据存储或管道中的漏洞以及从安全漏洞中恢复数据。

通过添加自助数据访问,DataOps 流程让数据分析人员和业务用户等下游利益相关者能够更轻松地访问和探索数据。自助访问减少了对 IT 数据检索的依赖,自动执行数据质量检查可带来更准确的分析和见解。

DataOps 与敏捷方法

DataOps 采用敏捷开发理念,为数据管理带来速度、灵活性和协作性。Agile 的定义原则是基于反馈和适应性的迭代开发和持续改进,目标是尽早并经常地向用户提供价值。

DataOps 从敏捷方法中借用了这些核心原则,并将其应用于数据管理。迭代开发是以小步骤构建一些东西,获得反馈并进行调整,然后进入下一步。在 DataOps 中,这意味着将数据管道分解为多个更小的阶段,以加快开发、测试和部署速度。这样可以更快地交付数据洞察分析(客户行为、流程效率低下问题、产品开发),并为数据团队提供空间来适应不断变化的需求。

对数据管道的持续监控和反馈有助于持续改进,确保数据交付保持高效。迭代周期可以更轻松地处理新的数据资源、不断变化的用户需求或业务需求,从而确保数据管理流程保持相关性。使用版本控制系统(如 Git)记录数据更改,以跟踪数据模型的修改并实现更简单的回滚。

协作和沟通是 Agile 的核心,DataOps 也反映了这一点。工程师、分析师和业务团队共同定义目标,并确保管道以可信、可用的数据形式提供业务价值。利益相关者、IT 和数据科学家有机会在持续的反馈循环中为流程增加价值,以帮助解决问题、打造更好的产品并提供值得信赖的数据洞察。

例如,如果目标是更新产品以取悦和愉悦用户,那么DataOps 团队可以检查组织数据以了解客户的需求,并利用这些信息来增强产品供应。

DataOps 的优势

DataOps 通过促进沟通、自动化流程和重用数据,而不是从头开始创建任何内容,来提高组织内的敏捷性。跨管道应用 DataOps 原则可提高数据质量,同时将数据团队成员从耗时的任务中解放出来。

自动化可以快速处理测试,并在数据堆栈的每一层提供端到端的可观察性,因此如果出现任何问题,数据团队将立即收到警报。这种自动化和可观察性的结合使数据团队能够主动解决停机事件,通常是在这些事件影响下游用户或活动之前。

因此,业务团队可以提高数据质量、减少问题出现,并可在整个组织内建立对数据驱动型决策的信任。这缩短数据产品的开发周期,并形成积极向数据访问民主化靠拢的组织方法。

随着数据使用的增加,数据使用方式也带来了监管方面的挑战。《通用数据保护条例》(GDPR) 和《加州消费者隐私法案》(CCPA) 等政府法规使公司的数据处理方式以及可以收集和使用的数据类型变得复杂。DataOps 可实现流程透明化,通过提供对管道的直接访问来解决治理和安全问题,让数据团队能够观察谁在使用数据、数据去向是哪里,以及谁拥有上游或下游权限。

DataOps 的最佳实践和实施

在实施方面,DataOps 首先要清理原始数据,然后开发可用的技术基础设施。

组织的 DataOps 流程开始运行后,协作至关重要。DataOps 强调业务团队和数据团队之间的协作,促进开放式沟通并打破孤岛。和敏捷软件开发一样,数据流程被分解为规模更小、适应能力更强的多个部分,以加快迭代速度。自动化用于简化数据管道,并最大限度减少人为错误。

建立数据驱动的文化也是至关重要的一步。投资提高用户数据素养可助力他们有效利用数据,从而形成持续反馈循环,收集洞察分析以提高数据质量并划分数据基础设施升级优先级。

DataOps 将数据本身视为产品,因此利益相关者尽早参与调整 KPI 并为关键数据制定服务级别协议 (SLA) 至关重要。在组织内部就什么是良好的数据达成共识,有助于让团队专注于重要的事情。

自动化和自助服务工具可以为用户赋能并提高决策速度。不是由运营团队满足业务团队出于权宜之计提出的请求(这会导致决策速度放慢),而是让业务利益相关者始终可以访问他们需要的数据。通过优先考虑高数据质量,企业可以确保为组织的各个层面提供可靠的洞察分析。

以下是一些与实施相关的最佳实践:

  • 尽早定义数据标准:从一开始就为数据和元数据设定明确的语义规则。
  • 组建多样化的 DataOps 团队:组建一支拥有各种技术技能和背景的团队。
  • 实现自动化以提高效率:利用数据科学和商业智能 (BI) 工具自动执行数据处理。
  • 打破孤岛:建立清晰的沟通渠道,鼓励多样化的团队共享数据和专业知识,采用数据集成和自动化工具消除孤岛和瓶颈。
  • 设计以实现可扩展性:构建一个可以扩展并适应不断增加的数据量的数据管道。
  • 基于验证进行构建:整合反馈循环,持续验证数据质量。
  • 安全实验:利用一次性环境模拟生产,进行安全实验。
  • 持续改进:采用“精益”方法,注重持续提高效率。
  • 持续衡量进展:建立基准并在整个数据生命周期内跟踪性能。
DataOps 生命周期

这一生命周期旨在提高数据质量、加快分析速度并促进整个组织的协作。

计划

这一阶段涉及业务、产品和工程团队之间的协作,旨在定义数据质量和可用性指标。

开发

在这一阶段,数据工程师和科学家构建数据产品和机器学习模型,为应用程序提供支持。

集成

这一阶段侧重于将代码和数据产品与组织的现有技术堆栈联系起来。比如将数据模型与工作流程自动化工具集成,实现自动执行。

测试

严格的测试确保数据准确性符合业务需求。测试可能涉及检查数据的完整性和完善性以及数据是否遵守业务规则。

发布和部署

首先将数据移至测试环境进行验证。验证后,数据可以部署到生产环境中,供应用程序和分析人员使用。

操作和监控

这一阶段会持续进行。数据管道持续运行,因此采用统计过程控制 (SPC) 等技术监控数据质量,及时识别和解决异常情况。

DataOps 工具和技术

正确应用工具和技术有助于成功实施 DataOps 所需的自动化。在五个关键领域采用自动化有助于在组织内建立可靠的 DataOps 实践。此外,由于 DataOps 是用于管理整个组织数据的整体框架,因此最佳工具将利用自动化和其他自助服务功能,让 DataOps 团队获得更大的自由度和更强的洞察力。

工具的实施是展示采用 DataOps 进展的一种方式,但成功实施该流程需要整体的组织愿景。如果企业只关注单一元素而忽略其他元素,那么实施 DataOps 流程不太可能带来任何好处。工具不会取代正在进行的规划、人员和流程;它的存在是为了支持和维持已经强大的数据优先文化。

以下是从自动化中获益最多的一些领域:

数据监护服务

DataOps 首先依赖于组织的数据架构。数据是否可信?是否可用?能否快速发现错误?能够在不中断数据管道的情况下进行更改?

通过自动执行数据管理任务(如数据清理、转换和标准化),可确保整个分析管道中的高质量数据,快速消除手动错误,从而让数据工程师腾出时间从事更具战略性的工作。

元数据管理

通过自动执行元数据捕获和沿袭情况跟踪,可清楚了解数据的来源、转换方式和使用方式。这种透明度对于数据治理至关重要,并有助于用户了解数据洞察分析的可信度。DataOps 流程越来越多地使用活动元数据作为管理数据信息的方法。不同于往往静态且孤立的传统元数据,活动元数据是动态的,并且集成在整个数据堆栈中,能提供更丰富、更情境化的数据资产视图。

数据治理

在数据治理方面,自动化可在管道中强制实施数据质量规则和访问控制。这降低了错误或未经授权访问的风险,提高了数据安全性和合规性。

Master Data Management

自动执行重复数据删除和跨系统同步等任务,可确保为客户或产品等核心业务实体提供单一可信信息源,而这正是有效数据管理的关键所在。这可以消除不一致,提高用于分析和报告的数据可靠性。

自助互动

自动化还能为业务用户提供用于数据访问和探索的自助服务工具。通过将自动化应用于自助服务交互,用户可以在不依赖 IT 的情况下查找和准备所需的数据,从而加速整个组织的数据驱动型决策。

DataOps 平台的职能

借助强大的 DataOps 平台组织可以解决低效的数据生成和处理问题并改善因错误和不一致而导致的数据质量问题。 以下是此类平台提供的核心功能:

数据摄取:一般来说,数据生命周期的第一步是将数据摄取到数据湖或数据仓库中,通过管道将数据转化为可用的洞察。组织需要一个能够大规模处理数据摄取的可靠工具。随着组织的发展,需要一个高效的数据摄取解决方案。

数据编排:企业内部的数据量和数据类型将继续增长,因此必须在数据增长失控之前对其进行管理。无限的资源是不可能的因此数据编排侧重于将多个管道任务组织到单个端到端流程中使数据能够在需要的时间和地点可预测地通过平台移动而无需工程师手动编码。

数据转换数据转换是指对原始数据进行清理、处理和准备,以供分析的过程。组织应该投资于能够更快地创建复杂模型的工具,并随着团队的扩展和数据量的增长而进行可靠的管理。

数据目录数据目录就像组织内所有数据资产的库。它组织、描述数据并使数据易于查找和理解。在 DataOps 中数据目录有助于为顺利进行数据操作奠定坚实的基础。数据目录是所有数据需求的单一参考点。

数据可观察性如果没有数据可观察性,组织就无法实施适当的 DataOps 实践。可观察性能够保护正在生成的数据产品的可靠性和准确性,并为上游和下游用户提供可靠的数据。

数据可观察性的五大支柱

DataOps 依靠数据可观察性的五大支柱来监控质量并防止停机,通过监控这五大支柱,DataOps 团队可以大致了解其数据运行状况,并可以主动解决影响其质量和可靠性的问题。最好的可观察性工具应该包括自动化谱系,以便工程师能够在生命周期的任何阶段了解组织数据的健康状况。

及时性

上次更新数据是什么时候?数据是否得以及时摄取?

分布

数据值是否在可接受范围内?数据格式是否正确?数据是否一致?

是否缺少任何数据?是否已成功导入所有数据?

模式

当前的数据结构是怎样的?结构上有没有什么变化?这些更改是故意的吗?

沿袭

数据的上游来源是什么?数据是如何转换的?谁是下游消费者?

相关产品
watsonx.data

IBM watsonx.data 使组织能够通过基于开放式湖仓一体架构构建的适用数据存储来扩展分析和 AI 从而扩展 AI 工作负载使用您的所有数据无论数据位于何处。

深入了解 watsonx.data

IBM Databand

Databand 是用于数据管道和仓库的可观察性软件,该软件会自动收集元数据来构建历史基线、检测异常并分类警报,以修复数据质量问题。通过持续的数据可观察性提供值得信赖且可靠的数据。

深入了解 IBM Databand

IBM Cloud Pak for Data

IBM Cloud Pak for Data 是一套模块化的集成软件组件,用于分析、整理和管理数据。既可以自助托管的形式提供,也可以作为 IBM Cloud 上的受管服务。

深入了解 Cloud Pak for Data
相关资源 数据民主化:数据架构如何推动业务决策和人工智能计划。

深入了解数据民主化的优点,以及公司如何克服向这种新数据方法过渡所面临的挑战。

IBM DataOps 简介

深入了解如何使用 IBM DataOps 方法和实践通过 DataOps 快速交付业务就绪数据。

统一 DataOps:组件、挑战和入门方法

了解统一的 DataOps 策略如何使公司能够充分利用其宝贵的信息资产同时确保遵守数据法规。

采取后续步骤

立即使用 IBM® Databand 实现主动数据可观察性,以便先于用户了解何时出现数据运行状况问题。

深入了解 Databand 预约实时演示