什么是数据治理?

一名成年男子正在观看同事在工作中展示的数字平板电脑

作者

Jim Holdsworth

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

什么是数据治理?

数据治理是侧重于组织数据的质量、安全性和可用性的数据管理学科。数据治理通过定义和实施数据收集、所有权、存储、处理和使用的政策、标准和程序,帮助确保数据完整性数据安全,并为 AI、大数据分析和数字化转型提供支撑。

数据治理的目标是维护安全、高质量的数据,以使得数据发现和商业智能的项目能够轻松访问。数据治理功能就像一个空中交通管制中心,有助于确保经过验证的数据通过安全的管道流向可信的端点和用户。

人工智能 (AI)大数据数字化转型工作是数据治理计划的主要驱动力。随着物联网 (IoT) 技术等新数据源产生的数据量不断增加,组织需要重新考虑其数据管理做法以扩展商业智能 (BI) 工作。

数据治理计划可以通过提高数据质量、减少数据孤岛、执行合规性和安全策略以及适当分配数据访问权限来帮助组织保护和管理大量数据。

数据治理与数据管理

数据治理是数据管理的一个子集,是指安全高效地收集、处理和使用数据,以支持战略决策和改善业务成果的实践。

数据管理包括数据治理,也包括数据生命周期的其他领域,例如数据处理、数据存储和数据安全。此外,数据管理流程的各个方面都会相互影响。

由于数据管理的这些其他领域会对数据治理产生影响,因此各个团队必须合作设计并遵循数据治理策略。

例如,数据治理团队可能找出不同数据集之间的共性。如果他们要集成这些数据,则通常与数据管理团队合作以定义数据模型数据架构,从而轻松在这些数据之间建立关联。

另一个例子是数据访问,其中数据治理团队可能会制定有关访问特定类型数据(例如个人身份信息 (PII))的政策。然后,数据管理团队将直接提供该访问权限,或创建提供该访问权限的机制,通常是通过基于角色的访问控制 (RBAC)

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

数据治理框架

数据治理框架详细说明了组织管理关键数据资产的结构和流程。它定义了数据所有权和责任,并规定了如何处理数据以保持数据质量、安全性和合规性。

没有放之四海而皆准的框架,因为框架通常是针对特定组织的独特数据系统、数据源、行业协议和政府法规量身定制的路线图。

数据治理框架通常涉及以下项目:

  • 计划目标、角色和职责
  • 数据标准、政策和流程
  • 审计程序
  • 数据治理工具

 

计划目标、角色和职责

数据治理计划通常定义一个特定的目标或一组目标,例如提高数据质量、支持合规性或实现数据驱动的决策。他们还选择指标来衡量实现这些目标的进展情况。关键治理指标可能包括:

 

  • 减少数据错误和冗余。

  • 通过提高效率和加快产品上市速度来降低成本。

  • 数据的一致性和完整性。

  • 员工的数据知识水平和流程合规性。

 

治理计划还规定了所有相关人员的角色和职责:指导委员会、数据所有者、数据管理员和利益相关者。

 

  • 指导委员会或治理委员会的成员负责监督数据治理战略和框架的总体方向。该委员会通常包括高层管理人员,如 C 级管理层或副总裁,他们负责监督各个部门。
     
  • 数据所有者负责监督各个业务部门的特定数据域。这些人员负责维护数据的准确性、质量和一致性,并就数据治理解决方案、数据政策和监管要求提供意见。

  • 数据管理员负责特定数据域的日常管理。

  • 利益相关者和业务团队是企业数据的使用者。

 

数据标准、政策和流程

治理框架围绕要治理的数据和所需的结果设置参数。这包括数据格式、数据模型主数据管理 (MDM)、元数据、命名约定等设置指南。

治理框架通常映射数据流并定义如何收集、存储、移动和存档数据。它们可能还会确定支持治理工作和组织更广泛的数据架构的硬件、软件和服务。

一些治理框架可能会定义数据范围,即特定数据资产(例如主数据、元数据和历史数据)的访问参数。数据范围有助于确保用户和应用程序只能访问所需的数据,而任何人都无法访问不该访问的数据。

审计程序

治理框架概述了测试、审计和记录保存程序,以维护治理计划的透明度和可解释性。

定期审计可以帮助验证用户是否遵守数据治理框架。审计还可以帮助确定治理计划必须发展的方式,以适应新的数据、流程或技术。

最后,审计还可以帮助组织实现并证明监管合规性。

数据治理工具

技术在有效的数据治理中发挥着重要作用。企业版数据治理工具多种多样,既有综合平台,也有专门的单点解决方案。各组织根据其独特的数据架构和治理框架选择不同的工具。

数据治理解决方案的常见功能包括:

 

  • 自动发现数据并进行分类。

  • 执行数据保护规则和基于角色的访问控制。

  • 满足隐私和合规要求。

  • 实现元数据管理、数据编目和数据沿袭跟踪的自动化。

  • 支持业务术语表。

 

数据治理解决方案可以处理各种数据格式。有些系统提供了可视化功能,以增强对复杂数据集和数据关系的理解,从而更容易识别趋势、异常值和需要关注的领域。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

数据治理的优点

实施强大的数据治理框架可以帮助组织实现各种优势:

 

  • 从企业数据中获取更多价值
  • 促进创新和效率
  • 提供单一可信信息源 (SSOT)
  • 帮助确保数据隐私、安全和合规性
  • 安全地将数据用于 AI 计划
  • 实现更准确的数据分析

 

从企业数据中获取更多价值

如果这些决策是基于有缺陷的数据,组织就无法做出有效的业务决策。数据治理可以通过创建一个支持强大数据管理的框架、强大的端到端数据管理流程,帮助确保数据的完整性、准确性、完整性和一致性。

值得信赖的数据可帮助组织发现新机会,更好地了解客户和工作流,并优化整体业务性能。

缺乏数据治理可能会导致性能指标出现错误,从而将组织引向错误的方向,而数据治理工具则可以在不准确的数据影响业务战略之前帮助解决这些问题。

例如,数据沿袭工具可以帮助数据所有者在数据的整个生命周期中跟踪数据,包括数据在提取、转换、加载 (ETL) 或提取、加载、转换 (ELT) 过程中经历的任何转换。这使组织能够识别并纠正数据错误的根本原因。

促进创新和效率

如果整个组织的数据访问受到限制,就会限制创新,造成对主题专家 (SME) 的依赖,并减缓业务流程。

数据治理计划适当分配数据访问权限,让每个部门或个人只能访问他们需要的数据。这使跨职能团队能够更紧密、更高效地合作,同时确保数据安全。 

提供单一可信信息源 (SSOT)

一个适当的已治理数据系统可以为整个组织提供单一可信信息源。如果所有各方都使用相同的数据集,就能改善决策。

将数据定义和元数据集中在单个数据目录中可以帮助减少混乱和低效率。反过来,该文档成为自助服务解决方案的基础,这些解决方案在组织内实现一致的数据和数据访问。

帮助确保数据隐私、安全和合规性

数据治理策略通常包括各种操作,以便更轻松地满足有关敏感数据和隐私的政府法规,例如欧盟的《通用数据保护条例》(GDPR)、美国的《健康保险流通和责任法案》(HIPAA) 以及《支付卡行业数据安全标准》(PCI DSS) 等行业要求。违反这些法规要求可能会导致昂贵的政府罚款和公众的强烈反对。

数据治理工具可帮助组织设置防护栏,防止数据泄露、外泄和滥用。治理框架可帮助构建清晰、可解释、公平且包容的数据系统。反过来,这些数据系统可以保护隐私与安全,并维持客户忠诚度和信任。

安全地将数据用于 AI 计划

在 IDC 的一项调查中,只有 45.3% 的受访者表示,他们制定了“规则、政策和流程来执行负责任的 AI 原则”,以防范安全漏洞、责任问题、客户数据泄露和监管风险。1

数据治理包括了解组织使用的所有数据的来源、敏感性和生命周期。这是所有人工智能治理实践的基础,对于降低各种企业风险至关重要。

数据治理可帮助组织为 AI 和 ML 计划提供高质量数据,同时保护这些数据并遵守相关规则和法规。例如,治理工具可以帮助确保敏感的个人数据不会在不该提供给 AI 的情况下提供给 AI。

实现更准确的数据分析

拥有正确的数据是高级数据分析和数据科学计划的基础。已治理数据可以实现有价值的计划,例如商业智能报告或更复杂的预测机器学习 (ML) 项目。

例如,正确剖析数据(检查和清理数据以更好地了解其结构)有助于更好地了解不同数据集和数据来源之间的关系。

数据治理的挑战

数据治理计划在实施过程中可能会面临许多障碍。其中的一些挑战包括:

 

  • 缺乏适当的支持
  • 数据架构不一致
  • 数据可见性和控制
  • 访问需求增加
  • AI 数据要求

 

缺乏适当的支持

有效的数据管理计划通常需要两个层面的支持:高管和个人贡献者。首席数据官 (CDO) 和数据监管员对于组织中的数据治理沟通和优先级确定至关重要。

CDO 可以对数据团队进行监督并实施问责制,以确保采用数据治理策略。数据监管员可以帮助提高数据生产者和消费者对这些策略的认识,以促进在组织中实现合规性。

如果没有适当的赞助,数据用户可能不知道或不关心治理政策。这可能会导致不合规、数据完整性不佳和数据安全受损。

数据架构不一致

如果没有正确的工具和数据架构,组织可能难以部署有效的数据治理计划。

例如,团队可能会发现不同职能部门的冗余数据。为实现有效治理,数据架构师需要开发适当的数据模型和数据架构,以合并和整合各存储系统的数据。

团队可能还需要采用数据目录来创建整个组织的数据资产库存。或者,如果他们已经有了元数据,他们可能需要创建一个元数据管理流程,这有助于确保基础数据的相关性和最新性。

数据可见性和控制

数据治理,特别是在混合多云环境中,往往涉及以多种格式存储在多个提供商和地点的数据。此外,数据可能存在于不同类型的数据存储中,如数据湖湖仓一体数据仓库

影子 IT 会给这一过程带来额外的麻烦。在 TechTarget 的一项研究中,第二大最常见的数据安全挑战是员工在未经 IT 批准的情况下注册云应用程序和服务。2

数据的这种分布会给跟踪和监控数据流和数据使用带来困难。 数据治理要求清楚了解数据来源、目的地、转换、依赖关系、所有权、访问权限和责任。

在多个环境中执行数据治理策略可能需要在不同利益相关者(例如数据所有者、数据管理员、数据消费者和数据监管者)之间进行协调。

访问需求增加

自助式分析和商业智能的兴起给数据治理带来了新的挑战。

来自更多用户的访问请求比以前更快,但治理团队需要在速度和可访问性与隐私和安全问题之间取得平衡。此外,必须对流数据系统和程序进行微调,以避免数据泄露。

AI 数据要求

在提供 AI 培训和运营所需的数据时,许多数据存储和训练工具都存在不足。

毕竟,AI 本质上比标准 IT 驱动的流程和功能更复杂,这提升了主动和明智的数据治理的重要性。一份 KPMG 报告强调,AI 治理漏洞是目前威胁企业的最大风险之一。3 例如,如果没有适当的防护措施,AI 可能会无意中暴露敏感的 PII 或企业机密。

为了降低 AI 的风险和复杂性,组织可以将针对 AI 优化的数据存储功能与考虑到 AI 设计的数据治理计划相结合。

数据治理最佳实践

规划和创建数据治理框架需要多个利益相关者和团队花费时间和精力。各组织在实施治理计划时采用的常见做法包括:

 

  • 自动提高效率
  • 兼顾便利性和数据安全性
  • 构建数据目录
  • 使用成熟度模型
  • 持续监测和改进

 

自动提高效率

自动执行数据治理流程的某些部分可以帮助提高效率并减少错误。数据治理和管理工具可以帮助自动执行日常任务,例如:

 

  • 构建数据沿袭,帮助可视化系统中的数据流,而无需复杂的手工编码解决方案。

  • 传播策略将元数据标签分配给特定数据元素(例如列或表),以将其标识为敏感信息。

  • 生成审计日志,记录数据交互,了解员工如何使用数据。

  • 数据分类基于预定义的类别,例如 PII、财务数据、知识产权或机密信息。

 

兼顾便利性和数据安全性

强大的数据安全和访问控制是所有数据治理框架的基础。同时,组织希望那些有权限查看和使用特定数据集的人能够尽可能顺畅地访问数据。如果无法方便地访问自助服务信息,协作和新洞察分析就会受到阻碍。

构建数据目录

由于缺乏可视性,许多组织在管理数据方面举步维艰。中央数据目录可以作为单一可信信息源,实现数据集成和治理计划。

根据 Gartner 的一份报告,随着组织难以查找、清点和分析分布式和多样化的资产,对数据目录的需求正在上升。有了强大的数据目录,组织可以更轻松地定位和分类信息规模化,从而更好地执行数据治理策略。

使用成熟度模型

许多组织发现制定明确的治理路线图很有帮助。成熟度模型可以提供这个路线图。

数据治理成熟度模型是一种帮助组织评估其数据治理计划的当前状态、设定目标并跟踪进展的工具。

持续监测和改进

组织可以建立定期评估和报告机制,对数据和治理指标进行长期监控。这些评估可以帮助组织发现问题并改进治理流程。

定期审查框架,并根据反馈、新法规或战略的变化进行调整,有助于保持框架的相关性和有效性。

此外,评估还可以培养一种重视数据的文化,将其作为一种战略资产,支持整个组织有效地使用商业智能和数据。

脚注

1 IDC MarketScape:2023 年全球人工智能治理平台供应商评估,IDC2023 年。

2 当今云时代的数据合规需求,TechTarget 的企业战略集团,2023 年 4 月 (PDF)。

3 主要风险预测KPMG2024 年。

相关解决方案
使用 IBM Cloud Pak for Data 进行数据治理

构建已治理数据基础,以加快取得数据结果并满足隐私和合规性要求。

深入了解 Cloud Pak for Data
人工智能治理咨询服务

借助 IBM Consulting,为《欧盟 AI 法案》做好准备并制定负责任的 AI 治理方法。

了解 AI 治理服务
IBM Knowledge Catalog

探索用于发现、质量和保护的数据治理软件。

探索 Knowledge Catalog
采取后续步骤

构建已治理数据基础,以加快取得数据结果并满足隐私和合规性要求。

深入了解 Cloud Pak for Data 发现人工智能治理服务