数据治理是数据管理的一个子集,是指安全高效地收集、处理和使用数据,以支持战略决策和改善业务成果的实践。
数据管理包括数据治理,也包括数据生命周期的其他领域,例如数据处理、数据存储和数据安全。此外,数据管理流程的各个方面都会相互影响。
由于数据管理的这些其他领域会对数据治理产生影响,因此各个团队必须合作设计并遵循数据治理策略。
例如,数据治理团队可能找出不同数据集之间的共性。如果他们要集成这些数据,则通常与数据管理团队合作以定义数据模型和数据架构,从而轻松在这些数据之间建立关联。
另一个例子是数据访问,其中数据治理团队可能会制定有关访问特定类型数据(例如个人身份信息 (PII))的政策。然后,数据管理团队将直接提供该访问权限,或创建提供该访问权限的机制,通常是通过基于角色的访问控制 (RBAC)。
数据治理框架详细说明了组织管理关键数据资产的结构和流程。它定义了数据所有权和责任,并规定了如何处理数据以保持数据质量、安全性和合规性。
没有放之四海而皆准的框架,因为框架通常是针对特定组织的独特数据系统、数据源、行业协议和政府法规量身定制的路线图。
数据治理框架通常涉及以下项目:
数据治理计划通常定义一个特定的目标或一组目标,例如提高数据质量、支持合规性或实现数据驱动的决策。他们还选择指标来衡量实现这些目标的进展情况。关键治理指标可能包括:
减少数据错误和冗余。
通过提高效率和加快产品上市速度来降低成本。
数据的一致性和完整性。
员工的数据知识水平和流程合规性。
治理计划还规定了所有相关人员的角色和职责:指导委员会、数据所有者、数据管理员和利益相关者。
治理框架围绕要治理的数据和所需的结果设置参数。这包括数据格式、数据模型、主数据管理 (MDM)、元数据、命名约定等设置指南。
治理框架通常映射数据流并定义如何收集、存储、移动和存档数据。它们可能还会确定支持治理工作和组织更广泛的数据架构的硬件、软件和服务。
一些治理框架可能会定义数据范围,即特定数据资产(例如主数据、元数据和历史数据)的访问参数。数据范围有助于确保用户和应用程序只能访问所需的数据,而任何人都无法访问不该访问的数据。
治理框架概述了测试、审计和记录保存程序,以维护治理计划的透明度和可解释性。
定期审计可以帮助验证用户是否遵守数据治理框架。审计还可以帮助确定治理计划必须发展的方式,以适应新的数据、流程或技术。
最后,审计还可以帮助组织实现并证明监管合规性。
技术在有效的数据治理中发挥着重要作用。企业版数据治理工具多种多样,既有综合平台,也有专门的单点解决方案。各组织根据其独特的数据架构和治理框架选择不同的工具。
数据治理解决方案的常见功能包括:
自动发现数据并进行分类。
执行数据保护规则和基于角色的访问控制。
满足隐私和合规要求。
实现元数据管理、数据编目和数据沿袭跟踪的自动化。
支持业务术语表。
数据治理解决方案可以处理各种数据格式。有些系统提供了可视化功能,以增强对复杂数据集和数据关系的理解,从而更容易识别趋势、异常值和需要关注的领域。
实施强大的数据治理框架可以帮助组织实现各种优势:
如果这些决策是基于有缺陷的数据,组织就无法做出有效的业务决策。数据治理可以通过创建一个支持强大数据管理的框架、强大的端到端数据管理流程,帮助确保数据的完整性、准确性、完整性和一致性。
值得信赖的数据可帮助组织发现新机会,更好地了解客户和工作流,并优化整体业务性能。
缺乏数据治理可能会导致性能指标出现错误,从而将组织引向错误的方向,而数据治理工具则可以在不准确的数据影响业务战略之前帮助解决这些问题。
例如,数据沿袭工具可以帮助数据所有者在数据的整个生命周期中跟踪数据,包括数据在提取、转换、加载 (ETL) 或提取、加载、转换 (ELT) 过程中经历的任何转换。这使组织能够识别并纠正数据错误的根本原因。
如果整个组织的数据访问受到限制,就会限制创新,造成对主题专家 (SME) 的依赖,并减缓业务流程。
数据治理计划适当分配数据访问权限,让每个部门或个人只能访问他们需要的数据。这使跨职能团队能够更紧密、更高效地合作,同时确保数据安全。
一个适当的已治理数据系统可以为整个组织提供单一可信信息源。如果所有各方都使用相同的数据集,就能改善决策。
将数据定义和元数据集中在单个数据目录中可以帮助减少混乱和低效率。反过来,该文档成为自助服务解决方案的基础,这些解决方案在组织内实现一致的数据和数据访问。
数据治理策略通常包括各种操作,以便更轻松地满足有关敏感数据和隐私的政府法规,例如欧盟的《通用数据保护条例》(GDPR)、美国的《健康保险流通和责任法案》(HIPAA) 以及《支付卡行业数据安全标准》(PCI DSS) 等行业要求。违反这些法规要求可能会导致昂贵的政府罚款和公众的强烈反对。
数据治理工具可帮助组织设置防护栏,防止数据泄露、外泄和滥用。治理框架可帮助构建清晰、可解释、公平且包容的数据系统。反过来,这些数据系统可以保护隐私与安全,并维持客户忠诚度和信任。
在 IDC 的一项调查中,只有 45.3% 的受访者表示,他们制定了“规则、政策和流程来执行负责任的 AI 原则”,以防范安全漏洞、责任问题、客户数据泄露和监管风险。1
数据治理包括了解组织使用的所有数据的来源、敏感性和生命周期。这是所有人工智能治理实践的基础,对于降低各种企业风险至关重要。
数据治理可帮助组织为 AI 和 ML 计划提供高质量数据,同时保护这些数据并遵守相关规则和法规。例如,治理工具可以帮助确保敏感的个人数据不会在不该提供给 AI 的情况下提供给 AI。
数据治理计划在实施过程中可能会面临许多障碍。其中的一些挑战包括:
有效的数据管理计划通常需要两个层面的支持:高管和个人贡献者。首席数据官 (CDO) 和数据监管员对于组织中的数据治理沟通和优先级确定至关重要。
CDO 可以对数据团队进行监督并实施问责制,以确保采用数据治理策略。数据监管员可以帮助提高数据生产者和消费者对这些策略的认识,以促进在组织中实现合规性。
如果没有适当的赞助,数据用户可能不知道或不关心治理政策。这可能会导致不合规、数据完整性不佳和数据安全受损。
如果没有正确的工具和数据架构,组织可能难以部署有效的数据治理计划。
例如,团队可能会发现不同职能部门的冗余数据。为实现有效治理,数据架构师需要开发适当的数据模型和数据架构,以合并和整合各存储系统的数据。
团队可能还需要采用数据目录来创建整个组织的数据资产库存。或者,如果他们已经有了元数据,他们可能需要创建一个元数据管理流程,这有助于确保基础数据的相关性和最新性。
自助式分析和商业智能的兴起给数据治理带来了新的挑战。
来自更多用户的访问请求比以前更快,但治理团队需要在速度和可访问性与隐私和安全问题之间取得平衡。此外,必须对流数据系统和程序进行微调,以避免数据泄露。
在提供 AI 培训和运营所需的数据时,许多数据存储和训练工具都存在不足。
毕竟,AI 本质上比标准 IT 驱动的流程和功能更复杂,这提升了主动和明智的数据治理的重要性。一份 KPMG 报告强调,AI 治理漏洞是目前威胁企业的最大风险之一。3 例如,如果没有适当的防护措施,AI 可能会无意中暴露敏感的 PII 或企业机密。
为了降低 AI 的风险和复杂性,组织可以将针对 AI 优化的数据存储功能与考虑到 AI 设计的数据治理计划相结合。
规划和创建数据治理框架需要多个利益相关者和团队花费时间和精力。各组织在实施治理计划时采用的常见做法包括:
自动执行数据治理流程的某些部分可以帮助提高效率并减少错误。数据治理和管理工具可以帮助自动执行日常任务,例如:
强大的数据安全和访问控制是所有数据治理框架的基础。同时,组织希望那些有权限查看和使用特定数据集的人能够尽可能顺畅地访问数据。如果无法方便地访问自助服务信息,协作和新洞察分析就会受到阻碍。
由于缺乏可视性,许多组织在管理数据方面举步维艰。中央数据目录可以作为单一可信信息源,实现数据集成和治理计划。
根据 Gartner 的一份报告,随着组织难以查找、清点和分析分布式和多样化的资产,对数据目录的需求正在上升。有了强大的数据目录,组织可以更轻松地定位和分类信息规模化,从而更好地执行数据治理策略。
许多组织发现制定明确的治理路线图很有帮助。成熟度模型可以提供这个路线图。
数据治理成熟度模型是一种帮助组织评估其数据治理计划的当前状态、设定目标并跟踪进展的工具。
组织可以建立定期评估和报告机制,对数据和治理指标进行长期监控。这些评估可以帮助组织发现问题并改进治理流程。
定期审查框架,并根据反馈、新法规或战略的变化进行调整,有助于保持框架的相关性和有效性。
此外,评估还可以培养一种重视数据的文化,将其作为一种战略资产,支持整个组织有效地使用商业智能和数据。
1 IDC MarketScape:2023 年全球人工智能治理平台供应商评估,IDC,2023 年。
2 当今云时代的数据合规需求,TechTarget 的企业战略集团,2023 年 4 月 (PDF)。
3 主要风险预测,KPMG,2024 年。
构建已治理数据基础,以加快取得数据结果并满足隐私和合规性要求。
借助 IBM Consulting,为《欧盟 AI 法案》做好准备并制定负责任的 AI 治理方法。
探索用于发现、质量和保护的数据治理软件。