为什么数据治理对企业 AI 至关重要

作者

Corey Keyser

Senior Product Manager - Data privacy and regulatory compliance

IBM

基于大型语言模型的人工智能近期取得的成功，促使市场更积极地思考 AI 如何变革企业流程。然而消费者与监管机构也对数据及 AI 模型本身的安全性日益关切。要实现安全、广泛的 AI 应用，我们必须在整个数据生命周期中践行 AI 治理，从而为消费者、企业和监管机构建立信心。但这具体意味着什么？

本质上，人工智能模型运作原理相当简单：它们接收数据，从中学习规律，继而生成输出。即便是 ChatGPT 和 Google Bard 等复杂大型语言模型 (LLM) 也不例外。正因如此，当我们致力于管理和规范 AI 模型部署时，首要任务是管控训练 AI 模型所用的数据。这种数据治理要求我们理解所用全部数据的来源、敏感度及生命周期。这是所有 AI 治理实践的基础，对规避企业多重风险至关重要。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

使用敏感数据训练 LLM 模型存在风险

为满足特定企业用例需求，大型语言模型可采用专有数据进行训练。例如，企业可以基于 ChatGPT 创建私有模型，并使用公司 CRM 销售数据对其进行训练。此类模型可部署为 Slack 聊天机器人，帮助销售团队快速获取诸如“X 产品去年赢得多少商机？”或者“更新 Z 产品与Y公司的合作进展”等查询答案。

可以想象，这些 LLM 能够轻松适配各类客户服务、人力资源或营销用例。我们甚至可能会看到它们辅助法律咨询和医疗诊断，成为医疗机构使用的一线诊断工具。但问题在于，这些用例都需要基于敏感专有数据训练 LLM。这本质上存在风险。其中一些风险包括：

1. 隐私与重新识别风险

AI 模型从训练数据中学习，但如果数据涉及隐私或敏感信息呢？大量数据都能直接或间接用于识别特定个体。因此，若使用企业客户专有数据训练 LLM，很可能出现模型在交互过程中泄露敏感信息的情况。

2. 模型内部学习数据

许多简单 AI 模型会经历训练阶段和训练暂停的部署阶段。但 LLM 有所不同。它们会捕捉对话的上下文进行学习，并据此生成回应。

这使得模型输入数据的管控工作变得极度复杂，因为我们不仅要关注初始训练数据。还需警惕每次模型查询时输入的内容。如果在对话中向模型输入敏感信息怎么办？我们能否准确识别信息敏感性并阻止模型在其他场景中使用这些信息？

3. 安全与访问风险

训练数据的敏感度在一定程度上决定了模型的敏感度。虽然我们已建立完善的数据访问控制机制，能够监控数据访问行为并实施动态数据遮蔽，但 AI 部署安全领域仍处于发展阶段。尽管相关解决方案不断涌现，我们仍无法完全根据使用者角色来控制模型输出的敏感度（例如：当模型识别到特定输出可能敏感时，能根据查询者身份可靠地调整输出内容）。因此，这些模型极易成为训练数据中各类敏感信息的泄漏渠道。

4. 知识产权风险

若使用 Drake 全部歌曲训练模型，而后模型开始生成模仿 Drake 风格的作品，这将引发何种后果？该模型是否构成对 Drake 的侵权？如何证明模型是否存在抄袭行为？

监管机构仍在探索这些问题，但对于任何从艺术知识产权中学习的生成式 AI，这都可能演变为重大隐患。预计未来将由此引发系列重要诉讼，唯有通过严格监控训练数据的知识产权方能规避风险。

5. 同意与 DSAR 风险

现代数据隐私监管的核心原则之一是同意权。用户必须同意其数据被使用，并有权要求删除数据。这为 AI 应用带来了独特挑战。

若使用敏感客户数据训练 AI 模型，该模型便会成为敏感数据的潜在泄露源。如果客户撤销企业使用其数据的授权（GDPR 合规要求），而企业已基于该数据完成模型训练，则必须停用原模型并重新训练，且过程中不得使用已撤销的数据。

要使 LLM 成为可靠的企业级软件，必须对训练数据实施治理，确保企业能信任数据安全性，并建立可追溯的数据使用审计链条。

AI 学院

AI 领域的信任、透明度和治理

AI 信任可以说是 AI 领域最重要的话题。这个话题会让人不知所措，也是情理之中的事情。我们将解析幻觉、偏见和风险等问题，并分享以合乎道德、负责且公平的方式采用 AI 的步骤。

转到视频集

LLM 的数据治理架构

关于 LLM 架构的最佳解析见于 a16z 发布的文章。其论述非常精彩，但作为长期专注于数据治理与隐私的从业者，我发现左上角“上下文数据 → 数据管道”环节存在缺失：数据治理。

当引入 IBM 数据治理解决方案后，该环节将呈现更完整的形态：

基于 IBM Knowledge Catalog 的数据治理解决方案提供多项核心功能，助力实现高级数据发现、自动化数据质量管控与数据保护。具体包括：

自动发现数据资产并添加业务上下文，确保统一认知
通过编目数据建立可审计的数据清单，实现自助式数据发现
精准识别敏感数据并实施主动防护，满足数据隐私与合规要求

上述最后环节常被忽视：隐私增强技术的实施。 如何在数据输入 AI 前消除敏感信息？ 可分三步实现：

识别需剔除的数据敏感成分（提示：这在数据发现阶段确立，并与数据“上下文”关联）
以不影响数据可用性的方式移除敏感数据（例如保持引用完整性、统计分布大体相当等）
记录前两步操作日志，确保模型使用数据时全程可追溯。这种追踪机制为审计提供便利。

通过 IBM watsonx 与数据编织构建可信生成式 AI 基础

IBM 通过 IBM watsonx 快速推进生成式 AI 能力建设，将其交予“AI 构建者”掌控。IBM watsonx.ai 作为企业级工作室，融合传统机器学习 (ML) 与基于基础模型的生成式 AI 能力。Watsonx 还包含 watsonx.data——基于开放湖仓一体架构的专属数据存储。它依托查询引擎、治理工具及开放数据格式，实现混合云环境下的数据访问与共享。

坚实的数据基础是 AI 成功落地的关键。借助 IBM 数据编织，客户可运用数据集成与治理能力构建适宜的 AI 数据基础设施，在数据被 watsonx.ai 和 watsonx.data 调用前，完成数据的采集、准备和整理。

IBM 提供可组合的数据编织解决方案，作为其开放可扩展 AI 产品服务组合的组成部分，该方案支持部署在第三方云平台。此解决方案涵盖数据治理、数据集成、数据可观测性、数据血缘、数据质量、实体解析及数据隐私管理能力。