深入了解 AI 时代的隐私问题

作者

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

这是创新的一个难题：随着技术的进步，使用技术的风险也在增加。

例如，加强数据收集和分析的工具也会增加个人数据和敏感信息出现在不属于它的地方的可能性。

这种特殊的风险（隐私风险）在人工智能 (AI) 时代尤为普遍，因为敏感信息会被收集并用于创建和微调 AI 和机器学习系统。随着政策制定者急于解决有关 AI 使用的隐私法规问题，他们为使用 AI 技术进行决策的企业带来了新的合规挑战。

尽管存在隐私和合规性问题，公司继续部署 AI 模型来提高生产力并解锁价值。让我们仔细看看影响当今社会和商业的 AI 隐私风险和保护措施。

什么是 AI 隐私？

AI 隐私是指保护 AI 收集、使用、共享或存储的个人或敏感信息的做法。

AI 隐私与数据隐私密切相关。数据隐私，也称为信息隐私，是个人应控制其个人数据的原则。这种控制包括决定组织如何收集、存储和使用其数据的能力。但数据隐私的概念早在 AI 出现之前就有了，人们对数据隐私的看法也随着 AI 的出现而发生了变化。

“十年前，大多数人都是从网上购物的角度来考虑数据隐私的。斯坦福大学以人为中心的人工智能研究所研究员 Jennifer King 在该研究所网站上发布的一篇访谈中解释说：他们认为，'我不知道我是否关心这些公司是否知道我买了什么，我在寻找什么，因为有时这很有帮助'。"¹

King 表示：“但现在我们看到企业开始转向这种无处不在的数据收集来培训 AI 系统，这可以对整个社会产生重大影响，尤其是我们的公民权利。”

了解 AI 的隐私风险

我们通常可以将 AI 隐私问题追溯到数据收集、网络安全、模型设计和管理等方面。此类 AI 隐私风险包括：

收集敏感数据
未经同意收集数据
未经许可使用数据
不受制约的监视和偏见
数据渗漏
数据泄露

收集敏感数据

与早期的技术进步相比，AI 可以说带来了更大的数据隐私风险，其中一个原因就是所涉及的信息量巨大。数 TB 或 PB 的文本、图像或视频经常被列为训练数据，其中不可避免地包含一些敏感数据：医疗保健信息、来自社交媒体网站的个人数据、个人财务数据、用于面部识别的生物特征数据等等。随着收集、存储和传输的敏感数据比以往任何时候都多，至少其中一些数据被暴露或以侵犯隐私权的方式被使用的可能性也就更大了。

未经同意收集数据

在未征得被收集者明确同意或知情的情况下，为开发 AI 而获取数据，可能会引发争议。就网站和平台而言，用户越来越希望对自己的数据拥有更多自主权，并提高数据收集的透明度。最近，一些用户发现自己的数据被自动选中用于训练生成式 AI 模型后，职业网络网站 LinkedIn 面临反弹，这种期望也随之凸显。²

未经许可使用数据

即使数据是在个人同意的情况下收集的，如果数据被用于最初披露的目的之外的目的，隐私风险仍然存在。King 说：“我们看到我们出于某种目的分享或发布的简历或照片等数据被重新用于训练 AI 系统，而这通常是在我们不知情或未同意的情况下。”例如，据报道，在加利福尼亚州，一名先前做过手术的患者发现一个 AI 训练数据集中使用了与她接受治疗相关的照片。病人声称，她签署了同意书，同意医生拍摄照片，但不同意将照片纳入数据集。³

不受制约的监视和偏见

无论是通过公共街道上的安全摄像头，还是通过个人电脑上的跟踪 cookies，与广泛和不受约束的监控有关的隐私问题早在 AI 扩散之前就已出现。但 AI 可能会加剧这些隐私问题，因为 AI 模型被用来分析监控数据。有时，这种分析的结果可能具有破坏性，尤其是当它们显示出偏见时。例如，在执法领域，一些对有色人种的错误逮捕与人工智能驱动的决策有关。⁴

数据渗漏

AI 模型包含大量敏感数据，让攻击者无法抗拒。"IBM 安全杰出工程师 Jeff Crume 在最近的一段 IBM 技术视频（链接位于 ibm.com 以外）中解释说："这些 [数据] 最终会成为有人试图击中的靶心。坏人可以通过各种策略从 AI 应用程序中进行数据渗漏（数据盗窃）。例如，在提示注入攻击中，黑客将恶意输入伪装成合法提示，操纵生成式 AI 系统暴露敏感数据。例如，黑客可能会使用正确的提示，诱骗由 LLM 驱动的虚拟助理转发私人文件。

数据泄露

数据泄露是指敏感数据的意外暴露，而一些 AI 模型已被证明容易受到此类数据泄露的影响。有一次，OpenAI 的大型语言模型 (LLM) ChatGPT 向一些用户展示了其他用户对话历史的标题，从而成为头条新闻。⁵ 小型专有 AI 模型也存在风险。例如，一家医疗保健公司根据客户数据开发了一款内部人工智能驱动诊断应用程序。该应用程序可能会无意中将客户的私人信息泄露给碰巧使用了特定提示的其他客户。即使是这种无意的数据共享也可能导致严重的隐私泄露。

跟踪有关隐私保护的法律

决策者为防止技术进步损害个人隐私所做的努力至少可以追溯到 20 世纪 70 年代。然而，商业化数据收集和 AI 部署的快速增长为制定数据隐私法带来了新的紧迫性。这些法律包括：

欧盟的《通用数据保护条例》(GDPR)

GDPR 规定了控制者和处理者在处理个人数据时必须遵循的几项原则。根据目的限制原则，公司收集的任何数据都必须有特定、合法的目的。他们必须向用户传达相关目的，并且仅收集该目的所需的最少量数据。

公司还必须公平地使用数据。他们必须随时向用户通报个人数据的处理情况，并遵守数据保护规则。根据存储限制原则，公司仅限在实现其目的之前保留个人数据。一旦不再需要相关数据，就应将其删除。

欧盟人工智能 (AI) 法案

欧盟 AI 法案被认为是世界上首个全面的 AI 监管框架，该法案直接禁止某些 AI 用途，并对其他用途实施严格的治理、风险管理和透明度要求。

虽然欧盟 AI 法案没有专门针对 AI 隐私制定单独的、禁止的做法，但该法案确实对数据的使用施加了限制。禁止的 AI 实践包括：

无针对性地从互联网或闭路电视 (CCTV) 上获取面部图像，用于面部识别数据库；以及
执法部门在公共场合使用实时远程生物识别系统（除非有例外情况，并且需要司法或独立行政当局的预先授权）

高风险 AI 系统必须符合特定要求，例如采用严格的数据治理方法，确保训练、验证和测试数据符合特定的质量标准。

美国隐私法规

近年来，有关数据隐私的法律在美国多个司法管辖区生效。例如， California Consumer Privacy Act 和 Texas Data Privacy and Security Act。2024 年 3 月，犹他州颁布了《人工智能与政策法案》，这被认为是第一部专门规范 AI 使用的重要州立法规。

在联邦层面，美国政府尚未在全国范围内实施新的 AI 和数据隐私法。然而，2022 年，白宫科技政策办公室 (OSTP) 发布了 "AI 权利法案蓝图"。该不具约束力的框架规定了指导 AI 发展的五项原则，其中有一节专门涉及数据隐私，鼓励 AI 专业人员在使用数据时征得个人同意。

中国的《生成式人工智能服务管理暂行办法》

中国是最早颁布 AI 法规的国家之一。2023 年，中国发布了生成式人工智能服务管理暂行办法。根据该法，提供和使用生成式 AI 服务必须"尊重他人合法权益"，要求"不得危害他人身心健康，不得侵害他人的肖像权、名誉权、荣誉权、隐私权、个人信息权"⁶
。

AI 隐私最佳实践

组织可以设计 AI 隐私方法来帮助遵守法规并与利益相关者建立信任。⁷OSTP 的建议包括：

进行风险评估
限制数据收集
寻求并确认同意
遵循安全最佳实践
为敏感领域的数据提供更多保护
数据收集和存储报告

进行风险评估

在 AI 系统的整个开发生命周期中，都应对隐私风险进行评估和处理。这些风险可能包括对那些不是系统用户但其个人信息可能通过高级数据分析被推断出来的人可能造成的伤害。

限制数据收集

各组织应将培训数据的收集限制在可合法收集的范围内，并"根据被收集数据者的期望"使用这些数据。除了这种数据最小化之外，公司还应制定数据保留的时间表，目标是尽快删除数据。

征求明确同意

各组织应为公众提供对其数据进行"同意、访问和控制"的机制。如果促使收集数据的用例发生变化，应重新获得同意。

遵循安全最佳实践

使用 AI 的组织应遵循安全最佳实践，以避免数据和元数据泄漏。这些做法可能包括使用加密、匿名和访问控制机制。

为敏感领域的数据提供更多保护

来自某些领域的数据应受到额外保护，并且仅在“狭义的上下文”中使用。这些“敏感领域”包括健康、就业、教育、刑事司法和个人理财。由儿童生成或关于儿童的数据也被视为敏感数据，即使其不属于列出的领域之一。

数据收集和存储报告

各组织应该响应个人的请求，了解他们的哪些数据正在被 AI 系统使用。各组织还应主动向公众提供有关如何使用、访问和存储个人数据的一般总结报告。关于敏感领域的数据，各组织还应报告导致数据泄漏的安全漏洞或破坏。

数据治理工具和计划可帮助企业遵循 OSTP 建议和其他 AI 隐私最佳实践。公司可以部署软件工具来：

对其使用的模型进行隐私风险评估
创建包含数据资产和隐私评估状态信息的仪表板
实现隐私问题管理，包括隐私所有者与数据所有者之间的合作
通过匿名化训练数据、加密数据和尽量减少机器学习算法使用的数据等方法，提高数据隐私（点击此处了解更多信息。）

随着 AI 和数据隐私法律的发展，新兴技术解决方案可以帮助企业跟上监管变化，并在监管机构要求审计时做好准备。先进的解决方案可自动识别监管变化，并将其转换为可执行的政策。

脚注

¹“AI 时代的隐私：我们如何保护个人信息？”，Stanford University Institute of Human-Centered Artificial Intelligence，2024 年 3 月 18 日。

²“LinkedIn 秘密利用您的数据训练 AI — 以下介绍防范方法。”，PCMag，2024 年 9 月 18 日。

³“艺术家在流行的 AI 训练数据集中发现私人病历照片”，Ars Technica，2022 年 9 月 21 日。

⁴“当人工智能出错时”，Innocence Project，2023 年 9 月 19 日。

⁵“OpenAI CEO 承认一个错误导致一些 ChatGPT 用户可看到其他用户的对话标题”，CNBC，2023 年 4 月 17 日。

⁶《生成式人工智能服务管理暂行办法》，国家互联网信息办公室，2023 年 7 月 13 日。

⁷“人工智能隐私权利法案蓝图”，The White House Office of Science and Technology Policy，2024 年 9 月 19 日访问。

2024 年数据泄露成本报告

数据泄露成本再创新高。获取重要见解，帮助您的安全和 IT 团队更好地管理风险并限制潜在损失。