AI 隐私是指保护 AI 收集、使用、共享或存储的个人或敏感信息的做法。
AI 隐私与数据隐私密切相关。数据隐私,也称为信息隐私,是个人应控制其个人数据的原则。这种控制包括决定组织如何收集、存储和使用其数据的能力。但数据隐私的概念早在 AI 出现之前就有了,人们对数据隐私的看法也随着 AI 的出现而发生了变化。
“十年前,大多数人都是从网上购物的角度来考虑数据隐私的。斯坦福大学以人为中心的人工智能研究所研究员 Jennifer King 在该研究所网站上发布的一篇访谈中解释说:他们认为,'我不知道我是否关心这些公司是否知道我买了什么,我在寻找什么,因为有时这很有帮助'。"1
King 表示:“但现在我们看到企业开始转向这种无处不在的数据收集来培训 AI 系统,这可以对整个社会产生重大影响,尤其是我们的公民权利。”
我们通常可以将 AI 隐私问题追溯到数据收集、网络安全、模型设计和管理等方面。此类 AI 隐私风险包括:
与早期的技术进步相比,AI 可以说带来了更大的数据隐私风险,其中一个原因就是所涉及的信息量巨大。数 TB 或 PB 的文本、图像或视频经常被列为训练数据,其中不可避免地包含一些敏感数据:医疗保健信息、来自社交媒体网站的个人数据、个人财务数据、用于面部识别的生物特征数据等等。随着收集、存储和传输的敏感数据比以往任何时候都多,至少其中一些数据被暴露或以侵犯隐私权的方式被使用的可能性也就更大了。
在未征得被收集者明确同意或知情的情况下,为开发 AI 而获取数据,可能会引发争议。就网站和平台而言,用户越来越希望对自己的数据拥有更多自主权,并提高数据收集的透明度。最近,一些用户发现自己的数据被自动选中用于训练生成式 AI 模型后,职业网络网站 LinkedIn 面临反弹,这种期望也随之凸显。2
即使数据是在个人同意的情况下收集的,如果数据被用于最初披露的目的之外的目的,隐私风险仍然存在。King 说:“我们看到我们出于某种目的分享或发布的简历或照片等数据被重新用于训练 AI 系统,而这通常是在我们不知情或未同意的情况下。”例如,据报道,在加利福尼亚州,一名先前做过手术的患者发现一个 AI 训练数据集中使用了与她接受治疗相关的照片。病人声称,她签署了同意书,同意医生拍摄照片,但不同意将照片纳入数据集。3
无论是通过公共街道上的安全摄像头,还是通过个人电脑上的跟踪 cookies,与广泛和不受约束的监控有关的隐私问题早在 AI 扩散之前就已出现。但 AI 可能会加剧这些隐私问题,因为 AI 模型被用来分析监控数据。有时,这种分析的结果可能具有破坏性,尤其是当它们显示出偏见时。例如,在执法领域,一些对有色人种的错误逮捕与人工智能驱动的决策有关。4
决策者为防止技术进步损害个人隐私所做的努力至少可以追溯到 20 世纪 70 年代。然而,商业化数据收集和 AI 部署的快速增长为制定数据隐私法带来了新的紧迫性。这些法律包括:
GDPR 规定了控制者和处理者在处理个人数据时必须遵循的几项原则。根据目的限制原则,公司收集的任何数据都必须有特定、合法的目的。他们必须向用户传达相关目的,并且仅收集该目的所需的最少量数据。
公司还必须公平地使用数据。他们必须随时向用户通报个人数据的处理情况,并遵守数据保护规则。根据存储限制原则,公司仅限在实现其目的之前保留个人数据。一旦不再需要相关数据,就应将其删除。
欧盟 AI 法案 被认为是世界上首个全面的 AI 监管框架,该法案直接禁止某些 AI 用途,并对其他用途实施严格的治理、风险管理和透明度要求。
虽然欧盟 AI 法案没有专门针对 AI 隐私制定单独的、禁止的做法,但该法案确实对数据的使用施加了限制。禁止的 AI 实践包括:
高风险 AI 系统必须符合特定要求,例如采用严格的数据治理方法,确保训练、验证和测试数据符合特定的质量标准。
近年来,有关数据隐私的法律在美国多个司法管辖区生效。例如, California Consumer Privacy Act 和 Texas Data Privacy and Security Act。2024 年 3 月,犹他州颁布了《人工智能与政策法案》,这被认为是第一部专门规范 AI 使用的重要州立法规。
在联邦层面,美国政府尚未在全国范围内实施新的 AI 和数据隐私法。然而,2022 年,白宫科技政策办公室 (OSTP) 发布了 "AI 权利法案蓝图"。该不具约束力的框架规定了指导 AI 发展的五项原则,其中有一节专门涉及数据隐私,鼓励 AI 专业人员在使用数据时征得个人同意。
中国是最早颁布 AI 法规的国家之一。2023 年,中国发布了生成式人工智能服务管理暂行办法。根据该法,提供和使用生成式 AI 服务必须"尊重他人合法权益",要求"不得危害他人身心健康,不得侵害他人的肖像权、名誉权、荣誉权、隐私权、个人信息权"6
。
组织可以设计 AI 隐私方法来帮助遵守法规并与利益相关者建立信任。7OSTP 的建议包括:
在 AI 系统的整个开发生命周期中,都应对隐私风险进行评估和处理。这些风险可能包括对那些不是系统用户但其个人信息可能通过高级数据分析被推断出来的人可能造成的伤害。
各组织应将培训数据的收集限制在可合法收集的范围内,并"根据被收集数据者的期望"使用这些数据。除了这种数据最小化之外,公司还应制定数据保留的时间表,目标是尽快删除数据。
各组织应为公众提供对其数据进行"同意、访问和控制"的机制。如果促使收集数据的用例发生变化,应重新获得同意。
使用 AI 的组织应遵循安全最佳实践,以避免数据和元数据泄漏。这些做法可能包括使用加密、匿名和访问控制机制。
来自某些领域的数据应受到额外保护,并且仅在“狭义的上下文”中使用。这些“敏感领域”包括健康、就业、教育、刑事司法和个人理财。由儿童生成或关于儿童的数据也被视为敏感数据,即使其不属于列出的领域之一。
各组织应该响应个人的请求,了解他们的哪些数据正在被 AI 系统使用。各组织还应主动向公众提供有关如何使用、访问和存储个人数据的一般总结报告。关于敏感领域的数据,各组织还应报告导致数据泄漏的安全漏洞或破坏。
数据治理工具和计划可帮助企业遵循 OSTP 建议和其他 AI 隐私最佳实践。公司可以部署软件工具来:
随着 AI 和数据隐私法律的发展,新兴技术解决方案可以帮助企业跟上监管变化,并在监管机构要求审计时做好准备。先进的解决方案可自动识别监管变化,并将其转换为可执行的政策。
1“AI 时代的隐私:我们如何保护个人信息?”,Stanford University Institute of Human-Centered Artificial Intelligence,2024 年 3 月 18 日。
2“LinkedIn 秘密利用您的数据训练 AI — 以下介绍防范方法。”,PCMag,2024 年 9 月 18 日。
3“艺术家在流行的 AI 训练数据集中发现私人病历照片”,Ars Technica,2022 年 9 月 21 日。
4“当人工智能出错时”,Innocence Project,2023 年 9 月 19 日。
5“OpenAI CEO 承认一个错误导致一些 ChatGPT 用户可看到其他用户的对话标题”,CNBC,2023 年 4 月 17 日。
6《生成式人工智能服务管理暂行办法》,国家互联网信息办公室,2023 年 7 月 13 日。
7“人工智能隐私权利法案蓝图”,The White House Office of Science and Technology Policy,2024 年 9 月 19 日访问。