数据共享是指将组织的数据资源提供给多个应用程序、用户和其他组织的过程。有效的数据共享是指将技术、实践、法律框架和组织工作相结合,以促进多个实体的安全访问而不影响数据完整性。
采用大数据分析的组织将数据视为资产组合中的宝贵战略资产。这些数据来自各种来源,例如源自软件应用程序的指标、客户行为数据以及来自设备和传感器的物联网 (IoT) 信号。
将数据视为图书馆中的书籍。数据共享类似于拥有一张借书证,允许组织中的每个人在需要时访问和借阅这些书籍。如果没有数据共享,每个部门就需要创建和维护自己的图书馆,从而导致重复、信息过时和资源狭窄。
共享数据的组织可以更有效地与合作伙伴协作、开拓新商机、建立新的合作伙伴关系,并通过数据产品和其他货币化方式创造收入来源。然而,要实现数据共享,必须致力于在整个生命周期内维护共享数据的完整性和可靠性,确保数据可信、连贯,有助于准确分析。成功的数据共享使利益相关者能够通过分析组织内部和外部的大量数据,获得有价值的观点,开发新的服务和技术,并为即将到来的趋势做好准备。
早在互联网发明之前,组织就开始共享数据,但数字素养、技术和云计算采用的进步实现了全球范围内的实时数据共享。数据存储和传输技术比以往任何时候都更加普及且更实惠。因此,政策和法规也在不断发展,以降低与数据共享相关的风险。数据共享不仅允许访问以进行分析和货币化,它还打破了业务部门和外部合作伙伴之间的障碍。不同的团队可以独立工作或相互合作,每个团队都从同一个最新数据源中提取数据。可用数据的数量和种类不断增加,使组织中的不同团队能够为实现更多的组织目标做出贡献。
将研究数据、运营数据或客户反馈等各种来源的信息相结合,可以提高服务性能,增加服务价值。例如,有权访问数据的业务部门可以使用数据分析,根据市场趋势和客户偏好做出决策,并制定成功的营销策略。
此外,利用数据共享,公共机构和组织能够以安全、合法和受管控的方式共享数据。数据共享卫生的一个重要部分包括:数据生产者使用准确的元数据仔细记录和标记数据集以支持可重复性。详细的描述和清晰的定义可以确保其他人能够轻松找到、发现和理解共享数据。
未来隐私论坛1 (FPF) 分析了公司与学术研究人员之间的数据共享合作关系,认为这些合作关系可以加速有益于社会的研究,扩大对有价值数据集的使用,并提高研究结果的可复制性。随着数据共享变得越来越普遍,利益相关者正在采取积极措施,通过使用数据共享协议 (DSA) 和隐私增强技术 (PET) 来应对风险和数据泄露。
IBM 在数据共享实践中采用了严格的隐私和安全协议,包括在与大学、非营利组织和研究实验室共享数据之前使用 PET 对数据进行匿名化,这是一个很好的示例。IBM 的方法支持科学发现,同时保护敏感数据,促进更安全、更有效的合作伙伴关系。例如,IBM 与澳大利亚的 Melbourne Water 合作分析数据,旨在减少能源排放。新冠疫情期间,IBM 处理了 SARS-CoV-2 基因组序列,为研究资料库提供了超过 300 万个序列。
美国非营利组织 Benefits Data Trust 提供了另一个令人信服的数据共享价值用例。2Benefits Data Trust (BDT) 致力于促进美国各州以及相关组织在美国医疗保健业和教育业有关领域实现数据共享。通过数据共享协议,BDT 提高了补充营养协助计划 (SNAP) 和医疗补助等重要公共项目的注册人数。
南卡罗来纳州社会服务部与 BDT 对每月医疗补助和 SNAP 名单进行了比较,确定了未参加该计划的符合条件的个人。自 2015 年以来,这一举措已使超过 20,000 人注册参加 SNAP,因此改善了弱势群体获得营养协助的状况。宾夕法尼亚州的类似工作也取得了成功,自 2005 年以来,通过数据共享,帮助约 240,000 人参加了各种公共协助计划。
虽然数据共享为企业带来了许多好处,但也带来了风险。敏感信息分发不当时,可能会使组织面临监管、竞争、财务和安全风险。数据消费者对数据质量和可用性的控制有限。低质量数据还可能隐藏针对性别、种族、宗教或民族的偏见。
数据治理流程建立政策、标准和最佳实践,以安全、准确和一致地管理整个组织的数据。有效的治理可以限制访问权限,以便只有授权用户才有数据使用权限。治理还可以保护、分类并帮助确保数据使用符合法律和监管机构的要求。
每个组织都有法律和道德义务来保护所管理客户数据的隐私。加密和数据校订等技术可以实现安全的数据共享,同时保护隐私。然而,数据生产者和消费者之间缺乏沟通可能引起误解,从而导致在制定报告或参与数据驱动的决策计划时做出错误假设。
例如,2012 年,由于团队之间缺乏沟通和协调,Knight Capital Group3 遭受了交易故障,导致他们在短短 45 分钟内损失 4.4 亿美元。因软件更新无意中激活了未经测试、未记录且处于休眠状态的嵌入式软件。由于开发人员未能有效地传达这些变化对交易者系统的潜在影响,因此错误交易高速运行,造成了重大财务损失。
过去,数据移动成本高昂,尤其是通过资源密集型提取、转换、加载 (ETL) 流程,因此阻碍实现广泛的数据共享。维护数据质量和治理最佳实践可能是一项挑战,尤其是在处理大量数据时。通过网络安全共享大型数据集既耗时且技术含量高,并且需要在存储和基础设施方面进行大量投资。
数据安全需要严格的保护措施和教育,以保护敏感数据。数据共享过程中跨网络和平台传输的信息容易受到未经授权的访问、数据泄露和网络攻击等威胁。此外,在与外部合作伙伴、利益相关者或第三方供应商共享数据时,组织必须遵守复杂的数据隐私法律和法规。
在数据共享中实施最佳实践有助于组织最大限度地提高收益,同时最大限度地降低风险。
数据市场允许组织安全地共享数据和数据产品并从中获得收益。数据市场有几种不同类型:
公共数据市场为参与者购买和出售数据及相关服务提供安全的环境,从而保证数据提供商的高质量和一致性。公司可以使用数据市场获取第三方数据,以丰富现有数据集或提供新数据产品和服务并从中获得收益。
每种数据共享类型在促进安全信息交换方面都发挥着特定作用。
企业组织之间使用最广泛的数据共享技术类型包括数据仓库和湖仓一体。这些现代数据架构系统为来自多个业务部门的大数据收集、存储和共享提供中央存储库。这些架构通常包括前端客户端、分析引擎和数据库服务器等各层。
应用程序编程接口 (API) 允许软件组件传达共享定义和协议。数据共享 API 支持细粒度访问控制和权限,指定消费者可以请求和不可以请求的数据。
联合学习、区块链技术和数据交换平台是支持数据共享的其他技术。联合学习允许 AI 系统在不移动数据的情况下对来自不同来源的分布式数据集进行训练。区块链提供透明、不可篡改账本,用于跟踪交易,包括开放式数据交换相关交易,为数据共享过程提供完整性和安全性。
安全文件传输协议 (SFTP) 和电子邮件等传统技术支持与供应商无关的自主开发解决方案,但安全性和管理难度越来越大。它们缺乏高级安全功能,例如静态加密、细粒度数据访问控制和自动审计,而这些功能在现代解决方案中更为常见。
现代数据解决方案注重安全的数据共享,而云数据存储能够提供可扩展性和可靠性,但在可访问性和安全性方面存在局限。特定于供应商的数据共享解决方案可提供内置的安全性和可扩展性,但它们通常伴随着供应商锁定,会导致灵活性受限以及长期成本增加。
隐私增强技术、数据洁净室和其他技术正在通过自动化增强数据操作。这些趋势凸显了在处理和分析数据时向隐私、去中心化和 AI 驱动型方法的转变。
数据共享的未来趋势凸显隐私的日益重要性。安全多方计算和数据屏蔽等隐私增强技术正成为平衡无缝数据共享和安全数据保护的关键。采用 PET 可以为公司带来竞争优势,因为这些工具已成为公司运营不可或缺的一部分。
数据洁净室是注重隐私的安全环境,多方可以在其中协作处理数据,而无需共享原始数据。它们允许公司在保护敏感数据的同时执行分析并获得洞察分析,因此它仍然符合隐私法规。洁净室可以防止个人信息泄露并允许共享汇总的匿名数据,从而有助于维护合作伙伴之间的信任。
数据网格允许组织将数据视为产品,使其成为自助服务形式的可发现和可使用数据产品。这种方法允许业务部门独立创建和管理数据产品。它还有助于跨各种平台和技术集中查看数据,从而改善连接性和洞察分析,而无需单独的数据平台。
大型语言模型 (LLM) 可以通过自动执行数据剖析、建模和集成等任务,简化数据工程和操作,从而提高数据质量。在现有数据基础设施中部署生成式 AI 可以帮助组织更高效地处理日常任务,从而释放资源,以进行更复杂的分析和决策。
在整个生命周期将数据作为产品进行管理。通过强大的数据产品版本管理、维护和更新系统,掌控数据产品从载入到报废的整个生命周期。
快速将原始数据转化为可操作的洞察分析,统一数据治理、质量、沿袭和共享,为数据消费者提供可靠的情境化数据。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
1 Data sharing for research,未来隐私论坛,2022 年 8 月
2 Knight Capital Group stock trading disruption,维基百科,2012 年 8 月