什么是数据网格？| IBM

什么是数据网格？

数据网格是一种去中心化数据架构，它按特定业务领域（如市场营销、销售、客户服务等）组织数据，以便为既定数据集的生产者提供更多所有权。

生产者对特定领域数据的理解使其能够制定侧重于记录、质量和访问的数据治理政策，进而赋能全组织实现自助应用。虽然这种联合方法消除了与集中式单一系统相关的众多运营瓶颈，但这并不代表您无法使用传统存储系统，例如数据湖或数据仓库，这仅仅意味着其应用场景已从单一集中式数据平台转变为多个去中心化数据存储库。

值得注意的是，数据网格可促进云原生和云平台技术的普及，从而扩展并实现数据管理的目标。这一概念通常与微服务相提并论，以帮助受众理解其在该环境中的应用。由于该分布式架构对于扩展整个组织的数据需求大有帮助，因此可以推断：数据网格并不适用于各类企业，即小型企业无法从数据网格中获益，因为其企业数据不像大型组织那么复杂。

IT 科技咨询公司 ThoughtWorks 的技术总监 Zhamak Dehghani 因推广数据网格解决方案的理念而备受赞誉，该方案旨在解决集中式单一数据结构固有的挑战，例如数据可访问性和组织性。新冠疫情期间，该方案进一步加速应用，旨在推动文化变革并降低组织数据管理的复杂性。

数据网格的工作原理？

数据网格涉及企业思考数据方式的文化转型。数据不再是流程的副产品，而是其产品，数据生产者则是数据产品的拥有者。从历史上看，集中式基础设施团队会维护跨领域的数据所有权，但在数据网格模型下，产品思维的重点在于将这一所有权转移给主题专家，即生产者。他们了解主要数据消费者的情况及其利用特定领域运营和分析数据的方式，因此在设计 API 时能够考虑到消费者的最大利益。

尽管这种由领域驱动的设计还要求数据生产者负责记录语义定义、对元数据进行编目并设定权限和使用政策，但仍需依靠集中式数据治理团队来围绕数据执行此类标准和程序。此外，虽然在数据网格架构下，各领域团队要对其 ETL 数据管道负责，但这并不能消除对集中式数据工程团队的需求。不过，其责任更侧重于针对所存储的数据产品确定最佳数据基础设施解决方案。

正如微服务架构通过轻量级服务组合为面向企业或消费者的应用程序提供功能，数据网格同样能够利用功能域围绕数据设定参数，使数据成为可供组织内用户访问的产品。通过这种方式，数据网格可以实现更灵活的数据整合和互操作功能，以便用户立即使用来自多个领域的数据进行业务分析、数据科学实验等。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

数据网格与数据湖

如前所述，数据网格是一种分布式数据架构，其中数据按其领域进行组织，以便整个组织的用户更轻松地访问数据。数据湖是一种低成本存储环境，通常容纳着 PB 级的结构化、半结构化和非结构化数据，可用于业务分析、机器学习和其他广泛的应用程序。数据网格是一种数据架构方法，数据湖则是其中的一部分。但是，中央数据湖通常用作数据转储场，因为它经常用于采集尚未明确定义用途的数据。因此，它可能会退化为“数据沼泽”，即缺乏适当的数据质量和数据治理实践来提供富有洞察力的学习成果的数据湖。

数据网格与 data fabric 架构

data fabric 架构是一种架构概念，它侧重于数据提供者与数据消费者之间的数据价值链中的数据整合、数据工程和治理的自动化。data fabric 架构基于“活跃元数据”的概念，使用知识图谱、语义和人工智能/机器学习技术来发掘各类元数据（例如系统日志、社交信息等）中的模式，并应用此洞察分析来自动运行并协调数据价值链（例如，帮助数据消费者寻获数据产品，并为其自动预置该数据产品）。data fabric 架构与数据网格相辅相成，而非相互排斥。事实上，data fabric 架构可优化数据网格，因为它可以自动操控数据网格的关键部分，例如更快地创建数据产品、实施全球治理以及更轻松地编排多个数据产品组合。

数据网格的优势

数据民主化：数据网格架构可赋能多个数据源的自助式应用程序，将数据访问范围扩展至数据科学家、数据工程师和开发人员等技术资源之外。通过这种由领域驱动的设计，更易于发掘和访问数据，从而减少数据孤岛和运营瓶颈，加快决策速度，并使技术用户能够腾出时间来优先处理更能发挥其技能优势的任务。

成本效益：这一分布式架构不再采用批量数据处理，而是提倡通过云数据平台和流式管道来实时收集数据。云存储具备额外的成本优势，允许数据团队根据需要启动大型聚类，且只需为指定的存储付费。这意味着，如果您需要额外的计算能力，以便在几小时内（而不是几天内）运行一项任务，您可以通过购买额外的计算节点，在云数据平台上轻松实现目标。这也意味着它能提高存储成本的可见性，从而帮助工程团队优化预算和资源分配。

减少技术债务：集中式数据基础设施由于系统复杂且需要协作维护，会产生更多的技术债务。随着数据在存储库中不断累积，整个系统的速度也会变得迟缓。通过按领域所有权分配数据管道，数据团队就能更好地满足数据消费者的需求并减少存储系统的技术压力。他们还能通过提供用于交互的 API 以提高数据可访问性，从而减少个人请求的总量。

互操作性：在数据网格模型下，数据所有者就如何预先标准化与领域无关的数据字段达成一致，以提高互操作性。这样，当各领域团队构建数据集时，将能应用相关规则快速轻松地实现跨领域的数据链接。某些常见的标准化字段包括字段类型、元数据、架构标志等。实现跨领域的一致性，使数据消费者能够更轻松地与 API 交互，并开发应用程序从而更好地满足其业务需求。

安全性与合规性：数据网格架构有助于加强治理实践，因其可针对与领域无关的数据执行数据标准，并针对敏感数据实施访问控制。这确保组织遵循政府法规（如 HIPAA 限制），而该数据生态系统的结构通过支持数据审计来保障合规性。在数据网格架构中记录和跟踪数据并将可观测性嵌入系统，使审计人员能够了解哪些用户正在访问特定数据及其访问频率。

数据网格的用例

尽管分布式数据网格架构的普及仍在推进，但其已能够助力团队实现常见大数据用例的可扩展性目标。这些功能包括：

商业智能仪表板：随着新计划的推出，团队通常需要定制数据视图来了解这些项目的业绩。数据网格架构可以通过提高数据消费者的数据可访问性，满足此类灵活性和定制化的需求。
自动化虚拟助理：企业通常使用聊天机器人来支持客户服务中心和客户服务团队。由于常见问题可能涉及各种数据集，因此分布式数据架构可以为这些虚拟代理系统提供更多数据资产。
客户体验：客户数据使企业能够更好地了解其用户，从而提供更加个性化的体验。这一价值已在市场营销到医疗保健等多个行业中得到验证。
机器学习项目：通过实现与领域无关的数据标准化，数据科学家可以更轻松地整合来自各种数据源的数据，从而减少数据处理所花费的时间，并借此加快模型投入生产环境的速度，以实现自动化目标。

数据领导者的 AI 就绪数据指南

什么是数据网格？