我的 IBM 登录 订阅

什么是数据智能?

2024 年 12 月 13 日

作者

Matthew Kosinski

Enterprise Technology Writer

什么是数据智能?

数据智能 (DI) 将核心数据管理和元数据管理原理与高级工具(例如人工智能机器学习)相结合,以帮助组织了解企业数据的生成和使用方式。DI 洞察可以解锁数据的商业价值并促进数据驱动的决策

换句话说,数据智能可帮助组织回答有关其数据核心问题,包括:

  • 组织拥有哪些数据?为什么会存在这些数据?

  • 这些数据从何而来,又位于何处?

  • 谁在使用数据?他们如何使用它,以及他们应该如何使用它以获得最佳结果?

  • 不同的数据集如何相互关联?

数据智能通过使用一组相互关联的流程和工具来自动执行并简化元数据管理、数据发现、数据治理、质量保证、数据分析和其他活动,从而回答了这些问题。

根据 IBM 数据差异化因素的数据,多达 68% 的企业数据从未被分析过。由于触手可及的数据量庞大,组织可能难以应用质量控制和实施治理策略。用户无法始终为他们的工作找到合适的数据,甚至可能不知道这些数据何时存在。

数据智能的出现是为了解决这一问题,它将现有工具(如数据目录、数据沿袭解决方案、数据市场、人工智能 (AI) 和机器学习 (ML))整合到单个综合的过程中。

这个统一流程使组织能够更深入地洞察其数据并了解从中获取最大价值的方法。通过这种方式,DI 可以实现自助服务分析,并支持商业智能和生成式 AI 等关键举措。

数据智能与数据管理

数据管理是一门广泛的学科,它监督从创建到处置的整个数据生命周期。数据管理涉及收集、存储和处理数据的实用性,而数据智能则涉及对数据的理解。

数据智能与数据管理相辅相成,为组织提供所需的洞察分析,使其能够在采集、保护、清理和共享数据方面做出更明智的选择。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

数据智能的演变

自从 Web 2.0 问世和云计算兴起以来,各组织一直在从更多数据源(网络应用程序、业务系统、物联网设备)收集更多数据(客户数据、运营数据、交易数据)。生成式 AI 的诞生只会增加所有这些数据的价值和数量。

管理这些数据(跟踪其使用方式和变化情况、安全地进行存储、简化访问、使其保持干净和最新)可能十分困难。如果数据管理不当,数据消费者便很难找到他们所需的数据,更遑论从中获得可操作的洞察信息。

组织长期以来一直具备管理数据的能力,包括映射端到端数据生命周期的数据沿袭工具、定义使用策略的治理工具、数据分析和清理工具等等。然而,这些能力往往是零散的,分散在不同的产品和功能中。

数据智能学科的主要创新是将这些工具与先进的 AI 和 ML 技术结合在单个平台或紧密集成的数据堆栈中。

IDC 表示,当前的许多数据智能平台都是从数据目录工具发展而来的。自 2020 年以来,供应商越来越多地将其目录与辅助解决方案(例如数据沿袭工具和数据市场)捆绑在一起,或者将这些功能直接构建到其目录中。1

数据智能的核心支柱

数据智能是一个发展中的领域,不同的供应商和从业者对该学科提出了自己的看法。不过,大多数人都认为数据智能包括五项核心功能:

  • 元数据管理
  • 数据沿袭
  • 数据治理
  • 数据质量
  • 数据集成

元数据管理

元数据是有关数据点或数据集的信息,例如文件作者或大小。元数据管理是数据智能计划的基础,因为管理良好的元数据有助于用户轻松浏览复杂的数据系统。

元数据管理有助于对数据集进行组织、标记、过滤和分类,以便用户全面了解可用数据,并快速检索所需信息。

主动的元数据管理对于数据智能尤为重要。传统的元数据管理主要是手动的,而主动元数据管理则使用 AI 和 ML 来自动化元数据处理。

随着数据的转换和使用,其元数据可能会发生变化。主动元数据管理可跟踪这些变化,自动更新元数据,并使用元数据生成建议和警报。通过这种方式,它可以简化数据发现,提高数据信心,并实现规模化数据保护和治理。

数据沿袭

数据沿袭是随着时间的推移跟踪数据流的过程。它能让我们清楚地了解数据的来源、变化情况及其在数据管道中的最终目的地。

数据沿袭可帮助用户了解数据在整个生命周期中如何变化,从而使企业数据更加可靠。它还可以帮助组织检测错误、识别依赖关系并预测数据集的更改如何影响更广泛的企业运营和 IT 系统。

专家荟萃 | 播客

解码 AI:每周新闻摘要

加入我们的世界级专家团队,包括工程师、研究人员、产品负责人等,他们将穿透 AI 的喧嚣,为您带来最新的 AI 新闻和见解。

数据治理

数据治理通过定义和实施数据收集、所有权、存储、处理和使用的政策、标准和程序,帮助确保数据完整性数据安全

数据治理有助于维护安全、高质量的数据,而这些数据易于访问且符合相关的规则和规定。在数据智能工作中,治理政策可帮助用户了解他们如何能使用数据以及应如何使用数据。

例如,治理政策可以阻止数据科学家违反数据隐私法律,将敏感的客户数据提供给 AI 模型。

数据质量

数据质量工具和实践有助于确保数据集的准确性、完整性、有效性、一致性、唯一性、及时性和适用性。数据质量工作建立了用户对他们从企业数据中得出的结论和洞察分析的信任。

DI 计划通常也包括主数据管理 (MDM)。主数据是指组织涉及关键业务实体(如客户、产品和地点)的核心数据。MDM 可通过验证、合并、重复数据删除和扩充来确保这些数据的干净和一致。

数据集成

数据整合是组合和协调来自多个来源的数据以方便其用于分析、操作和决策的过程。整合可涉及数据格式标准化、将数据转换为更可用的格式,以及将不同来源的数据汇集到共享数据湖数据仓库湖仓一体

整合简化了数据访问和数据共享,使数据消费者更容易检索所需的数据并相互协作。

数据智能工具和科技

一些供应商提供数据智能平台,将各种特性和功能结合到一个解决方案中。其他公司则提供互补解决方案的集成组合。无论哪种情况,大多数数据智能计划背后的基本技术工具包括: 

  • 数据目录
  • 数据沿袭工具
  • 数据市场和产品中心
  • 人工智能和机器学习
  • 数据湖、数据仓库和湖仓一体

数据目录

数据目录使用元数据来创建组织中所有数据资产的详细、可搜索的库存清单。这使数据消费者能够轻松发现最适合任何分析或业务目的的数据。

除了盘点数据之外,许多现代数据目录还具有以下能力:

  • 数据治理机制,包括设置和执行数据使用和数据隐私政策的能力,例如通过自动编辑敏感信息。

  • 主动元数据管理,即使用 AI 和 ML 自动生成元数据,并在数据变化时更新记录。

  • 业务词汇表,允许组织为整个组织的关键术语、概念和核心实体创建标准定义和框架。

  • 数据质量控制,例如数据剖析、清理、验证和质量指标。

数据沿袭工具

数据沿袭工具自动映射数据流、转型和依赖关系,提供对数据生命周期的关键洞察分析。数据沿袭解决方案使组织能够了解数据的来源、数据如何在企业 IT 生态系统中移动、如何变化以及数据消费者如何使用它。

数据市场和产品中心

数据市场(也称为数据产品中心),即用户可访问和分享数据产品的数字平台。

数据产品是经过预包装、预处理、可立即使用的数据集或数据相关资产,人们可以使用它们来支持 BI、分析和数据科学工作。数据产品的示例包括经整理数据集、分析仪表板、机器学习模型、专用应用程序和数据可视化。

数据市场集中和简化了数据产品的创建、整理、管理和共享。数据市场有助于确保数据质量和集成治理框架的合规性。他们还通过自动化数据产品交付和实现来自不同来源的数据产品的大规模共享来消除数据孤岛。

人工智能和机器学习

AI 和 ML 工具、新型生成式 AI 应用程序和大型语言模型 (LLM) 有助于将数据智能实践提升到超越传统数据管理的范畴。无论是作为独立解决方案还是内置于其他工具中,AI 和 ML 都可以自动丰富数据和元数据,简化数据挖掘并实现高级 AI 数据管理

例如,集成式 LLM 可自动生成和更新数据目录中的元数据,从而提供更多便于用户理解的解释,以便更多利益相关者能更轻松地访问数据。由 LLM 提供支持的自然语言界面可让用户无需使用结构化查询语言 (SQL) 或其他专用语言即可查询数据集和揭示数据洞察信息。

AI 工具还可以帮助执行治理政策和质量控制,例如通过发现和分类敏感数据或识别重复的数据集。

数据湖、数据仓库和湖仓一体

数据湖、数据仓库和湖仓一体是具有不同特性和功能的数据管理与存储解决方案。

  • 数据仓库汇总、清理和准备数据,以便用于商业智能和数据分析工作。

  • 数据湖以低成本存储大量原始数据。

  • 湖仓一体将湖的灵活数据存储和仓库的高性能分析功能结合到一个解决方案中。

数据仓库、数据湖和湖仓一体使组织能够将来自不同来源的数据汇集到集中的仓库中,实现对据整合工作的支持。通过它们还可以更轻松地访问和使用数据,以供分析、BI、AI、ML 和数据科学应用程序使用。

数据智能的优点

数据智能可帮助组织:

  • 通过全面的数据目录、数据沿袭工具和积极的元数据管理,了解他们的数据。

  • 通过可搜索的数据目录、集成数据存储和集中式数据产品中心促进数据访问。

  • 通过自动更新的元数据、数据剖析和清理来确保数据质量。

  • 通过既定的治理策略和数据产品中心(托管着用于特定用途的精选资产)来指导数据的使用。

因此,组织可以获得诸如以下的优点:

数据民主化

数据智能通过为用户提供理解和使用企业数据所需的洞察分析来促进数据素养并实现自助分析。所有级别和所有角色的利益相关者都可以使用数据做出更明智的决策。

消除数据孤岛并降低数据复杂性

IBM 数据差异化因素报告称,82% 的企业会遭遇阻碍关键工作流程的数据孤岛。数据智能有助于通过集中、统一的数据目录和市场消除这些孤岛并降低数据基础设施的复杂性。

整个组织的用户都可以找到适合其目的的正确数据,从而提升运营效率并促进协作。

释放更多商业价值

据 Gartner 称,由于数据质量低下,组织平均会损失 1,290 万美元。2通过数据沿袭、数据分析与治理工作,数据智能可保持高水平的数据质量,因而组织可从其数据中获取更多价值。

风险管理和监管合规

数据智能将治理框架集成到关键数据访问点,例如数据目录和数据市场。这有助于确保数据消费者仅将数据用于授权目的,防止黑客攻击、盗窃、滥用和不合规行为。治理对于金融和医疗保健等受到高度监管的行业尤为重要。

数据智能、AI 和模型智能

根据 IBM 商业价值研究院的数据,表现最佳的 CEO 中有 72% 认为拥有最先进的生成式 AI 工具可以为组织带来竞争优势。先进的生成式 AI 需要大量高质量、易于获取的数据。

数据智能有助于提高数据质量、促进访问和执行治理政策,确保数据仅用于正确的目的,这是负责任 AI 的核心部分。

数据智能的一个特殊用例是在 AI 模型领域。模型智能是指理解、管理和治理组织产品组合中各种 AI 和 ML 模型生命周期的实践。

当今,许多组织并不依赖单一模型,而是使用多种模型来实现不同的目的。数据智能计划为组织提供了所需的透明度,使其能够以正确的理由为正确的模型选择正确的数据。

具体而言,数据智能可以帮助组织从治理角度(这些数据是否被授权用于该模型?)以及适用性角度(此数据是否准确且与此模型足够相关?)选择正确的数据

此外,许多供应商正在将模型管理功能纳入其数据智能产品。例如,一些数据目录正在引入模型目录功能,允许它们以盘点企业数据的相同方式盘点组织的 AI 和 ML 模型。

数据智能与其他数据工作流关联的方式

数据智能是一种了解组织所拥有的数据的方式,即数据的定义特征、如何访问以及如何使用。数据分析、数据科学和商业智能是使用这些数据的方式。

  • 数据分析从数据中提取可操作的洞察分析,以做出更好的决策。数据分析可以采取多种形式,例如预测性分析(使用数据对未来做出预测)和规范性分析(使用数据来确定下一步该做什么)。

  • 数据科学是一门结合了数学、统计学、编程、高级分析、AI、ML 和主题专业知识的专业学科。

  • 商业智能 (BI) 是指人们用来收集、管理和分析企业数据以便为业务运营提供信息的工具和技术。

数据智能通过帮助用户更好地理解和使用其组织的数据集来促进数据分析、数据科学和 BI。当用户知道组织拥有什么类型的数据以及这些数据可作什么用途时,他们可以更轻松地连接到适合其目的的正确数据集。

例如,数据科学家可以找到高质量、合规的数据来培训机器学习算法;BI 用户可以找到针对其特定领域专门编制的数据集。

脚注

所有链接均为 ibm.com 外部链接。

IDC MarketScape: Worldwide Data Intelligence Platform Software 2024 Vendor Assessment,IDC,2024 年 11 月。 

2 Data Quality: Best Practices for Accurate Insights,Gartner。

相关解决方案

相关解决方案

IBM Knowledge Catalog

通过智能编目和策略管理激活数据以用于 AI 和分析。IBM Knowledge Catalog 是一款数据治理软件,通过提供数据目录来自动执行数据发现、数据质量管理和数据保护等任务。

探索 Knowledge Catalog
IBM 数据智能解决方案

快速将原始数据转化为切实可行的洞察分析,统一数据治理、质量、沿袭和共享,为数据消费者提供可靠的情境化数据。

深入了解数据情报解决方案
数据和分析咨询服务

通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取后续步骤

查找、理解、整理和访问数据、知识资产及其关系,无论它们位于云端,还是本地。IBM Knowledge Catalog 是一款数据治理软件,通过提供数据目录来自动化数据发现、数据质量管理和数据保护等任务。

探索 IBM Knowledge Catalog 深入了解数据情报解决方案