知识图谱也称为语义网络,表示现实世界实体(即对象、事件、状况或概念)的网络,并说明它们之间的关系。 这些信息通常存储在图形数据库中,并以图形结构直观呈现出来,即为知识“图”。
一个知识图谱主要由三个部分组成:节点、边和标签。 任何对象、场所或人员都可以是节点。 边定义了节点之间的关系。 例如,节点可以是客户(如 IBM)和代理机构(如 Ogilvy)。 边会将这种关系归类为 IBM 和 Ogilvy 之间的客户关系。
A 代表主题,B 代表判定,C 代表对象
此外,还值得注意的是,知识图谱的定义各不相同,有研究 (PDF)(链接位于 ibm.com 外部)表明,知识图谱与知识库或本体没什么区别。 相反,它认为该术语是由 2012 年 Google 的知识图谱推广而来的。
在知识图谱的背景下也经常会提到本体,但同样,关于它们与知识图谱的区别仍然存在争议。 最终,本体用于创建图中实体的形式化表示。 它们通常基于分类法,但由于能够包含多种分类法,因此保持各自单独的定义。 由于知识图谱和本体以类似的方式表示(即通过节点和边),并且基于资源描述框架 (RDF) 三元组,它们在可视化表示中往往彼此相似。
关于本体,举个例子来说,如果我们审视一个特定的场所,比如麦迪逊广场花园。 本体使用时间等变量来区分该位置的事件。 像 New York Rangers 这样的运动队一个赛季内会在那个竞技场举办一系列比赛。 这些全都是冰球比赛,全都位于同一场地。 而每场活动都是通过日期和时间来区分的。
Web Ontology Language (OWL) 是被广泛采用的本体的一个例子,它得到万维网联盟 (W3C) 的支持,W3C 是一个支持互联网长期开放标准的国际社区。 最终,这种知识组织得到数据库、API 和机器学习算法等技术基础架构的支持,这些基础架构的存在就是为了帮助人们和服务更有效地访问和处理信息。
知识图谱通常由不同来源的数据集组成,这些数据集的结构经常各不相同。 模式、身份和上下文协同工作,为不同的数据提供结构。 模式为知识图谱提供了框架,身份用于对底层节点进行了适当的分类,上下文则决定了知识的存在环境。 这些组件有助于区分具有多种含义的单词。 这使产品(例如 Google 的搜索引擎算法)能够确定 Apple(品牌)和 Apple(水果)之间的区别。
由机器学习驱动的知识图谱利用自然语言处理 (NLP),通过语义丰富过程构建节点、边和标签的综合视图。 在摄取数据时,这个过程使知识图谱能够识别单个对象,并理解不同对象之间的关系。 然后,将这些工作知识与其他相关和相似的数据集进行比较和整合。 知识图谱完成后,问答和搜索系统便能够检索和重用给定查询的综合答案。 虽然面向消费者的产品展示了其节省时间的能力,但同样的系统也可以应用于业务环境,由此避免了手动数据收集和集成工作,为制定业务决策提供支持。
围绕知识图谱的数据集成工作还可以支持创建新知识,可以在数据点之间建立联系,而这可能是以前一直未曾实现的。
目前有许多流行的、面向消费者的知识图谱,它们为跨企业的搜索系统设定了用户期望。 其中一些知识图谱包括:
然而,知识图谱也应用于其他行业,例如:
IBM Cloud 与 Red Hat 强强联合,提供市场领先的安全性、企业可扩展性和开放式创新,发挥云计算和 AI 的全部潜力。
利用 Watson AI 将 AI 注入您的应用,帮助做出更准确的预测。
构建、运行和管理 AI 模型。 使用开源代码或可视化建模在任何云中准备数据和构建模型。 预测并优化结果。