主页

topics

基于内容的过滤

什么是基于内容的过滤?
深入了解使用 watsonx.ai 的基于内容的过滤技术 注册获取 AI 更新
附带人物和屏幕象形图拼贴的插图

 

发布日期:2024 年 3 月 21 日
作者:Jacob Murel 博士、Eda Kavlakoglu

基于内容的过滤是两大类推荐系统之一。它根据单个物品的特征向用户推荐物品。

基于内容的过滤是一种信息检索方法,它使用物品特征来选择并返回与用户查询相关的物品。此方法通常会考虑用户感兴趣的其他物品的特征。1 然而,基于内容有点用词不当。一些基于内容的推荐算法根据附加在物品上的描述性特征(例如元数据)而不是物品的实际内容来匹配物品。2尽管如此,有几种基于内容的方法(例如,基于内容的图像检索或自然语言处理应用程序)确实会根据物品内在属性来匹配物品。

基于内容的过滤与协同过滤

基于内容的过滤是推荐系统的两种主要类型之一。另一种是协同过滤方法。后一种方法根据用户的行为将其分为不同的组。然后,它会使用一般的群组特征,根据相似用户(行为方面)对相似物品感兴趣的原则,将特定物品返回给整个组。3

近年来,从亚马逊等电子商务、社交媒体到流媒体服务,这两种方法在现实世界中得到了广泛应用。协作式系统和基于内容的系统共同构成了混合推荐系统。事实上,早在 2009 年,Netflix 就在其 Netflix 有奖竞赛中采用了混合推荐系统。

为什么 AI 治理是扩展企业人工智能的当务之急

了解采用 AI 的障碍,特别是缺乏 AI 治理和风险管理解决方案。

相关内容 注册以获取有关基础模型的指南
基于内容的过滤的工作原理

基于内容的推荐系统 (CBRS) 结合了机器学习算法和数据科学技术来推荐新商品并解答查询。

基于内容的过滤的组成部分

在 CBRS 中,推荐引擎主要通过比较用户资料和商品资料来预测用户与商品的互动,并据此推荐商品。

  • 物品配置文件是物品在系统中的表示形式。它包括物品的特征集,可以是内部结构特征或描述性元数据。例如,流媒体服务可以按照类型、发行日期、导演等来存储电影。
  • 用户画像代表用户的偏好和行为。它可包含用户以前表现出兴趣的那些商品的代表内容。此外,它还包含用户过去与系统的交互的相关数据(例如,用户点赞、踩、评分、查询等)。4
物品表示

CBRS 通常将商品和用户作为向量空间中的嵌入。使用元数据描述或内部特征作为特征,将项目转换为向量。例如,我们构建了商品资料,作为在线书店的一部分向用户推荐新小说。然后,我们利用作者、流派等代表性元数据为每部小说创建资料。小说在某一类别中的价值可用布尔值表示,其中 1 表示小说在该类别中存在,0 表示不存在。通过此系统,我们就可以按照流派来呈现一小部分小说:

在这里,每种流派都是向量空间的不同维度,特定小说的数值代表了它在该向量空间中的位置。例如《小妇人》位于 (1,0,1),《诺桑觉寺》位于 (0,0,1),以此类推。我们可以将此样本向量空间可视化为:

在向量空间中,两个小说向量越接近,我们的系统就认为它们在所提供的特征上越相似。5《彼得·潘》和《金银岛》具有完全相同的特征,出现在同一个向量点 (1,1,0)。那么,根据我们的系统,它们是相同的。事实上,它们有许多共同的情节设置(如孤岛和海盗)和主题(如成长或反抗)。相比之下,虽然《小妇人》也是一部儿童小说,但它不是一部冒险小说,而是一部成长小说。虽然《小妇人》《彼得潘》及《金银岛》一样是儿童小说,但它缺乏后两者的冒险特征值,并且具有成长小说的 1 个特征值,而后两者则缺乏这一特征值。这使得《小妇人》在向量空间中更接近《诺桑觉寺》,因为它们在冒险和成长小说特征上具有相同的特征值。

由于它们在这一空间中的相似性,如果用户之前购买过 《彼得潘》,系统就会向其推荐与 《彼得潘》最接近的小说,例如 《金银岛》,作为其未来的潜在购买对象。请注意,如果我们添加更多的小说和基于流派的特征(如幻想、哥特等),小说在向量空间中的位置将会移动。例如,如果添加一个奇幻类型维度, 《彼得潘》《金银岛》 可能会从另一个维度略微移动,因为前者通常被认为是奇幻小说,而后者则不是。

请注意,也可将项目的内部特点用作特征来创建项目向量。例如,我们可将原始文本项目(如新闻文章)转换为结构化格式,并将其映射到矢量空间(如词袋模型)。在此方法中,整个语料库中使用的每个单词均会成为该矢量空间的不同维度,而使用相似关键字的文章在矢量空间中的位置也彼此更为靠近。TF-IDF 是“词袋”的扩展形式,而较之整个新闻文章存储库,它可进一步帮助测量每篇文章的术语使用频率。6而类似的方法则可通过图像嵌入应用于图像项目。

相似性指标

基于内容的筛选系统如何确定任意数量的物品之间的相似性?如上所述,向量空间中的邻近性是一种主要方法。不过,用于确定邻近性的特定指标可能会有所不同。常见指标包括:

余弦相似度表示两个向量之间角度的测量值。可以是 -1 到 1 之间的任意值。余弦分数越高,两个物品就越相似。一些资料推荐在高维特征空间中使用这个指标。余弦相似度由以下公式表示,其中 xy 表示向量空间中的两个物品向量:7

 

 

欧几里得距离测量连接两个向量点的假设线段的长度。欧几里得距离分数可能低至零,没有上限。两个物品向量的欧几里得距离越小,它们被认为越相似。欧几里得距离计算公式如下,其中 xy 代表两个物品向量:8

点积是指两个向量之间的夹角余弦值与每个向量各自从既定原点出发所测得欧几里得大小的乘积。换言之,它是指两个向量的余弦值乘以每个向量的投影长度—长度为向量距离既定原点的位移,如 (0,0)。点积最适合用于比较量级差异很大的项目;例如,书籍或电影的受欢迎程度。它可由以下公式表示,而其中的 dq 依然表示两个项目向量:9

请注意,这些指标对比较向量的加权方式十分敏感,因为不同的权重会大幅影响这些评分函数。10用于确定向量相似度的其他潜在指标为:Pearson 相关系数(或 Pearson 相关性)和 Jaccard 相似度以及 Dice 系数。11

用户-物品交互预测

CBRS 创建一个基于用户的分类器或回归模型,向特定用户推荐商品。首先,该算法会获取特定用户以前感兴趣的商品的描述和特征,这就是用户资料。这些商品构成训练数据集,用于创建针对该用户的分类或回归模型。在该模型中,商品属性是自变量,因变量是用户行为(例如,用户评分、喜欢、购买等)。根据用户过去的行为训练出的模型旨在预测用户未来对可能商品的行为,并根据预测结果推荐商品。12

基于内容的过滤的优缺点
优势

冷启动问题本质上是系统如何处理新用户或新物品。这两者都给协同过滤带来了问题,因为协同过滤是根据推断出的行为和偏好的相似性对用户进行分组,从而推荐物品。然而,新用户与其他用户没有明显的相似性,新物品也没有足够的用户交互(例如评分)来获得推荐。虽然基于内容的过滤在处理新用户时存在困难,但它仍然能够熟练地处理新物品。这是因为它根据内部或元数据特征而不是过去的用户交互来推荐物品。13

基于内容的过滤通过提供可解释的特征来解释推荐,从而实现更高程度的透明度。例如,电影推荐系统可能会解释为什么推荐某部电影,比如与之前观看过的电影在类型或演员上有重叠。因此,用户可以就是否观看推荐的电影做出更明智的决定。14

缺点

基于内容的过滤的一个主要缺点是特征限制。基于内容的推荐完全来自于用于描述物品的特征。然而,系统的物品特征可能无法捕捉用户的喜好。例如,回到电影推荐系统的例子,假设用户看过并喜欢 1944 年的电影《煤气灯》。CBRS 可能会推荐 George Cukor 执导或 Ingrid Bergman 主演的其他电影,但这些电影可能与《煤气灯》并不相似。如果用户偏爱的某些特定情节(如骗人的丈夫)或制作元素(如电影摄影师)在物品配置文件中没有体现,系统将无法提供合适的推荐。在数据不足的情况下,无法准确区分用户的潜在好恶。15

由于基于内容的过滤仅根据用户先前表现出的兴趣来推荐物品,因此其推荐通常与用户过去喜欢的物品相似。换句话说,CBRS 缺乏应对新事物和不可预测事物的方法。这就是过度专业化。相比之下,由于基于协同的方法从具有与特定用户相似喜好的一群用户中提取推荐,因此它们通常可以推荐用户可能未考虑过的物品,这些物品可能具有与用户之前喜欢的物品不同的特征,但保留了一些未被代表的元素,这些元素能够吸引某类用户。16

最近的研究

虽然过去的研究将推荐作为一个预测或分类问题来处理,但近期大量研究则认为,推荐应被理解为一个连续的决策问题。在此范式中,强化学习可能更适合于解决推荐问题。该方法认为,推荐会根据“用户-商品”交互进行实时更新;当用户跳过、点击、评分、购买推荐的商品时,该模型会根据这些反馈制定最佳策略来推荐新商品。17近期多项研究提出了各种强化学习应用程序来解决可变的长期用户兴趣问题,而这对基于内容的过滤和协同过滤都带来了挑战。18

相关资源 IBM 与一家百货公司建立推荐系统

探讨推荐系统的用例、这些系统样本的理论基础,并尽可能详细地了解此商业案例的细节。

在基于内容的发布/订阅系统中有效覆盖 top-k 过滤

深入了解在具有表达过滤要求的大规模应用程序中使用基于内容的发布/订阅进行数据传播。

基于内容的发布/订阅系统中基于相关性的过滤的订阅覆盖

大型应用程序需要具有高级过滤功能的可扩展数据发布服务;例如,支持 top-k 过滤且基于内容的发布/订阅系统。

采取后续步骤

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

深入了解 watsonx.ai 预约实时演示
脚注

1 Prem Melville and Vikas Sindhwani,“Recommender Systems”,《Encyclopedia of Machine learning and Data Mining》,Springer,2017。

2 Charu Aggarwal,《Recommender Systems: The Textbook》,Springer,2016 年。

3“Collaborative Filtering”,《Encyclopedia of Machine Learning and Data Mining,Springer,2017 年。Mohamed Sarwat 和 Mohamed Mokbel,“Collaborative Filtering”,《Encyclopedia of Database Systems》,Springer,2018 年。

4 Michael J. Pazzani 和 Daniel Billsus,“Content-Based Recommendation Systems”,《The Adaptive Web: Methods and Strategies of Web Personalization》,Springer,2007 年。

5 Elsa Negre,《Information and Recommender Systems》,第 4 卷,Wiley-ISTE,2015 年。

6 Michael J. Pazzani 和 Daniel Billsus,“Content-Based Recommendation Systems”,《The Adaptive Web: Methods and Strategies of Web Personalization》,Springer,2007。

7 Elsa Negre,“信息和推荐系统”,第 4 卷,Wiley-ISTE,2015 年。Sachi Nandan Mohanty、Jyotir Moy Chatterjee、Sarika Jain、Ahmed A. Elngar 和 Priya Gupta,“使用机器学习和人工智能的推荐系统”,Wiley-Scrivener,2020 年。

8 Rounak Banik,《Hands-On Recommendation Systems with Python》,Packt Publishing,2018 年。Elsa Negre,《Information and Recommender Systems》,第 4 卷,Wiley-ISTE,2015 年。

9 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

10 Qiaozhu Mei 和 Dragomir Radev,“信息检索”,《牛津计算语言学手册》,第 2 版,Oxford University Press,2016 年。

11 Elsa Negre,《Information and Recommender Systems》,第 4 卷,Wiley-ISTE,2015 年。Sachi Nandan Mohanty、Jyotir Moy Chatterjee、Sarika Jain、Ahmed A. Elngar 和 Priya Gupta,《Recommender System with Machine Learning and Artificial Intelligence》,Wiley-Scrivener,2020 年。

12 Charu Aggarwal,《Recommender Systems: The Textbook》,Springer,2016 年。Ricci,《Recommender Systems Handbook》,第 3 版,Springer,2022 年。

13 Charu Aggarwal,《Recommender Systems: The Textbook》,Springer,2016 年。Ian Goodfellow、Yoshua Bengio 和 Aaron Courville,《Deep Learning》,MIT Press,2016 年。

14 Sachi Nandan Mohanty、Jyotir Moy Chatterjee、Sarika Jain、Ahmed A. Elngar 和 Priya Gupta,《Recommender System with Machine Learning and Artificial Intelligence》,Wiley-Scrivener,2020 年。Charu Aggarwal,《Recommender Systems: The Textbook》,Springer,2016 年。

15 Jaiwei Han、Micheline Kamber 和 Jian Pei,《Data Mining: Concepts and Techniques》,第 3 版,Elsevier,2012 年。Sachi Nandan Mohanty、Jyotir Moy Chatterjee、Sarika Jain、Ahmed A. Elngar 和 Priya Gupta,《Recommender System with Machine Learning and Artificial Intelligence》,Wiley-Scrivener,2020 年。

16 Sachi Nandan Mohanty、Jyotir Moy Chatterjee、Sarika Jain、Ahmed A. Elngar 和 Priya Gupta,《Recommender System with Machine Learning and Artificial Intelligence》,Wiley-Scrivener,2020 年。Charu Aggarwal,《Recommender Systems: The Textbook》,Springer,2016 年。

17 Guy Shani、David Heckerman 和 Ronen I. Brafman,“基于 MDP 的推荐系统”, 机器学习研究杂志,第 6 卷,第 43 期,2005 年,第 1265-1295 页,https://www.jmlr.org/papers/v6/shani05a.html(链接位于 ibm.com 以外)。Yuanguo Lin、Yong Liu、Fan Lin、Lixin Zou、Pengcheng Wu、Wenhua Zeng、Huanhuan Chen 和 Chunyan Miao,“推荐系统强化学习调查”, IEEE Neural Networks 和学习系统学报,2023 年, https://ieeexplore.ieee.org/abstract/document/10144689(链接位于 ibm.com 以外)。M. Mehdi Afsar、Trafford Crump 和 Behrouz Far,“基于强化学习的推荐系统:一项调查”,ACM 计算调查,第 55 页,第 7 期,2023 年, https://dl.acm.org/doi/abs/10.1145/3543846(链接位于 ibm.com 以外)。

18 Xinshi Chen、Shuang Li、Hui Li、Shaohua Jiang、Yuan Qi、Le Song,“Generative Adversarial User Model for Reinforcement Learning Based Recommendation System”,《Proceedings of the 36th International Conference on Machine Learning》PMLR,第 97 期,2019 年,1052-1061 页,http://proceedings.mlr.press/v97/chen19f.html(ibm.com 外部链接)。Liwei Huang、Mingsheng Fu、Fan Li、Hong Qu、Yangjun Liu 和 Wenyu Chen,“A deep reinforcement learning based long-term recommender system”,Knowledge-Based Systems,第213 卷,2021 年,https://www.sciencedirect.com/science/article/abs/pii/S0950705120308352(ibm.com 外部链接)。