-
摘要:
序列推荐的核心在于从用户的交互序列中挖掘其偏好和行为模式. 现有研究已经认识到单一模态交互数据存在不足,因此借助大量多模态数据(如商品评价、主页图片等)来丰富交互信息,提升推荐系统的性能. 然而,这些多模态数据中常常夹杂着不可避免的噪音,可能会限制用户个性化偏好的探索. 尽管可以通过抑制模态间不一致的信息来减少噪声干扰,但要完全消除用户生成的多模态内容中的噪音几乎是不可能的. 针对上述挑战,提出了一种基于大型语言模型的可信多模态推荐算法,旨在于含噪多模态数据场景下提供可信的推荐结果. 具体而言,该算法依托于大型语言模型卓越的自然语言理解能力,高效过滤多模态数据中的噪音,实现对用户偏好更为精确和细致的建模. 此外,还设计了一种可信决策机制,用于动态评估推荐结果的不确定性,以确保在高风险场景下推荐结果的可用性. 在4个广泛使用的公开数据集上的实验结果显示,相较于其他基线算法,提出的算法有更好的性能表现. 代码可以在https://github.com/hhbray/Large-TR获取.
Abstract:Sequential recommendation is centered on mining users' preferences and behavior patterns from their interaction sequences. Existing works have recognized the inadequacy of single-modal interaction data, and have utilized a large amount of multi-modal data, including item reviews, homepage images, and other sources, to complement interaction data and improve recommendation performance. However, these multi-modal data are often interspersed with unavoidable noise that may limit the exploration of personalized user preferences. While suppressing inter-modal inconsistent information can reduce noise interference, it is almost impossible to completely eliminate noise from user-generated multimodal content. To address the above challenges, we propose a Large language model-based Trusted multi-modal Recommendation (Large-TR) algorithm, which aims to provide the trustworthy recommendation in noisy multi-modal data scenarios. Specifically, the algorithm relies on the excellent natural language understanding capability of the large language model, which efficiently filters the noise in multi-modal data and achieves more accurate and detailed modelling of user preferences. Additionally, we design a trustworthy decision mechanism that dynamically evaluates the uncertainty of recommendation results and ensures the usability of recommendation results in high-risk scenarios. Experimental results on four widely used public datasets show that the algorithm proposed in this paper has better performance compared to other baseline algorithms. Our source code is available at https://github.com/ hhbray/Large-TR.
-
随着互联网服务平台进入存量增长阶段,已注册用户不断产生各种交互行为. 在这种情况下,为现有用户提供更精准的服务已经成为大多数在线服务平台的首要任务. 序列推荐可以显式地建模用户的序列行为,对未来时刻用户可能感兴趣的物品进行预测. 早期的研究[1]根据购买相似物品的用户群来建立相关性模型. 然而,用户交互的项目数量与项目总数相比微不足道,导致严重的稀疏性问题. 许多研究[2-4]引入项目侧信息(如类别、标题、主页图像等)来丰富了项目表示. 尽管可以在一定程度上缓解稀疏性问题,然而这类信息都是商家按照模板上传生成的,缺乏多样性.
互联网上存在着大量丰富的用户生成内容,这是一种用户自发创造的多模态信息,包括评论、图片、视频、评级等,可以作为购买和浏览等基本交互的补充. 研究人员尝试从用户生成内容中挖掘用户偏好,以应对稀疏性问题的挑战[5-8],然而,数据中存在的广告或误操作等噪音限制了推荐系统的性能. 如图1中,用户评论中存在着“绿色、优惠”等与真实偏好无关的噪音,影响用户文本偏好的捕获. 部分工作[9-10]利用不同模态间的一致性信息来减少噪音的干扰,但必须承认的是,完全消除用户生成内容中的噪音是不现实的.
大型语言模型(large language model,LLM)的兴起为推荐系统注入了新的活力,也为解决噪音问题带来了新的可能.LLM可以进行深度的语义分析,理解用户的隐含意图,生成个性化的推荐. 但大型语言模型的训练数据与推荐场景并不相关,语义空间难对齐. 部分工作试图通过调整指令来引导大型语言模型生成更准确的推荐结果,但结果容易被干扰,还可能会出现幻觉问题.
针对上述问题,本文提出了一种基于大型语言模型的可信多模态推荐算法(large language model-based trusted multi-modal recommendation,Large-TR),它利用大型语言模型强大的语义理解能力过滤多模态数据中的噪音,对多模态用户偏好进行建模. 此外,针对噪音无法完全消除的问题,我们还设计了一种可信决策机制,动态评估推荐结果的不确定性,在高风险场景下保证推荐结果的可用性. 在4个广泛使用的公开数据集上的实验结果显示,相对于其他基线算法,本文提出的算法有更好的性能表现.
综上,本文的主要贡献包括3个方面:
1)我们借助大型语言模型过滤低质量多模态信息中的噪音,建模更精确和细致的用户偏好,有效提高推荐性能;
2)我们设计了一种简单但有效的可信决策机制,可以动态评估推荐结果的可信度,保证推荐系统在有噪音的情况下依然可用;
3) 我们在4个广泛使用的真实数据集上进行了实验,实验结果表明本文提出的算法可以显著提高性能.
1. 相关工作
1.1 多模态序列推荐
序列推荐从用户的历史交互序列中建模用户偏好的演变过程,预测下一个可能交互的商品. 早期序列推荐的工作[11-14]大多基于马尔可夫链假设,但稀疏性问题严重限制了性能的上限. Zhou等人[15]尝试建模项目与属性之间的关系,以增强项目的表示. Xie等人[16]从商品的描述、标题等文本信息中挖掘用户偏好,提升推荐性能. 很多情况下,图像作为一种视觉内容,可以提供语言无法表达的视觉信息. 受此启发,有工作提出[17]将视觉信号纳入用户偏好的建模过程,预测下一个可能交互的商品. 近年来,微视频作为电商平台新兴的内容形式,包含多场景、多角度的商品展示,Lei等人[18]提出了基于微视频的序列推荐算法. 综上,基于多模态的序列推荐已经开始集成来自图像、文本和其他模态(如视频和音频)的信息,以实现对项目更全面的表示和对用户偏好更准确的理解. 但现有方法仍面临2个主要问题:1)仅依赖商品相关的侧信息来丰富商品表征,未能直接对用户偏好进行建模,导致对用户需求的理解不够深入;2)多模态信息中往往存在不匹配不规范的噪音数据,严重影响推荐系统的性能. 因此本文提出了一种基于用户生成内容的多模态序列推荐方法,通过大型语言模型丰富的语义理解能力对多模态内容降噪,从用户的角度挖掘序列偏好和行为趋势.
1.2 基于大型语言模型的推荐
语言模型在推荐系统的发展中扮演着至关重要的角色. 早期研究[19-20]已经发现,语言模型框架具有统一建模各类推荐任务的潜力. 随着大型语言模型的出现,推荐领域迎来了巨大的进步. 这些大型语言模型具备极强的语言理解、生成和泛化能力,为解决推荐系统中的冷启动、个性化推荐和可解释性等问题提供了新的思路和方法. 但实现这一目标通常需要大量的推荐数据进行训练. 近期,Dai等人[21]通过特定的指令激发大型语言模型直接生成推荐结果,进一步证实了大型语言模型在推荐领域的巨大潜力. 在此基础上,部分研究[22-23]对指令进行微调,以期望将大型语言模型与推荐系统的语义空间尽可能对齐,从而获得更好的推荐效果. 基于大型语言模型的推荐方法仍处于探索阶段,其性能很大程度上依赖于指令的质量,生成结果易干扰,如何确保生成鲁棒的推荐结果是未来需要重点关注的问题. 因此,本文并没有通过大型语言模型直接生成推荐结果,而是利用大型语言模型已表现出的强大的语义理解与分析能力,过滤多模态交互数据中存在的噪音,将多模态信息和大型语言模型的知识共同注入到推荐系统中,提高推荐结果的准确性和鲁棒性.
2. 问题定义
给定用户U的历史交互序列SU={I1,I2,…,IN},用户U对序列中每个商品的文本评论可以表示为RU={rU1,rU2,…,rUN},相应地,商品I收到的所有文本评论可以表示为RI={rI1,rI2,…,rIM}. 本文收集交互序列中每个商品的首页图片作为多模态内容中的图片信息,表示为GU={gU1,gU2,…,gUN}. 因此,本文的目标是通过观察到的交互序列SU和多模态内容(RU,RI,GU),预测出用户与未观察到的商品交互的概率,并提供预测结果的不确定性.
3. 基于大型语言模型的可信多模态推荐算法
本文提出的算法模型整体架构如图2所示,包括了大型语言模型去噪模块、多视图序列偏好模块和可信决策模块3个部分. Large-TR的设计基于以下假设:1)大型语言模型有理解图像和文本语义的能力.2)用户生成的多模态信息是揭示用户偏好的重要补充. 3)用户侧和商品侧都可以获得有效的推荐结果.
3.1 大型语言模型去噪
用户的文本评论是体现个人偏好的重要信息来源,但其中存在的广告、误评等噪音屡见不鲜. 商品图片作为商家上传的模板化内容,其内容质量更高,还可以提供语言无法表达的视觉信息. 分析图像和文本之间的关联性,我们可以更好地判断评论的真实性和准确性. 大型语言模型在图文匹配的稀疏场景下具有很强的泛化能力,并在少量甚至零样本任务中实现了非常可观的性能. 我们假设大型语言模型已经具有理解图文信息,判断其是否一致的能力,我们需要做的就是通过调整提示符来触发这种能力. 提示符是提供给大型语言模型的文本片段,用来设定上下文或指示大型语言模型如何继续生成文本,广泛应用于各种自然语言处理任务,如文本生成、文档总结等. 本文旨在利用大型语言模型强大的图文理解能力,判断用户的评论文本与商品图片是否相关,从而过滤文本中的噪音. 为此,我们参考了相关上下文学习[24]和指令调整[22]的工作,并将这种能力表示为具有特定领域提示的任务.
图2左侧说明了我们如何调整提示符从大型语言模型中引出图文匹配的功能,我们的提示由2个部分组成:1)描述:需要设计领域相关的文本,增强大型语言模型对执行相关任务所需知识的感知能力.2)任务:给定用户的评论与相应的商品图片,要求大型语言模型给出回答. 在优化过程中,我们会为大型语言模型添加示例,以帮助其准确理解任务要求. 随后,通过真实标签对模型输出进行评估,并基于评估结果不断改进提示符的设计,以提升模型的图文匹配能力. 相关的提示符优化过程在附录A中给出.
为了更有效地将大型语言模型过滤后的多模态信息用于后续的推荐任务,我们利用预训练模型对文本和图片进行嵌入处理. 对于文本,我们将输入的文本句子分割成多个词汇单元token,并在句子的开头添加[CLS]和[SEP]等特殊标记. 预训练模型会输出[CLS]的隐藏状态,它可以表示整个句子的语义信息,用于下游任务. 具体来说,我们将rUn和rIm视为token序列,即rUn={tokent}|rUn|t=1,rIm={tokent}|rIm|t=1,每个评论按如下方式进行嵌入:
{\boldsymbol{t}}_{n}^{U}={F}_{\mathrm{t}}\left({r}_{n}^{U}\right),{\boldsymbol{t}}_{m}^{I}={F}_{\mathrm{t}}\left({r}_{m}^{I}\right),{\boldsymbol{t}}_{n}^{U},{\boldsymbol{t}}_{m}^{I}\epsilon{\mathbb{R}}^{{d}_{\mathrm{t}}}\text{,} (1) {F}_{\mathrm{t}}(\cdot ) 是Bert(bidirectional encoder representations from Transformers)模型[25]. 根据式 \left(1\right) 我们可以获得文本嵌入 {\boldsymbol{T}}^{U}=[{\boldsymbol{t}}_{1}^{U},{\boldsymbol{t}}_{2}^{U},… ,{\boldsymbol{t}}_{N}^{U}] 和 {\boldsymbol{T}}^{I}=[{\boldsymbol{t}}_{1}^{I},{\boldsymbol{t}}_{2}^{I},… ,{\boldsymbol{t}}_{M}^{I}] . 通过汇总和分析不同用户对同一商品的多样化评论,我们可以提取到更全面、更丰富的商品特征信息,还可以在一定程度上过滤掉那些与商品无关的用户文本偏好. 基于上述考虑,我们通过共同注意力机制[26](co-attention mechanism)提取 {R}^{U} 和 {R}^{I} 之间的匹配模式,对用户的文本偏好进行重新建模. 具体来说,该机制分为3个步骤:
1) 构建亲和力矩阵.
{\boldsymbol{A}}^{UI}=\boldsymbol{tan}h\left({\left({\boldsymbol{T}}^{I}\right)}^{\mathrm{T}}{\boldsymbol{M}}^{R}{\boldsymbol{T}}^{U}\right),{\boldsymbol{A}}^{UI}\epsilon{\left(-\mathrm{1,1}\right)}^{M\times N} \text{,} (2) 其中 {\boldsymbol{M}}^{R} 是一个参数矩阵, {\boldsymbol{A}}^{UI} 中第 i 行第 j 列的元素表示 {R}^{I} 第 i 个评论与 {R}^{U} 第 j 个评论之间的相似性.
2)我们对 {\boldsymbol{A}}^{UI} 实施行行最大化操作,然后使用 softmax 生成相关性向量.
{\boldsymbol{a}}^{UI}=softmax\left(RowMax\left({\boldsymbol{A}}^{UI}\right)\right),{\boldsymbol{a}}^{UI}\epsilon{\left(\mathrm{0,1}\right)}^{M}. (3) 3)对商品评论矩阵进行关注度聚合,计算最终的相关性嵌入,并与原文进行拼接.
{\tilde{\boldsymbol{t}}}_{n}^{U}={\boldsymbol{t}}_{n}^{U}\earth{\boldsymbol{a}}^{UI}{\boldsymbol{T}}^{I},{\tilde{\boldsymbol{t}}}_{n}^{U}\epsilon{\mathbb{R}}^{{d}_{\mathrm{t}}}, (4) 式 \left(4\right) 中的 \earth 代表向量连接操作,这一步代表对 {S}^{U} 中的每个 {r}_{n}^{U} 重新建模以获得重构的用户文本偏好: {\tilde{\boldsymbol{T}}}^{U}=[{\tilde{\boldsymbol{t}}}_{1}^{U},{\tilde{\boldsymbol{t}}}_{2}^{U},… ,{\tilde{\boldsymbol{t}}}_{N}^{U}] . 许多偏好信息通常很难通过文字准确传达,图像可以提供直观的视觉展示,捕捉到用户对物品外观、风格、颜色等方面的偏好. 与文本嵌入方式类似,我们使用预训练模型对每张图片进行嵌入:
{\boldsymbol{z}}_{n}^{U}={F}_{\mathrm{v}}\left({g}_{n}^{U}\right),{\boldsymbol{z}}_{n}^{U}\epsilon{\mathbb{R}}^{{d}_{\mathrm{v}}}, (5) 其中 {F}_{\mathrm{v}}(\cdot ) 是CLIP(contrastive language-image pre-training)模型[27],用户视觉偏好可以表示为 {\boldsymbol{Z}}^{U}=[{\boldsymbol{z}}_{1}^{U}, {\boldsymbol{z}}_{2}^{U},… ,{\boldsymbol{z}}_{N}^{U}] . 图文嵌入模块均支持灵活的嵌入维度,也支持扩展到更多的模态. 这些预训练模型可以看作对模态信息进行特征提取的编码器. 文本偏好和视觉偏好的结合可以增强对用户多层次、多维度偏好的理解. 因此,我们将文本偏好和视觉偏好作为多模态视角进行整合:
{\boldsymbol{x}}_{1}^{U}={\boldsymbol{W}}_{\mathrm{m}}\left[{\boldsymbol{Z}}^{U}\earth{\tilde{\boldsymbol{T}}}^{U}\right],{\boldsymbol{x}}_{1}^{U}\epsilon{\mathbb{R}}^{{d}_{\mathrm{m}}\times N}, (6) 其中 {\boldsymbol{W}}_{\mathrm{m}}\epsilon{\mathbb{R}}^{{{d}_{\mathrm{m}}\times (d}_{\mathrm{t}}+{d}_{\mathrm{v}})} 代表权重矩阵. 为了尽可能地让用户的文字偏好和视觉偏好保持对齐,减少文本偏好可能带来的噪音干扰,本文使用跨模态损失函数[28]. 图像-文本对可以构造为 \{\left({r}_{i}^{U},{g}_{j}^{U}\right),{o}_{ij}{\}}_{i,j=1}^{N} ,其中 {o}_{ij} =1表示图文是匹配的. 因此,图文匹配的投影概率可以表示为
{p}_{ij}=\dfrac{\mathrm{e}\mathrm{x}\mathrm{p}\left(\right({\tilde{\boldsymbol{t}}}_{i}^{U}{)}^{\mathrm{T}}{\bar{\boldsymbol{z}}}_{j}^{U})}{\displaystyle\sum\limits_{k=1}^{N}\mathrm{e}\mathrm{x}\mathrm{p}\left(\right({\tilde{\boldsymbol{t}}}_{i}^{U}{)}^{\mathrm{T}}{\bar{\boldsymbol{z}}}_{k}^{U})}, (7) 其中 {\bar{\boldsymbol{z}}}_{j}^{U}=\dfrac{{\boldsymbol{z}}_{j}^{U}}{\left|\right|{\boldsymbol{z}}_{j}^{U}\left|\right|} 代表归一化的图像表示, ({\tilde{\boldsymbol{t}}}_{i}^{U}{)}^{\mathrm{T}}{\bar{\boldsymbol{z}}}_{j}^{U} 是文本偏好 {\tilde{\boldsymbol{t}}}_{i}^{U} 在图像偏好 {\boldsymbol{z}}_{j}^{U} 上的标量投影. 通过计算投影概率 {p}_{ij} 和真实匹配概率 {q}_{ij} 之间的KL散度(Kullback-Leibler),得到文本与图像间的损失函数:
{\mathcal{L}}_{\mathrm{r}\mathrm{e}\mathrm{c}}({S}^{U})=\frac{1}{N}\sum _{i=1}^{N}\sum _{j=1}^{N}{p}_{ij}\mathrm{l}\mathrm{n}\frac{{p}_{ij}}{{q}_{ij}+\varepsilon }, (8) 其中 \varepsilon 是一个非常小的数用于避免数值溢出的问题, {q}_{ij}=\dfrac{{o}_{ij}}{\displaystyle\sum\limits_{k=1}^{N}{p}_{ik}} 代表 \left({r}_{i}^{U},{g}_{j}^{U}\right) 归一化的真实匹配概率. 通过最小化损失函数,可以使投影概率分布曲线的形状接近真实匹配概率分布曲线的形状,从而使得匹配的图像文本对的投影值最大,不匹配的图像文本对投影值最小.
3.2 多视图序列偏好
在推荐领域,使用项目唯一标识符(identity,ID)对项目进行表示一直是主流做法. 本文认可项目ID的作用,也希望尽可能地保留原始项目ID的信息,不受其他因素的干扰. 因此,本文将其视为一个独立的视图. 具体来说,将交互序列 {S}^{U} 输入到项目嵌入层,以获得商品视角的嵌入:
{\boldsymbol{x}}_{2}^{U}={F}_{i}({S}^{U}),{\boldsymbol{x}}_{2}^{U}\in {\mathbb{R}}^{{d}_{\mathrm{i}}\times N}. (9) 众所周知,项目ID和多模态信息都能提供有效的推荐,然而,仅仅将两者拼接或者融合在一起会丢失有价值的语义信息. 因此我们认为应该从互补但独立的视角 {\{{\boldsymbol{x}}_{v}^{U}\}}_{1}^{\left|V\right|} 来考虑最终的推荐结果, v=1 代表多模态信息的视角, v=2 代表项目ID的视角,视角的数量可以随着推荐系统的需求进一步扩展. 我们使用门控循环单元 GRU (gated recurrent unit)来捕获各个视图中的顺序信息:
{\boldsymbol{h}}_{v,t}^{U}=GRU\left({\boldsymbol{h}}_{v,t-1}^{U},{\boldsymbol{x}}_{v,t}^{U}\right), (10) 其中 {\boldsymbol{h}}_{v,t}^{U} 代表视角 v 的隐藏状态,我们使用隐藏状态作为每个视图下学习到的偏好. 直接将隐藏状态送入 softmax 网络层就可以产生推荐结果,但由于 softmax 函数会使得网络更倾向于选择置信度最高的类别,而忽视其他可能的选择. 这种情况下,即使某些推荐结果并不准确,它们也会被模型过度自信地排在前面. 这可能导致用户接收到与其实际兴趣不符的推荐,降低推荐系统的可靠性和用户满意度. 因此,需要设计一种能够有效保障推荐结果可靠性的方法,以提升推荐性能.
3.3 可信决策
本文并没有像传统做法一样简单地将所有视角中的信息整合到一个表征中,而是在证据层面评估每种视角的置信度,最后整合不同视角的信息获得每个项目的推荐概率和当前预测的总体不确定性.
推荐本质上是一种具有 \left|I\right| 个类别的多分类问题. 只需把传统的分类器稍加改动转化为基于证据的分类器,神经网络可以从输入中捕捉证据来诱导分类意见[29]. 我们将传统分类器 softmax 层替换为激活函数层(即 ReLu 层). 因此,对于第 v 个视图,这些非负值就被视为证据向量 {\boldsymbol{e}}_{v}=\left[{e}_{v,1},{e}_{v,2},… ,{e}_{v,\left|I\right|}\right] . 基于主观逻辑[30]的可信决策理论定义了一个基于证据获得不同类别概率(信念质量)和总体不确定性(不确定性质量)的理论框架. 证据与狄利克雷分布参数密切相关,即狄利克雷分布的参数 {\alpha }_{v,i} 是由证据 {e}_{v,i} 导出的:
{\alpha }_{v,i}={e}_{v,i}+1, (11) 主观逻辑会为每个项目分配一个信念质量 {b}_{v,i} ,并为该视角下的整体框架分配一个总体不确定性 {c}_{v} . 在视角 v 中, \left|I\right|+1 个质量值是非负的,且总和为1,
\sum _{i=1}^{\left|I\right|}{b}_{v,i}+{c}_{v}=1. (12) 其中 {b}_{v,i}\ge 0 表示第 i 个项目被推荐的概率, {c}_{v} 代表该视角下的总体不确定性. 具体计算方式如下:
{b}_{v,i}=\frac{{e}_{v,i}}{{D}_{v}}=\frac{{\alpha }_{v,i}-1}{{D}_{v}},{c}_{v}=\frac{\left|I\right|}{{D}_{v}}, (13) 式 \left(13\right) 中 {D}_{v}=\displaystyle\sum\limits_{i=1}^{\left|I\right|}\left({e}_{v,i}+1\right)=\displaystyle\sum\limits_{i=1}^{\left|I\right|}{\alpha }_{v,i} 代表狄利克雷强度. 信念分配可以被视为主观意见,也就是说,项目 i 的证据越多,它被分配的概率也就越大.
不同视角的质量往往因样本质量不同而存在差异,对于不同视角间的融合,我们提出了一种自适应的融合方法,并不是给每个视角分配固定权重. Dempster-Shafer 理论允许将不同来源的证据结合起来,在我们的算法模型中,它结合了多模态视角信息和商品ID视角信息的质量分配集,从而获得联合质量. 这里可以灵活扩展到多个视图融合. 具体来说, {M}_{1}=\{{\left\{{b}_{1,i}\right\}}_{i=1}^{\left|I\right|},{c}_{1}\} 代表多模态视角的质量集, {M}_{2}= \{{\{{b}_{2,i}\}}_{i=1}^{\left|I\right|},{c}_{2}\} 代表商品ID视角的质量集,两者一起计算可以得到联合质量集 M ,
M={M}_{1}\earth{M}_{2}. (14) 各部分更具体的计算规则如下:
{b}_{i}=\frac{1}{1-\beta }\left({b}_{1,i}{b}_{2,i}+{b}_{1,i}{c}_{2}+{b}_{2,i}{c}_{1}\right),c=\frac{{c}_{1}{c}_{2}}{1-\beta }, (15) 其中 \beta =\displaystyle\sum\limits_{i\ne j}{b}_{1,i}{b}_{2,j} 代表2个质量集中的冲突程度, \dfrac{1}{1-\beta } 用于归一化. 因此,相应的联合证据和狄利克雷分布的参数可以诱导为
表 2 各数据集的实验结果Table 2. Experimental Results for Each Datasetk 模型 Amazon-Beauty Amazon-Sport Amazon-Toys Yelp Recall /% NDCG /% Recall /% NDCG /% Recall /% NDCG /% Recall /% NDCG /% 10 GRU4Rec 5.29 2.66 3.12 1.57 3.70 1.84 3.61 1.84 Caser 4.74 2.39 2.27 1.18 3.61 1.86 3.80 1.97 Bert4Rec 5.29 2.37 2.95 1.30 5.33 2.34 5.24 3.27 SASRec 8.28 3.71 5.26 2.33 8.31 3.75 6.50 4.01 RNS 8.96 4.04 5.32 2.35 9.36 4.25 6.76 4.12 DIF-SR 9.08 4.46 5.56 2.64 10.13 5.04 6.98 4.19 MMSRec 9.49 4.76 6.35 3.23 11.54 6.14 7.49 4.52 本文 9.43 4.85 6.39 3.35 11.83 6.92 8.43 4.90 20 GRU4Rec 8.93 3.44 4.82 2.01 5.88 2.39 5.92 2.43 Caser 7.31 3.02 3.64 1.53 5.66 02.38 6.08 2.55 Bert4Rec 8.15 3.09 4.65 1.73 7.87 2.97 7.56 3.85 SASRec 11.97 4.64 7.73 2.95 11.68 4.60 9.28 4.71 RNS 12.31 4.78 7.74 2.99 12.31 5.12 9.54 4.72 DIF-SR 12.84 5.41 7.98 3.25 13.82 4.97 10.03 2.96 MMSRec 13.41 5.77 9.57 4.23 10.03 7.04 11.07 5.25 本文 14.34 6.22 10.18 4.72 11.68 7.83 12.69 5.95 注:加粗的数字代表最佳实验结果. D=\frac{\left|I\right|}{c},{e}_{i}={b}_{i}\times D,{\alpha }_{i}={e}_{i}+1. (16) 综上,我们可以得到估计的联合证据 \boldsymbol{e} 和狄利克雷分布的相应参数 \boldsymbol{\alpha } ,从而得出每个商品的最终概率和总体不确定性. 相应的损失函数由交叉熵损失调整得到:
{\mathcal{L}}_{\mathrm{c}\mathrm{e}\mathrm{r}}\left({\boldsymbol{\alpha }}_{v}\right)=\sum _{j=1}^{\left|I\right|}{y}_{ij}\left(\psi \left({D}_{\boldsymbol{v}}\right)-\psi \left({\alpha }_{v,j}\right)\right), (17) 其中 \psi (\cdot ) 是digamma函数. 损失函数是交叉熵损失函数在 {\boldsymbol{\alpha }}_{v} 确定的单纯性形上的积分,它允许每个样本的正确标签比其他类别标签产生更多的证据. 因此,本文提出的算法模型总体损失函数为
L={\mathcal{L}}_{\mathrm{r}\mathrm{e}\mathrm{c}}\left({S}^{U}\right)+\lambda \left(\sum _{v=1}^{\left|V\right|}{\mathcal{L}}_{\mathrm{c}\mathrm{e}\mathrm{r}}\left({\boldsymbol{\alpha }}_{v}\right)+{\mathcal{L}}_{\mathrm{c}\mathrm{e}\mathrm{r}}\left(\boldsymbol{\alpha }\right)\right). (18) 4. 实 验
为了验证模型的有效性,本文在4个真实公开的数据集上进行了实验. 首先介绍数据集、评估指标、基线方法和参数设置. 随后将模型的性能与基线的性能进行比较. 最后进行消融实验并回答以下问题:
问题1. 模型能否超越经典的序列推荐方法和多模态序列推荐方法.
问题2. 不同的组件如何影响模型的性能.
问题3. 超参数的设置对模型有何影响.
4.1 数据集
本文选择了4个真实世界的公共数据集进行实验,包括Amazon-Beauty,Amazon-Sport,Amazon-Toys,Yelp.我们为所有数据集选择了产品图片和用户评论作为附加的多模态信息. 参照以前的方法[31]对数据进行预处理,保留5次及5次以上交互的用户和项目. 然后,根据时间戳对每个用户的交互进行排序. 所有交互都被视为隐式反馈. 4组数据的统计结果如表1所示:
表 1 数据集Table 1. Dataset数据集 用户 项目 交互 稀疏度/% Amazon-Beauty 22 363 12 101 198 502 99.93 Amazon-Sport 35 598 18 357 256 3083 99.91 Amazon-Toys 19 412 11 924 167 597 99.93 Yelp 30 499 20 068 2 563 083 99.95 4.2 评估指标
为了评估序列推荐系统的性能,本文采用Top- k 召回率 ( Recall@k ) 和 Top- k 归一化折扣累积增益 ( NDCG@k )2种评价指标,值越高,表示模型的性能就越好. 其中 k 从{10,20}2个常用指标中选择. Recall 的计算公式如下:
Recall=\frac{\left|R\left(u\right)\bigcap T\left(u\right)\right|}{T\left(u\right)}, (19) 其中 R\left(u\right) 表示模型预测出需要推荐给用户的商品集合, T\left(u\right) 表示真实测试集中被推荐的集合. NDCG 的计算公式是
NDCG=\frac{DCG}{IDCG}. (20) 式(20)中各部分的详细计算公式如下:
DCG=\sum _{i=1}^{p}\frac{{2}^{{rel}_{i}}-1}{\mathrm{l}\mathrm{b}\left(i+1\right)},IDCG=\sum _{i=1}^{\left|REL\right|}\frac{{2}^{{rel}_{i}}-1}{\mathrm{l}\mathrm{b}\left(i+1\right)}. (21) 其中 {rel}_{i} 表示第 i 个位置的商品用户是否喜欢,喜欢为1,否则为0. REL 表示将被推荐的商品相关性从大到小排序后的集合, IDCG 的分子都为1,它代表了召回集合中的商品按用户喜欢相关性排序的最理想情况. 根据文献[32]的建议,我们以完整排名的方式评估模型性能,以进行公平比较. 排名结果来自整个项目集,而不是样本集上获得的.
4.3 基线方法
我们选择了2类方法进行比较:经典的序列推荐方法(即 GRU4Rec,SASRecCaser,BERT4Rec)和结合不同侧信息的新方法,其中包括利用商品属性的 DIF-SF、利用评论信息的RNS和利用多模态信息的 MMSRec. 以上提到的方法都只考虑了与项目相关的侧信息.
GRU4Rec[3]:基于会话的推荐模型,使用门控循环单元更好地捕获用户序列行为,提高推荐性能.
SASRec[31]:序列推荐模型,利用自我注意力机制分析整个用户行为序列,预测下一个可能交互的商品.
Caser[33]:序列推荐模型,采用卷积滤波器捕获全局级别和局部级别的用户序列行为模式.
BERT4Rec[34]:具有双向编码器的序列推荐模型,它使用类似完形填空任务去训练双向编码器并预测被屏蔽的项目.
DIF-SR [16]:考虑商品各种属性的序列推荐模型,它将和商品相关的侧信息从输入层转移至注意力层,并将注意力计算与项目表征分离开来.
RNS[35]:文本评论驱动的序列推荐模型,综合考虑了用户的内在偏好和序列行为模式.
MMSRec[36]:自监督的多模态模型,整合了视觉模态和文本模态的特征,采用双塔架构和自监督学习来提高序列推荐性能.
4.4 参数设置
对于以上提到的模型,我们都使用了公开的源代码和真实世界的数据集. 模型中的用到的超参数,我们遵循了原作者的建议,列出了每个基线方法在建议超参数设置下的最优结果. 本文提出的模型Large-TR基于pytorch实现,大型语言模型为qwen-max-
1201 ,使用自适应梯度算法进行了100次训练,批样本大小为 32,学习率为0.001. 对于其他超参数,我们遍历所有参数设置以找便到最优结果,包括:隐藏层大小∈{100, 200, 400, 500, 600, 700,1000 },层数∈{1, 2, 3, 4},图像嵌入维数∈{256, 512,1024 },文本嵌入维数∈{256, 512,1024 }. 不同数据集的结果可能会有所差异.4.5 总体性能(问题1)
在4个数据集上的实验结果如表2所示. 通过这些结果,我们可以观察到模型Large-TR在多模态序列推荐中展示出了优异的性能. 在大多数情况下,包含辅助信息的推荐方法(如MMSRec,RNS,DIF-SR)在性能表现上优于传统的推荐方法(如GRU4Rec,Caser,BERT4Rec,SASRec),这验证了引入辅助信息提升性能的可行性. 此外,MMSRec相较于其他引入辅助信息的方法(如RNS,DIF-SF)表现更为出色,这表明使用多模态内容的方法与仅使用单一模态的推荐方法相比,能让模型从更多维度和更丰富的上下
文中提取信息,从而更准确地反映用户的真实意图和兴趣偏好. 最后,Large-TR几乎在所有基线方法中均取得了最优表现. 这主要得益于以下几个方面首先,我们充分利用了用户生成的多模态内容,这使得我们的算法模型具有更丰富和多样化的输入特征. 其次,我们特别考虑了多模态内容中存在的噪音问题,设计了基于大型语言模型的降噪策略,提高了数据质量. 最后,通过可信决策机制,我们从多模态信息和项目信息2个视角获取一致且可信的推荐决策.
4.6 消融实验(问题2)
为了确定各种类型的辅助信息对模型Large-TR的影响,我们使用不同的辅助信息进行了消融实验. 我们采用在推荐平台上常见的数据:项目ID、用户评论(文本信息),商品图片(视觉信息). 针对以上数据,我们分别设计了4种类型的实验如表3所示:
表 3 各数据集的辅助信息消融结果Table 3. Side-Information Ablation Results for Each Dataset% 辅助信息 Amazon-Beauty Amazon-Sport Recall @1 0 NDCG @ 10 Recall @1 0 NDCG @ 10 项目ID 5.29 2.66 3.12 1.57 项目ID+图片 7.21 3.78 4.84 2.39 项目ID+文本 8.93 4.49 5.50 2.67 全部 9.43 4.85 6.39 3.35 实验结果表明,仅使用文本或图片信息就能提高推荐性能,这证明了侧面信息的有效性. 此外,2种模态信息的结合也能进一步提高推荐性能,这表明我们提出的融合算法可以有效地利用来自不同模态的信息.
此外,为了研究模型Large-TR中不同组件对实验结果的影响,我们设计了相应的消融研究,并分别在Amazon-Beauty,Amazon-Sport,Yelp 数据集上进行了实验,实验结果如表4所示:
表 4 各数据集的组件消融结果Table 4. Component Ablation Results for Each Dataset% 实验 Amazon-Beauty Amazon-Toys Yelp Recall @ 10 NDCG @ 10 Recall @ 10 NDCG @ 10 Recall @ 10 NDCG @ 10 T1 8.82 4.49 9.36 4.25 7.11 4.32 T2 9.11 4.67 10.88 5.98 8.01 4.73 T3 9.43 4.85 11.83 6.92 8.43 4.90 相关实验设置如下:
T1. Large-TR w/o LLM:图片和文本经过对应的编码器后直接拼接,其他部分不变;
T2. Large-TR w/o Trust:可信决策部分由单层 softmax 代替,其他部分不变;
T3. Large-TR w/o LLM&Trust:包含所有组件的模型.
根据实验结果,我们可以得出以下结论:引入大型语言模型去噪和可信决策2个组件可以有效提升推荐算法的性能,这说明我们模型设计是合理且有效的. 大型语言模型利用其丰富的语义知识,过滤不相关的图文内容,显著提高了多模态数据质量. 最后,可信决策机制在证据层面评估每个视角的置信度,整合不同视角的信息获得每个项目的推荐概率和当前预测的总体不确定性,提供可信推荐.
4.7 参数设置(问题3)
本节主要研究了网络的隐藏层维度和层数这2个超参数对实验结果的影响,图3显示了模型Large-TR在不同隐藏层维度设置下的Recall@10和 NDCG@10 分数. 4个数据集的结果表明,当隐藏层维度大小为600时,模型性能最佳. 图4显示了不同网络层数与模型性能的关系,可以看出网络层数为2时,模型效果最好.
5. 总 结
本文探讨了基于多模态内容的序列推荐问题,针对如何从噪声较多的用户生成内容中获得可信推荐这一挑战,提出了Large-TR方法. 该方法利用大型语言模型的丰富语义知识,识别和过滤用户生成内容中的噪声,提高多模态数据质量. 接着,从商品ID和多模态信息2个视角挖掘用户偏好,动态评估推荐结果的不确定性,并提供相应的推荐结果及置信度. 在4个公开数据集上的实验结果表明,该模型在性能上优于大多数现有的序列推荐模型. 最后的消融实验证明了Large-TR中各个组件的有效性. 未来的工作会考虑可解释的可信推荐系统,帮助用户更好地理解推荐结果. 此外,对置信度的评估也是一个值得深入研究的方向.
作者贡献声明:闫萌提出了算法思路和实验方案,并撰写论文;徐偲辅助写作并修改论文;黄海槟负责数据处理、实验实施及图表绘制;赵伟与管子玉提供了关键的指导意见.
-
表 2 各数据集的实验结果
Table 2 Experimental Results for Each Dataset
k 模型 Amazon-Beauty Amazon-Sport Amazon-Toys Yelp Recall /% NDCG /% Recall /% NDCG /% Recall /% NDCG /% Recall /% NDCG /% 10 GRU4Rec 5.29 2.66 3.12 1.57 3.70 1.84 3.61 1.84 Caser 4.74 2.39 2.27 1.18 3.61 1.86 3.80 1.97 Bert4Rec 5.29 2.37 2.95 1.30 5.33 2.34 5.24 3.27 SASRec 8.28 3.71 5.26 2.33 8.31 3.75 6.50 4.01 RNS 8.96 4.04 5.32 2.35 9.36 4.25 6.76 4.12 DIF-SR 9.08 4.46 5.56 2.64 10.13 5.04 6.98 4.19 MMSRec 9.49 4.76 6.35 3.23 11.54 6.14 7.49 4.52 本文 9.43 4.85 6.39 3.35 11.83 6.92 8.43 4.90 20 GRU4Rec 8.93 3.44 4.82 2.01 5.88 2.39 5.92 2.43 Caser 7.31 3.02 3.64 1.53 5.66 02.38 6.08 2.55 Bert4Rec 8.15 3.09 4.65 1.73 7.87 2.97 7.56 3.85 SASRec 11.97 4.64 7.73 2.95 11.68 4.60 9.28 4.71 RNS 12.31 4.78 7.74 2.99 12.31 5.12 9.54 4.72 DIF-SR 12.84 5.41 7.98 3.25 13.82 4.97 10.03 2.96 MMSRec 13.41 5.77 9.57 4.23 10.03 7.04 11.07 5.25 本文 14.34 6.22 10.18 4.72 11.68 7.83 12.69 5.95 注:加粗的数字代表最佳实验结果. 表 1 数据集
Table 1 Dataset
数据集 用户 项目 交互 稀疏度/% Amazon-Beauty 22 363 12 101 198 502 99.93 Amazon-Sport 35 598 18 357 256 3083 99.91 Amazon-Toys 19 412 11 924 167 597 99.93 Yelp 30 499 20 068 2 563 083 99.95 表 3 各数据集的辅助信息消融结果
Table 3 Side-Information Ablation Results for Each Dataset
% 辅助信息 Amazon-Beauty Amazon-Sport Recall @1 0 NDCG @ 10 Recall @1 0 NDCG @ 10 项目ID 5.29 2.66 3.12 1.57 项目ID+图片 7.21 3.78 4.84 2.39 项目ID+文本 8.93 4.49 5.50 2.67 全部 9.43 4.85 6.39 3.35 表 4 各数据集的组件消融结果
Table 4 Component Ablation Results for Each Dataset
% 实验 Amazon-Beauty Amazon-Toys Yelp Recall @ 10 NDCG @ 10 Recall @ 10 NDCG @ 10 Recall @ 10 NDCG @ 10 T1 8.82 4.49 9.36 4.25 7.11 4.32 T2 9.11 4.67 10.88 5.98 8.01 4.73 T3 9.43 4.85 11.83 6.92 8.43 4.90 -
[1] Wu Bin, He Xiangnan, Sun Zhongchuan, et al. ATM: An attentive translation model for next-item recommendation[J]. IEEE Transactions on Industrial Informatics, 2019, 16(3): 1448−1459
[2] McAuley J, Targett C, Shi Qinfeng, et al. Image-based recommendations on styles and substitutes [C] // Proc of the 38th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2015: 43−52
[3] Hidasi B, Karatzoglou A, Baltrunas L, et al. Session-based recommendations with recurrent neural networks[J]. arXiv preprint, arXiv: 1511.06939, 2015
[4] Chang Jianxin, Gao Chen, Zheng Yu, et al. Sequential recommendation with graph neural networks [C] // Proc of the 44th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2021: 378−387
[5] Chen Xu, Chen Hanxiong, Xu Hongteng, et al. Personalized fashion recommendation with visual explanations based on multimodal attention network: Towards visually explainable recommendation [C] // Proc of the 42nd Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2019: 765−774
[6] Cheng Zhiyong, Chang Xiaojun, Zhu Lei, et al. MMALFM: Explainable recommendation by leveraging reviews and images[J]. ACM Transactions on Information Systems, 2019, 37(2): 1−28
[7] Chu Weita, Tsai Y. A hybrid recommendation system considering visual information for predicting favorite restaurants[J]. World Wide Web, 2017, 20: 1313−1331 doi: 10.1007/s11280-017-0437-1
[8] Qian Shengsheng, Zhang Tianzhu, Xu Changsheng. Multi-modal multi-view topic-opinion mining for social event analysis [C] // Proc of the 24th ACM Int Conf on Multimedia. New York: ACM, 2016: 2−11
[9] Chen Changrui, Han Jungong, Debattista K. Virtual category learning: A semi-supervised learning method for dense prediction with extremely limited labels[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 46(8): 5595−5611 doi: 10.1109/TPAMI.2024.3367416
[10] Silva A. Enhancing deep multimodal representation: Online, noise-robust and unsupervised learning [D]. Parkville, AU: University of Melbourne, 2022
[11] He Ruining, McAuley J. Fusing similarity models with markov chains for sparse sequential recommendation [C] // Proc of the 16th IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE, 2016: 191−200
[12] Kabbur S, Ning Xia, Karypis F: Factored item similarity models for top-n recommender systems [C] // Proc of the 19th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2013: 659−667
[13] Rendle S. Factorization machines [C] // Proc of the 10th IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE, 2010: 995−1000
[14] Zimdars A, Chickering M, Meek C. Using temporal data for making recommendations[J]. arXiv preprint, arXiv: 1301.2320, 2013
[15] Zhou Kun, Wang Hui, Zhao Wayne Xin, et al. S3-rec: Self-supervised learning for sequential recommendation with mutual information maximization [C] // Proc of the 29th ACM Int Conf on Information & Knowledge Management. New York: ACM, 2020: 1893−1902
[16] Xie Yueqi, Zhou Peilin, Kim S. Decoupled side information fusion for sequential recommendation [C] // Proc of the 45th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2022: 1611−1621
[17] He Ruining, McAuley J. VBPR: Visual bayesian personalized ranking from implicit feedback [C] // Proc of the 29th AAAI Conf on Artificial Intelligence. Palo Alto, CA, 2015: 144 - 150
[18] Lei Chenyi, Liu Yong, Zhang Lingzi, et al. Semi: A sequential multi-modal information transfer network for e-commerce micro-video recommendations [C] // Proc of the 27th ACM SIGKDD Conf on Knowledge Discovery & Data Mining. New York: ACM, 2021: 3161−3171
[19] Geng Shijie, Liu Shuchang, Fu Zuohui, et al. Recommendation as language processing (rlp): A unified pretrain, personalized prompt & predict paradigm (p5) [C] // Proc of the 16th ACM Conf on Recommender Systems. New York: ACM, 2022: 299−315
[20] Lin Junyang, Men Rui, Yang An, et al. M6: Multi-modality-to-multi-modality multitask mega-transformer for unified pretraining [C] // Proc of the 27th ACM SIGKDD Conf on Knowledge Discovery & Data Mining. New York: ACM, 2021: 3251−3261
[21] Dai Sunhao, Shao Ninglu, Zhao Haiyuan, et al. Uncovering chatgpt’s capabilities in recommender systems [C] // Proc of the 17th ACM Conf on Recommender Systems. New York: ACM, 2023: 1126−1132
[22] Bao Keqin, Zhang Jizhi, Zhang Yang, et al. Tallrec: An effective and efficient tuning framework to align large language model with recommendation [C] // Proc of the 17th ACM Conf on Recommender Systems. New York: ACM, 2023: 1007−1014
[23] Lin Xinyu, Wang Wenjie, Li Yongqi, et al. A multi-facet paradigm to bridge large language model and recommendation[J]. arXiv preprint, arXiv: 2310.06491, 2023
[24] Mann B, Ryder N, Subbiah M, et al. Language models are few-shot learners[J]. arXiv preprint, arXiv: 2005.14165, 2020
[25] Devlin J, Chang Mingwei, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint, arXiv: 1810.04805, 2018
[26] Zhang Qi, Wang Jiawen, Huang Haoran, et al. Hashtag recommendation for multimodal microblog using co-attention network [C] // Proc of the 26th Int Joint Conf on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 2017: 3420−3426
[27] Radford A, Kim W, Hallacy C, et al. Learning transferable visual models from natural language supervision [C] // Proc of the 24th Int Conf on Machine Learning. New York: ACM, 2021: 8748−8763
[28] Zhang Ying, Lu Huchuan. Deep cross-modal projection learning for image-text matching [C] // Proc of the 15th European Conf on Computer Vision. Berlin: Springer, 2018: 686−701
[29] Xu Cai, Si Jiajun, Guan Ziyu, et al. Reliable conflictive multi-view learning[C] //Proc of the 38th AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2024: 16129−16137
[30] Jsang A. Subjective Logic: A Formalism for Reasoning Under Uncertainty[M]. Berlin: Springer, 2018
[31] Kang Wangcheng, McAuley J. Self-attentive sequential recommendation [C] // Proc of the 18th IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE, 2018: 197−206
[32] Krichene W, Rendle S. On sampled metrics for item recommendation [C] // Proc of the 26th ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining. New York: ACM, 2020: 1748−1757
[33] Tang Jiaxi, Wang Ke. Personalized top-n sequential recommendation via convolutional sequence embedding [C] // Proc of the 11th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2018: 565−573
[34] Sun Fei, Liu Jun, Wu Jian, et al. BERT4Rec: Sequential recommendation with bidirectional encoder representations from transformer [C] // Proc of the 28th ACM Int Conf on Information and Knowledge Management. New York: ACM, 2019: 1441−1450
[35] Li Chenliang, Niu Xichuan, Luo Xiangyang, et al. A review-driven neural model for sequential recommendation[J]. arXiv preprint, arXiv: 1907.00590, 2019
[36] Song Kunzhe, Sun Qingfeng, Xu Can, et al. Self-supervised multi-modal sequential recommendation[J]. arXiv preprint, arXiv: 2304.13277, 2023