Processing math: 16%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

基于三分支图外部注意力网络的轻量化跨域序列推荐

张劲羽, 马晨曦, 李超, 赵中英

张劲羽, 马晨曦, 李超, 赵中英. 基于三分支图外部注意力网络的轻量化跨域序列推荐[J]. 计算机研究与发展, 2024, 61(8): 1930-1944. DOI: 10.7544/issn1000-1239.202440197
引用本文: 张劲羽, 马晨曦, 李超, 赵中英. 基于三分支图外部注意力网络的轻量化跨域序列推荐[J]. 计算机研究与发展, 2024, 61(8): 1930-1944. DOI: 10.7544/issn1000-1239.202440197
Zhang Jinyu, Ma Chenxi, Li Chao, Zhao Zhongying. Towards Lightweight Cross-Domain Sequential Recommendation via Tri-Branches Graph External Attention Network[J]. Journal of Computer Research and Development, 2024, 61(8): 1930-1944. DOI: 10.7544/issn1000-1239.202440197
Citation: Zhang Jinyu, Ma Chenxi, Li Chao, Zhao Zhongying. Towards Lightweight Cross-Domain Sequential Recommendation via Tri-Branches Graph External Attention Network[J]. Journal of Computer Research and Development, 2024, 61(8): 1930-1944. DOI: 10.7544/issn1000-1239.202440197

基于三分支图外部注意力网络的轻量化跨域序列推荐

基金项目: 国家自然科学基金项目(62072288);山东省泰山学者计划项目(tsqn202211154);山东省自然科学基金项目(ZR2022MF268)
详细信息
    作者简介:

    张劲羽: 1996年生. 博士研究生. CCF学生会员. 主要研究方向为序列推荐、轻量推荐

    马晨曦: 1998年生. 硕士研究生. 主要研究方向为跨域序列推荐

    李超: 1984年生. 博士,副教授. CCF高级会员. 主要研究方向为图数据挖掘、推荐算法

    赵中英: 1983年生. 博士,教授. CCF杰出会员. 主要研究方向为图数据挖掘、推荐系统

    通讯作者:

    赵中英(zzysuin@163.com

  • 中图分类号: TP391

Towards Lightweight Cross-Domain Sequential Recommendation via Tri-Branches Graph External Attention Network

Funds: This work was supported by the National Natural Science Foundation of China (62072288), the Taishan Scholar Program of Shandong Province (tsqn202211154), and the Natural Science Foundation of Shandong Province (ZR2022MF268).
More Information
    Author Bio:

    Zhang Jinyu: born in 1996. PhD candidate. Student member of CCF. His main research interests include sequential recommendation and lightweight recommendation

    Ma Chenxi: born in 1998. Master candidate. Her main research interest includes cross-domain sequential recommendation

    Li Chao: born in 1984. PhD, associate professor. Senior member of CCF. His main research interests include graph data mining and recommendation algorithm

    Zhao Zhongying: born in 1983. PhD, professor. Distinguished member of CCF. Her main research interests include graph data mining and recommendation system

  • 摘要:

    跨域序列推荐(cross-domain sequential recommendation,CSR)旨在通过挖掘用户在多域混合序列中的行为偏好来为其提供跨域个性化推荐服务. 近年来,研究人员开始尝试将图卷积网络(graph convolution network,GCN)集成到CSR中,以建模用户和项目之间的复杂关系. 然而,基于图的CSR方法大多通过复杂的结构来捕捉用户在多个域中的序列行为模式,这导致其通常具有较高的计算复杂度和较大的内存开销,限制了模型在资源受限设备上的应用. 此外,已有的轻量级图跨域序列推荐方法认为,应该采用单层聚合协议(single layer aggregating protocol,SLAP)来学习跨域序列图(cross-domain sequential graph,CSG)上的嵌入表示. 基于这种协议的图卷积网络,能够规避多层聚合协议所带来的额外跨域噪声,但却难以捕捉域内的高阶序列依赖关系. 为了解决上述挑战,提出了一种轻量级的三分支图外部注意力网络(tri-branches graph external attention network,TEA-Net). 具体而言,TEA-Net首先将原始CSG分为域间以及域内序列图,并设计了一种并行的三分支图卷积网络结构来学习图中的节点表示. 该结构能够以较低的计算开销,在不引入额外跨域噪声的条件下,学习域间的低阶协同过滤关系和域内的高阶序列依赖关系. 其次,在三分支结构的基础上,提出了一种改良的外部注意力(external attention,EA)组件,该组件移除了EA中的非线性通道,使其能够以更低的开销挖掘项目序列依赖关系并将注意力权重在多个分支上共享. 在2个真实数据集上进行了广泛的实验来验证TEA-Net的性能表现. 与10种最先进的CSR方法相比,TEA-Net在轻量化性能和预测精度方面均取得了更好的结果.

    Abstract:

    Cross-domain sequential recommendation (CSR) aims to capture the behavioral preferences of users by modeling their historical interaction sequences in multiple domains, thus providing personalized cross-domain recommendations. Recently, researchers have started integrating graph convolution networks (GCNs) into CSR to model complicated associations among users and items. However, due to their complicated structure, most graph-based CSR methods are usually accompanied by high computational complexity or memory overhead, making them difficult to deploy on resource-constrained edge devices. Besides, existing lightweight graph-based CSR methods tend to employ single layer aggregating protocol (SLAP) to propagate embeddings on cross-domain sequential graphs (CSG). Such a strategy indeed aids the GCNs in circumventing cross-domain noise interference caused by high-order neighborhood aggregation strategies. However, it also shields GCN from mining high-order sequential relationships within individual domains. To this end, we introduce a lightweight tri-branches graph external attention network (TEA-Net). Specifically, we separate the original CSG into three parts including two inner-domain sequential graphs and an inter-domain sequential graph and devise a parallel tri-branches graph convolution network to learn the node representations. This structure can simultaneously consider the first-order inter-domain correlations and the high-order inner-domain connectivity without introducing additional cross-domain noises. Besides, we propose an improved external attention (EA) component without the nonlinear channel, which captures the sequential dependency among items at a lower cost and shares attention weights across multiple branches. We conduct extensive experiments on two large-scale real-world datasets to verify the performance of TEA-Net. The experimental results demonstrate the superiority of TEA-Net in both the lightweight performance and the prediction accuracy compared with several state-of-the-art methods.

  • 序列推荐(sequential recommendation,SR)任务旨在从用户的历史交互行为序列中捕捉其动态行为偏好,以建模用户长期的偏好演化过程[1]. 这一研究方向已经引起了大量的关注,相关序列推荐模型也被广泛应用于电子商务、信息检索和移动服务等诸多领域[2-3]. 然而,SR方法在面临数据稀疏或冷启动推荐场景时,由于缺乏足够的数据来学习用户的序列偏好,其性能往往不尽如人意[4]. 因此,跨域序列推荐(cross-domain sequential recommendation,CSR)方法引发了研究者的关注. 与传统SR方法相比,CSR方法能够借助其他领域(源域)中丰富的辅助信息来解决本域(也称目标域)中的数据稀疏性问题[4]. 在CSR场景中,由于用户需要同时在源域与目标域中存在历史交互行为,故研究者们通常将此类用户称作重叠用户. 于是,CSR可以被总结为:通过建模重叠用户在多个域中的混合行为序列来捕捉其跨域序列偏好的任务.

    早期的CSR方法倾向于采用基于循环神经网络(recurrent neural network,RNN)的结构[5-6]来捕捉混合序列中的用户偏好. 然而,此类方法对跨域实体之间关系的关注不足,同时难以建模长序列中的用户偏好演化过程. 随后,注意力机制逐渐取代了RNN,成为了实现CSR的热门方法. 该机制利用Attention或Self-Attention机制来筛选和捕捉混合序列中的序列偏好. 例如,DAT-MDI[7] 和DASL[8]采用双重注意力网络来筛选用户的域间序列偏好并共享跨域知识. 这类方法能够充分地考虑项目在混合序列中的全局依赖关系,却难以挖掘重叠用户与跨域项目间的结构化信息. 为了解决这一问题,学者们尝试把GCN与Attention相结合,将CSR任务转移到基于跨域序列图(cross-domain sequential graph,CSG)的非欧式空间中进行解决[9-10],通过跨域图卷积操作在源域和目标域间传递细粒度的域知识,同时采用自注意力机制来捕捉混合序列中项目之间的全局相关性. 上述基于图的方法已经在CSR任务上取得了卓越的性能表现,但仍然面临2个挑战:

    1)高昂的计算开销. 通过集成自注意力机制来挖掘序列偏好的图推荐方法,大多具有平方级计算复杂度和庞大的参数规模. 这导致此类CSR模型难以部署到资源受限的边缘设备,例如,智能手机上[11]. 因此,如何在保证预测精度的前提下提供轻量化的跨域序列推荐成为一项新兴且充满挑战性的任务. 早期的推荐系统轻量化方法[12],大多关注结构的优化. 例如,wang等人[13]提出将用户特征划分为静态和动态特征,并分别采用简化的GCN和注意力机制来建模这2类特征以达到高效的目的. 然而,文献[13]方法并未对图编码器本身进行优化,并且当用户交互数量变得十分庞大且包含跨域信息时,其轻量化性能依旧十分有限. 另一种可行的思路是针对序列编码器展开优化. 例如,LEA-GCN[14]采用一种双通道外部注意力(external attention,EA)组件来取代基于自注意力的序列编码器. EA可以通过外部记忆单元来简化注意力计算的时间复杂度,因此在CSR任务上实现了较好的轻量化性能. 然而,该组件包含的协同过滤通道仍存在大量的非线性加权设计,这些设计的存在导致该模块仍需要维持较高的计算开销.

    2)不恰当的层聚合策略. 众所周知,图神经网络大多采用多层聚合协议(multi layers aggregating protocol,MLAP)来进行节点表示学习. 然而,在CSR场景中,由于源域的高阶序列依赖关系中带有大量的“域-独特”信息,当这些信息通过多层聚合协议经由重叠用户节点传递到目标域的项目节点中时,会产生额外的跨域噪声. 因此,LEA-GCN[14]采用单层聚合协议(single layer aggregating protocol,SLAP),即仅通过聚合跨域图上的一阶近邻关系来学习节点的嵌入表示. 这样的策略一方面降低了因多层图卷积所带来的高计算复杂度,另一方面也帮助GCN规避了因高阶邻域聚合所带来的跨域噪声干扰. 然而,文献[14]方法无法挖掘单个域内项目间的高阶序列依赖关系. 因此,基于SLAP策略的跨域图序列推荐模型难以建模用户的长期偏好演化过程.

    为了解决上述挑战,本文提出一种轻量级的三分支图外部注意力网络(tri-branches graph external attention network,TEA-Net). 具体而言,首先基于混合序列构建包含跨域交互信息的域间序列图(inter-domain sequential graph,ITSG)以及仅包含2个域内项目交互的域内序列图(inner-domain sequential graph,INSG). 然后,提出一个并行的三分支图卷积网络,该网络能够基于不同的层聚合策略来同步地学习ITSG与INSG上的节点表示. 在不引入额外的跨域噪声的条件下,TEA-Net能够以较低的内存开销来同时聚合域间的一阶近邻关系和域内的高阶序列依赖关系. 进一步地,提出一个改进的外部注意力模块,该模块能够以较低的计算复杂度为项目节点进行序列编码,并将注意力权重在不同分支间共享. 此外,为了增强不同分支间节点表示的一致性,TEA-Net还采用对比学习策略对三分支的节点表示进行细化. 最后,在2个大规模真实数据集上的广泛实验证实了CSR方法的有效性.

    本文的贡献主要体现在4个方面:

    1)提出了一种基于三分支图外部注意力网络的轻量化跨域序列推荐方法.

    2)提出了一种改进外部注意力机制. 该机制能够基于较低的计算开销来捕捉项目在序列中的全局相关性并将注意力权重在各分支间共享.

    3)设计了一种并行的三分支图卷积网络. 它能够采用灵活的层聚合策略来同时考虑域间的一阶协同过滤关系和域内的高阶序列依赖关系.

    4)在2个真实数据集上进行实验,结果表明,与当前最先进的CSR方法相比,TEA-Net具有更高的预测准确性和更低的计算开销.

    本节将从序列推荐、跨域序列推荐和轻量级推荐3个方面来介绍当前的研究现状.

    序列推荐(sequential recommendation,SR)系统旨在通过对用户的历史交互序列进行建模[3],来捕捉用户行为模式的演变[2]. 已有的SR研究大致可以分为2类,即传统的基于机器学习的方法[15-18]以及基于深度学习的方法[19-21]. 在早期基于机器学习的SR方法中,邢春晓等人[18]提出采用基于协同过滤的序列加权模型来同时考虑基于时间的权重和基于项目相似度的权重. 随后,基于矩阵分解与马尔可夫假设的方法被用来捕获用户的高阶序列行为模式[15]. 文献[15-18]方法在序列推荐的早期探索中发挥了重要的作用. 然而,上述方法大都基于浅层的网络结构,难以捕捉用户深层次的兴趣偏好.

    随着深度神经网络的发展,研究人员已经将注意力转移到了基于深度学习的SR方法上来. 例如,HRNN[22]作为一种基于循环神经网络的序列推荐方法,通过一种分层GRU结构在会话序列间进行信息传递,显著提升了SR的预测性能. 然而,此类方法在建模长序列时容易发生梯度消失的问题,并且由于门控机制的存在,算法的结构和时间复杂度都相对较高[23]. 因此,学者们将目光转移到了基于图神经网络(GNN)的方法[24-25]、基于Transformer的方法[26-28]以及基于自我监督的方法[20-21,29]. 例如,GES-SASRec[25]通过融合项目序列关系和基于项目属性的语义关系构建了一种新颖的混合项目图,并通过对混合项目图进行图卷积,以生成平滑的项目节点嵌入. RAISE[28]作为一种基于Transformer的方法,能够基于全局项目关系来分析潜在的用户意图并捕捉候选项目与目标用户之间的特定关系. 此外,zhao等人[21]提出通过对比学习策略增强用户序列表示学习的方法,通过强调序列中顺序关系的一致性来获得对时间间隔不敏感的用户表示. 上述基于深度神经网络的序列推荐方法在SR任务上展现出强大的性能优势,然而这些方法在应对SR的数据稀疏性和推荐系统冷启动问题方面仍存在挑战.

    通过引用和共享来自其他领域的知识, CSR方法可以有效缓解SR方法面临的数据稀疏性和冷启动问题[30]. 在早期CSR的探索过程中,学者们曾采用基于RNN的网络结构来实现域间知识的共享,例如π-Net[5]和PSJNet[6]. 这类方法能够利用并行的RNN网络结构在不同的域间共享用户偏好信息,并同时通过长短时记忆建模域中的序列偏好. 然而,相比于传统序列推荐场景,CSR场景由于需要同时考虑重叠用户在多个域中的交互,跨域混合序列中包含的交互规模通常更加庞大,这导致RNN的性能更加受限. 为了应对该挑战,基于注意力机制的CSR[7-8,31]开始涌现,例如,SCRM[31]首先通过多层交叉映射感知网络共享域间知识,然后通过自注意力机制捕捉共享知识中的全局序列偏好. DASL[8]则通过双重自注意力网络来对齐用户在2个域中的序列偏好,并为其生成跨域推荐结果. 这类方法能够更精确地捕捉不同域序列中的高阶项目依赖关系,但往往伴随着较高的计算复杂度和时间开销. 随后,GCN逐渐成为了解决CSR问题的热门选择[4,9,32]. 这类方法普遍采用CSG的方式来表示跨域序列推荐场景中复杂的用户与项目关系[10]. 例如,DA-GCN[9]采用图协同过滤编码器来学习CSG上的跨域表示,并通过注意力机制来聚合用户的序列偏好. TRaGCF[32]提出一种基于时间和关系感知的图注意力算法,该方法能够挖掘用户高阶行为模式并利用跨域用户行为模式实现跨域知识的双向迁移. 然而,随着图模型结构复杂性的上升,基于图的CSR方法的参数规模和内存开销也渐渐超过了大多数传统深度学习模型,导致其难以被部署到资源受限的边缘设备上.

    为了简化推荐系统的结构并提升其在多种设备上应用的便捷性,轻量级推荐系统的概念[12]引起了广泛关注. 在早期的探索过程中,文献[33]提出采用对特征嵌入剪枝的方式优化表示学习,该方法采用一种可学习的阈值来自适应地调节嵌入张量的维度大小. 另一观点则认为可以通过压缩输入的原始协同矩阵的方式来实现轻量化推荐的目标[3,11-12]. 然而,无论是剪枝过程还是矩阵压缩过程,通常都伴随着一定程度的特征损失,甚至丢失关键的项目间的顺序依赖关系. 因此,部分研究开始致力于改良模型的结构复杂度,例如LightGCN[34],通过移除传统GCN中的特征变换和非线性激活单元,在几乎不影响精度的前提下极大程度地降低了图推荐系统的计算复杂度. LightGCAN[13]则将原始高维用户特征划分为静态特征和动态交互特征,并采用多个编码器并行的结构来分别进行建模,以达成高效推荐的目标.

    尽管在传统推荐任务上已经存在许多轻量化的探索,然而在轻量化序列推荐的研究领域仍然留有大量空白. LSAN[3]作为提出轻量化序列推荐思想的工作,采用了低秩组合嵌入来优化模型的输入并提出了一种改良的双注意力网络来生成序列推荐. 这种网络结构去除了传统多头自注意力中的冗余,同时保留了捕获长期和短期(即全局和局部)项目依赖性的能力. 随后,LEA-GCN[14]作为目前仅有的跨域序列推荐工作,在基于LightGCN的CSR模型基础上提出了采用SLAP来简化跨域节点表示学习过程的观点. 此外,文献[14]还介绍了一种双通道的外部注意力组件来补充挖掘节点嵌入中的序列偏好. 然而,SLAP可能会导致CSR模型忽略域内的高阶节点序列依赖关系和高阶协同过滤关系. 此外,外部注意力网络中的协同过滤通道仍具有较高的计算复杂度,不利于实现序列表示学习阶段的轻量化目标. 因此,在CSR场景下的相关的轻量化推荐方法仍需进一步探索.

    本节首先介绍了TEA-Net中的符号定义和CSR的任务定义,随后对TEA-Net模型的每个组件和结构设计进行了详细描述.

    CSR任务的目标是通过对重叠用户在2个域中的历史行为序列进行建模,进而分别在每个域上为其生成下一个感兴趣的推荐结果[4]. 为了清晰地描述这一任务,本文首先将重叠用户的集合定义为U={u1,u2,,uk,,up}(k=1,2,,p). 这些用户均同时在A域和B域中存在多个历史交互. 其次, A域的项目集合A={A1,A2,,Ai,,Am}(i=1,2,,m),其中AiA表示A域中的项目. 而B域的项目集合定义为B={B1,B2,,Bj,,Bn}(j=1,2,,n),其中,BjB则表示B域中的项目. 此外,由于用户混合序列包含的交互数目通常较多,很难直接作为输入被应用到实际训练中. 因此,本文将重叠用户的原始混合序列进行拆分,令SA={SA1,SA2,,SAk,,SAp}SB={SB1,SB2,,SBk,,SBp}分别表示重叠用户在A域和B域中的交互序列. SAk={A1,A2,,Ai,,Atka}表示重叠用户ukA域中的历史行为序列,其中,tkaSAk的序列长度. 类似地,SBk={B1,B2,,Bj,,Btkb}则表示ukB域中的交互行为序列,其中,tkb表示SBk的序列长度. 在拆分过程中,项目在混合序列中的相对位置也被记录了下来,以便在表示学习过程中补充缺失的混合序列位置关系. 以SAk为例,其项目在原始混合序列中的相对位置可以被表示为PAk={p1,p2,,ptka}.

    因此,在A域中的候选项被推荐给重叠用户uk的概率可以形式化为:

    P(Ai+1|SAk,PAk,SBk,PBk,uk)fA(SAk,PAk,SBk,PBk,uk) (1)
    P(Bj+1|SBk,PBk,SAk,PAk,uk)fB(SBk,PBk,SAk,PAk,uk) (2)

    其中,P(Ai+1|SAk,PAk,SBk,PBk,uk)表示在考虑了uk的历史交互序列的前提下,将Ai+1推荐给用户的概率. fA(SAk,PAk,SBk,PBk,uk)则表示用于估计该概率分布的似然函数. 同理,在B域中也有着相似的定义.

    本节设计了轻量级三分支图外部注意力网络TEA-Net,如图1所示,其核心思想是在不影响模型预测精度的前提下,实现一种轻量化的基于图的跨域序列推荐方法. TEA-Net包含3个模块:序列图的构建、节点表示学习以及序列表示学习.

    图  1  TEA-Net的架构图
    注:u1u2分别表示2个不同重叠用户,而S1S2则分别表示他们的混合交互序列.
    Figure  1.  The architecture diagram of TEA-Net

    1)序列图的构建. 传统的基于图的CSR方法通常采用构建单个CSG的方式来表示重叠用户与跨域项目间的复杂联系. 然而,源域的高阶序列依赖关系中包含着大量的“域-独特”属性信息,当这些信息通过MLAP传递到目标域的项目节点中时,会产生跨域噪声影响[14]. 而SLAP聚合协议又会导致图中单个域内高阶关系挖掘的不足,需要引入额外的结构来解决. 为此,本文提出了构建多个序列图来建模用户混合行为序列的思想. 如图1左侧部分所示,TEA-Net首先构建了一张完整的域间序列图GM,图中包含了用户在2个域中的全部交互以及2个域中全部项目间的序列依赖关系. 其次,构建了2张域内序列图GAGB,分别囊括了A域和B域中的用户-项目交互关系以及各自域内的序列依赖关系. 采用这种构图策略的优势在于:首先可以根据CSR任务的特点,灵活地在不同的序列图上采取不同的层聚合策略. 其次由于不同的序列图采样自相同的混合行为序列,因此无须增加额外的可学习参数. 最后基于相同混合序列采样得到的不同序列图,有利于学习节点在不同视图间的结构一致性,这为采用对比学习精炼节点嵌入提供了必要条件.

    2)节点表示学习. 在构图的基础上设计了一个并行的三分支图卷积网络来学习不同序列图中的节点表示. 由于GAGB中不包含跨域信息,因此在这2个序列图上可以采用传统的MLAP聚合策略来充分挖掘单个域内序列中的高阶依赖关系;而在GM上则可以采用LEA-GCN[14]提出的SLAP策略来聚合跨域序列图上的一阶近邻关系,以避免带来跨域噪声影响. 上述三分支结构可以灵活地为不同分支配置合适的层聚合策略,并且这种分而治之的并行策略使3个分支上的节点表示学习过程能够同步进行,这也在一定程度上节约了训练的时间成本. 此外,TEA-Net分别在GAGMGBGM之间对项目嵌入和用户嵌入应用了对比学习策略. 该策略可以通过对齐域间视图与域内视图中节点结构的一致性来提升节点的表示学习效果.

    3)序列表示学习. 为了进一步挖掘项目节点表示中隐藏的序列偏好,TEA-Net在三分支结构上提出了一种改进的外部注意力模块设计来加工项目节点表示. 该模块通过引入2个外部注意力单元,能够以接近线性的计算复杂度来度量项目的全局相关性,并将注意力权重在不同分支间共享. 该模块的优越性主要体现在2个方面:首先,三分支结构保护了跨域序列图中的高阶连通关系,TEA-Net因此可以省略外部注意力模块中的非线性通道. 这不仅简化了模型结构,还提升了注意力得分的计算效率. 其次,TEA-Net将外部注意力模块扩展到了一个共享空间中,如图2所示,使其能够同时处理来自不同分支的节点嵌入,并将注意力权重在分支间共享. 这有利于提高模块的利用率,并进一步降低参数规模.

    图  2  A域中共享外部注意力组件
    注: {{\boldsymbol M}}_{\mathrm{K}}^{\mathit{A}} {{\boldsymbol M}}_{\mathrm{V}}^{\mathit{A}} 是2个不同的外部记忆单元.
    Figure  2.  The sharing external attention components in domain A

    最终,TEA-Net通过拼接来自不同分支的用户和项目嵌入,分别产生在2个域上的跨域推荐结果.

    TEA-Net构建了3张序列图来完整地表示重叠用户的混合交互序列,即 {\mathcal{G}}_{\mathrm{M}},{\mathcal{G}}_{\mathit{A}} {\mathcal{G}}_{\mathit{B}} . 域间序列图 {\mathcal{G}}_{\mathrm{M}} 中包含了4类关系,即重叠用户分别在A域和B域中的交互关系以及2个域中各自的序列依赖关系. 为了形式化地描述这2种输入关系,本文采用了矩阵的形式来描述 {\mathcal{G}}_{\mathrm{M}}

    \begin{array}{c}\left.{\mathcal{G}}_{\mathrm{M}}=\left(\begin{array}{ccc}{\mathcal{M}}_{\mathit{A}\to \mathit{A}}& {\mathcal{M}}_{\mathrm{A}\to \mathrm{U}}& {\boldsymbol{0}}\\ {\mathcal{M}}_{\mathrm{U}\to \mathit{A}}& {\boldsymbol{0}}& {\mathcal{M}}_{\mathrm{U}\to \mathit{B}}\\ {\boldsymbol{0}}& {\mathcal{M}}_{\mathit{B}\to \mathrm{U}}& {\mathcal{M}}_{\mathit{B}\to \mathit{B}}\end{array}\right.\right)\text{,} \end{array} (3)

    其中, {\mathcal{M}}_{\mathit{A}\to \mathit{A}}\in {\mathbb{R}}^{m\times m} {\mathcal{M}}_{\mathit{B}\to \mathit{B}}\in {\mathbb{R}}^{n\times n} 分别表示存储着2个域中项目间序列依赖关系的Laplace矩阵, \begin{array}{c}{\mathcal{M}}_{\mathit{A}\to \mathrm{U}}\in {\mathbb{R}}^{m\times p}\end{array} \begin{array}{c}{\mathcal{M}}_{\mathrm{U}\to \mathit{A}}\in {\mathbb{R}}^{p\times m}\end{array} 表示存储着用户在A域中交互关系的矩阵;相应地, \begin{array}{c}{\mathcal{M}}_{\mathrm{U}\to \mathit{B}}\in {\mathbb{R}}^{p\times n}\end{array} {\mathcal{M}}_{\mathit{B}\to \mathrm{U}}\in {\mathbb{R}}^{n\times p} 表示存储着用户在B域中交互关系的矩阵.

    与此同时, {\mathcal{G}}_{\mathit{A}} {\mathcal{G}}_{\mathit{B}} 则仅包含重叠用户在单个域中的交互关系,以及单个域中的项目间序列依赖关系. 于是,它们可以被表示为:

    \begin{array}{c}\left.{\mathcal{G}}_{\mathit{A}}=\left(\begin{array}{cc}{\mathcal{M}}_{\mathit{A}\to \mathit{A}}& {\mathcal{M}}_{\mathit{A}\to \mathrm{U}}\\ {\mathcal{M}}_{\mathrm{U}\to \mathit{A}}& {\boldsymbol{0}}\end{array}\right.\right)\text{,} \end{array} (4)
    \begin{array}{c}\left.{\mathcal{G}}_{\mathit{B}}=\left(\begin{array}{cc}{\mathcal{M}}_{\mathit{B}\to \mathit{B}}& {\mathcal{M}}_{\mathit{B}\to \mathrm{U}}\\ {\mathcal{M}}_{\mathrm{U}\to \mathit{B}}& {\boldsymbol{0}}\end{array}\right.\right)\text{.} \end{array} (5)

    由于, {\mathcal{G}}_{\mathrm{M}},{\mathcal{G}}_{\mathit{A}} {\mathcal{G}}_{\mathit{B}} 的输入来自相同的混合交互序列,因此,除 {\mathcal{G}}_{\mathrm{M}} 中必要的节点参数之外, {\mathcal{G}}_{\mathit{A}} {\mathcal{G}}_{\mathit{B}} 在构图过程中无需申请额外的可学习参数,这3张序列图将在节点表示学习阶段共享项目和用户参数,即使用相同的节点表示空间. 也就是说,上述构图方式仅增加了结构复杂度,而并未导致参数规模的增加. 此外,上述构图方法也为学习跨域序列图中的高阶联系提供了条件.

    为了以较低的内存开销去同步地聚合域间的一阶近邻关系和域内的高阶序列依赖关系,TEA-Net设置了一个三分支图卷积网络来进行节点表示学习. 对于每个分支,TEA-Net统一采用结构最简的LightGCN[33]作为图编码器,以保证图卷积运算的轻量化性能. 但对于不同的序列图,则采用了不同的层聚合策略. 在 {\mathcal{G}}_{\mathrm{M}} 分支,TEA-Net采用SLAP协议来抽取跨域结构知识,这样可以有效避免引入额外的跨域噪声. 而对于 {\mathcal{G}}_{\mathit{A}} {\mathcal{G}}_{\mathit{B}} ,则采用MLAP协议来挖掘单个域上的高阶协同过滤与序列依赖关系. 因此,在 {\mathcal{G}}_{\mathrm{M}} 分支上的节点表示学习过程可以形式化为:

    \begin{split} {\boldsymbol E}_{\mathrm{U}}^{\mathrm{M}}=&\displaystyle\sum _{{u}_{k}\in \mathcal{U}} \left(\displaystyle\sum _{{A}_{i}\in {S}_{ k}^{A}} \dfrac{1}{\sqrt{\left|\mathcal{U}\right|}\sqrt{\left|{S}_{ k}^{A}\right|}}{{\boldsymbol e}}_{{A}_{i}\to {u}_{k}}^{}\right. +\\ &\left.\displaystyle\sum _{{B}_{j}\in {S}_{ k}^{B}} \dfrac{1}{\sqrt{\left|\mathcal{U}\right|}\sqrt{\left|{S}_{ k}^{B}\right|}}{{\boldsymbol e}}_{{B}_{i}\to {u}_{k}}^{}\right)\text{,} \end{split} (6)
    \begin{split} {\boldsymbol E}_{\mathit{A}}^{\mathrm{M}}=&\displaystyle\sum _{{S}_{ k}^{A}}^{\left|{\mathcal{S}}_{A}\right|}\left(\displaystyle\sum _{{A}_{i}\in {S}_{ k}^{A}} \displaystyle\sum _{{u}_{k}\in \mathcal{U}} \dfrac{1}{\sqrt{\left|\mathcal{U}\right|}\sqrt{\left|{S}_{ k}^{A}\right|}}{{\boldsymbol e}}_{{u}_{k}\to {A}_{i}}^{}+\right.\\ &\left.\displaystyle\sum _{{A}_{i}\in {S}_{ k}^{A}}{ \dfrac{1}{\left|{S}_{ k}^{A}\right|}}_{}{{\boldsymbol e}}_{{A}_{(i-1)}\to {A}_{i}}^{}\right)\text{,} \end{split} (7)
    \begin{split} {\boldsymbol E}_{\mathit{B}}^{\mathrm{M}}=&\displaystyle\sum _{{S}_{ k}^{B}}^{\left|{\mathcal{S}}_{B}\right|}\left(\displaystyle\sum _{{B}_{j}\in {S}_{ k}^{B}} \displaystyle\sum _{{u}_{k}\in \mathcal{U}} \dfrac{1}{\sqrt{\left|\mathcal{U}\right|}\sqrt{\left|{S}_{ k}^{B}\right|}}{{\boldsymbol e}}_{{u}_{k}\to {B}_{j}}^{}+\right.\\ &\left.\displaystyle\sum _{{B}_{j}\in {S}_{ k}^{B}}{ \dfrac{1}{\left|{S}_{ k}^{B}\right|}}_{}{{\boldsymbol e}}_{{B}_{(j-1)}\to {B}_{j}}^{}\right)\text{,} \end{split} (8)

    其中, {\boldsymbol E}_{\mathrm{U}}^{\mathrm{M}},{\boldsymbol E}_{\mathit{A}}^{\mathrm{M}},{\boldsymbol E}_{\mathit{B}}^{\mathrm{M}} 分别表示GCN从 {\mathcal{G}}_{\mathrm{M}} 分支上学习到的用户节点表示以及2个域内的项目表示; {{\boldsymbol e}}_{{u}_{k}\to {A}_{i}}^{} {{\boldsymbol e}}_{{u}_{k}\to {B}_{j}}^{} 表示从用户节点分别聚合到2个域项目节点上的信息; {{\boldsymbol e}}_{{A}_{i}\to {u}_{k}}^{} {{\boldsymbol e}}_{{B}_{i}\to {u}_{k}}^{} 则分别代表从A域和B域的项目节点聚合到用户节点上的信息; {{\boldsymbol e}}_{{A}_{(i-1)}\to {A}_{i}}^{} {{\boldsymbol e}}_{{B}_{(j-1)}\to {B}_{j}}^{} 分别表示在A域和B域中项目间序列依赖关系的聚合.

    而在 {\mathcal{G}}_{\mathit{A}} {\mathcal{G}}_{\mathit{B}} 分支上的节点表示学习过程则采用MLAP,第l层上的图卷积过程可以表示为:

    \begin{array}{c}{\boldsymbol E}^{\left(l\right)}={H}_{\mathrm{M}}\left({\boldsymbol E}^{\left(l-1\right)},\mathcal{G}\right)\text{,} \end{array} (9)

    其中, {\boldsymbol E}^{\left(l\right)} 表示第l层的节点表示, {\boldsymbol E}^{\left(l-1\right)} 表示前一层的节点表示, {H}_{\mathrm{M}}\left(\cdot \right) 表示MLAP层聚合函数.

    {\mathcal{G}}_{\mathrm{A}} 分支上的节点表示学习过程可以形式化为:

    \begin{array}{c}{{\boldsymbol E}_{\mathrm{U}}^{\mathit{A}}}^{\left(l\right)}=\displaystyle\sum _{{u}_{k}\in \mathcal{U}} \displaystyle\sum _{{A}_{i}\in {S}_{ k}^{A}} \dfrac{1}{\sqrt{\left|\mathcal{U}\right|}\sqrt{\left|{S}_{ k}^{A}\right|}}{{\boldsymbol e}}_{{A}_{i}\to {u}_{k}}^{(l-1)}\text{,} \end{array} (10)
    \begin{split} {{\boldsymbol E}_{\mathit{A}}^{\mathit{A}}}^{\left(l\right)}=&\displaystyle\sum _{{S}_{ k}^{A}}^{\left|{\mathcal{S}}_{A}\right|}\left(\displaystyle\sum _{{A}_{i}\in {S}_{ k}^{A}} \displaystyle\sum _{{u}_{k}\in \mathcal{U}} \dfrac{1}{\sqrt{\left|\mathcal{U}\right|}\sqrt{\left|{S}_{ k}^{A}\right|}}{{\boldsymbol e}}_{{u}_{k}\to {A}_{i}}^{(l-1)}+\right.\\ &\left.\displaystyle\sum _{{A}_{i}\in {S}_{ k}^{A}}{ \dfrac{1}{\left|{S}_{ k}^{A}\right|}}_{}{{\boldsymbol e}}_{{A}_{(i-1)}\to {A}_{i}}^{(l-1)}\right)\text{,} \end{split} (11)
    \begin{array}{c}{\boldsymbol E}_{\mathrm{U}}^{\mathit{A}}=\displaystyle\sum _{l=0}^{\eta } \dfrac{1}{1+\eta }{{\boldsymbol E}_{\mathrm{U}}^{\mathit{A}}}^{\left(l\right)};\;\;{\boldsymbol E}_{\mathit{A}}^{\mathit{A}}=\displaystyle\sum _{l=0}^{\eta } \dfrac{1}{1+\eta }{{\boldsymbol E}_{\mathit{A}}^{\mathit{A}}}^{\left(l\right)}\text{,} \end{array} (12)

    其中, {{\boldsymbol E}_{\mathit{A}}^{\mathit{A}}}^{\left(l\right)} {{\boldsymbol E}_{\mathrm{U}}^{\mathit{A}}}^{\left(l\right)}分别表示在 {\mathcal{G}}_{\mathit{A}} 分支上第l层的项目节点表示与用户节点表示; {{\boldsymbol e}}_{{A}_{i}\to {u}_{k}}^{(l-1)} {{\boldsymbol e}}_{{u}_{k}\to {A}_{i}}^{(l-1)} 代表第 (l-1) 层上用户-项目交互信息的传递与聚合; {{\boldsymbol e}}_{{A}_{(i-1)}\to {A}_{i}}^{(l-1)} 则代表 (l-1) 层上序列依赖关系的传递与聚合; {\boldsymbol E}_{\mathrm{U}}^{\mathit{A}} {\boldsymbol E}_{\mathit{A}}^{\mathit{A}} 则分别表示执行MLAP后最终该分支输出的用户节点表示与项目节点表示.

    采用相似的方式可以得到B域中的 {\boldsymbol E}_{\mathrm{U}}^{B} {\boldsymbol E}_{B}^{\mathit{B}} ,在此处不再赘述.

    随后,TEA-Net采用对比学习策略,将来自不同分支的节点表示进行对齐,以创造更多的自监督信号来辅助跨域节点表示学习. 对于用户节点表示 {\boldsymbol E}_{\mathrm{U}}^{\mathrm{M}} , {\boldsymbol E}_{\mathrm{U}}^{\mathit{A}}, {\boldsymbol E}_{\mathrm{U}}^{B} ,本文将其设置为2批成对的正样本项目表示集合,即( {\boldsymbol E}_{\mathrm{U}}^{\mathrm{M}} , {\boldsymbol E}_{\mathrm{U}}^{\mathit{A}} )与( {\boldsymbol E}_{\mathrm{U}}^{\mathrm{M}} , {\boldsymbol E}_{\mathrm{U}}^{B}) 来分别对齐A域和B域中的用户行为偏好. 以( {\boldsymbol E}_{\mathrm{U}}^{\mathrm{M}} , {\boldsymbol E}_{\mathrm{U}}^{\mathit{A}} )集合为例,定义( {\boldsymbol x}_{i}^{\mathrm{M}},{\boldsymbol y}_{i}^{\mathit{A}} )为其中的一对正例节点的表示,此时( {\boldsymbol E}_{\mathrm{U}}^{\mathrm{M}} , {\boldsymbol E}_{\mathrm{U}}^{\mathit{A}} )集合上的InfoNCE损失 {\mathcal{L}}_{{\mathrm{C}}}^{{\mathrm{U}}{A}} 计算为:

    \begin{array}{c}{\mathcal{L}}_{{\mathrm{C}}}^{{\mathrm{U}}A}=-\displaystyle\sum _{{\boldsymbol x}_{i}^{\mathrm{M}}\in {\boldsymbol E}_{\mathrm{U}}^{\mathrm{M}}}^{{\boldsymbol y}_{i}^{\mathit{A}}\in {\boldsymbol E}_{\mathrm{U}}^{\mathit{A}}}\mathrm{log}\left(\dfrac{\mathrm{exp}\left(\mathrm{s}\mathrm{i}\mathrm{m}\left({\boldsymbol x}_{i}^{\mathrm{M}},{\boldsymbol y}_{i}^{\mathit{A}}\right){\alpha }^{-1}\right)}{\displaystyle\sum _{j=1}^{\left|\mathcal{U}\right|} \mathrm{exp}\left(\mathrm{s}\mathrm{i}\mathrm{m}\left({\boldsymbol x}_{i}^{\mathrm{M}},{\boldsymbol y}_{j}^{\mathit{A}}\right){\alpha }^{-1}\right)}\right)\text{,}\\ \end{array} (13)

    其中, \mathrm{s}\mathrm{i}\mathrm{m}\left(\cdot \right) 表示相似性度量函数,这里采用内积来计算样本间相似度; \alpha 为温度超参数,它影响了对数相似性的软化程度. 在3.5节对 \alpha 的取值进行了探索.

    同理,可以采用相同的计算方式从( {\boldsymbol E}_{\mathrm{U}}^{\mathrm{M}} , {\boldsymbol E}_{\mathrm{U}}^{B}) 集合中获得 {\mathcal{L}}_{{\mathrm{C}}}^{{\mathrm{U}}B} . 最后,通过合并3个分支上的用户节点表示 {\boldsymbol E}_{\mathrm{U}}^{\mathrm{M}} , {\boldsymbol E}_{\mathrm{U}}^{\mathit{A}},{\boldsymbol E}_{\mathrm{U}}^{B} 得到最终的跨域用户表示 {\boldsymbol E}_{{\mathrm{U}}}

    \begin{array}{c}{\boldsymbol E}_{\mathrm{U}}={\boldsymbol E}_{\mathrm{U}}^{\mathrm{M}}+{\boldsymbol E}_{\mathrm{U}}^{\mathit{A}}+{\boldsymbol E}_{\mathrm{U}}^{B}\text{.} \end{array} (14)

    而对于项目节点表示,TEA-Net则首先在表示的基础上采用一种共享外部注意力组件进行了序列级表示学习. 随后,在加工后的项目表示上又采取了与式(13)相同的对比学习策略(具体细节于2.5节介绍).

    基于传统自注意力机制的序列编码器存在2个显著的缺陷:1)该机制采用自值(self-value)的组合来细化输入的序列表示,它只考虑序列中项目之间的关系,而忽略了不同序列中项目间的隐含关系[35]. 2)该机制具有高达 \mathit{O}({n}^{2}) 的计算复杂度,导致计算的时间成本较高.

    为了以较低的复杂度准确地测量不同项目对序列的贡献,本节引入了EA机制[10,36]. 在此之前,该机制已在图像分类、目标检测和语义分割方面取得了巨大成功[35]. 与采用EA的工作不同,如LEA-GCN[14],TEA-Net所提出的序列编码器结构只保留了EA最核心的外部记忆单元和多头机制,舍弃了计算复杂度较高的非线性通道设计. 此外,还根据三分支卷积输出的特点设计了一种共享外部记忆单元的结构,使得多个分支上的项目嵌入可以同步地使用外部记忆单元中维护的全局注意力权重.

    图2所示,该外部注意力组件被部署在 {\mathcal{G}}_{\mathit{A}} {\mathcal{G}}_{\mathrm{M}} 分支上来同步地捕捉 {\boldsymbol E}_{\mathit{A}}^{\mathit{A}} {\boldsymbol E}_{\mathit{A}}^{\mathrm{M}} 中的项目全局相关性. 与自注意力机制不同,EA通过2个低秩的外部记忆单元 {{\boldsymbol M}}_{\mathrm{K}}^{\mathit{A}}\in {\mathbb{R}}^{d\times d} {{\boldsymbol M}}_{\mathrm{V}}^{\mathit{A}}\in {\mathbb{R}}^{d\times d} 来计算A域中项目的全局共享权重,它们在计算过程中担任键矩阵和值矩阵的角色.

    为了更好地形式化注意力的计算过程,此处设 {\boldsymbol E}_{{\mathit{S}}_{k}}^{\mathit{A}}\in {\mathbb{R}}^{{t}_{ka}\times d} {\boldsymbol E}_{\mathit{A}}^{\mathit{A}} \mathrm{序}\mathrm{列}{S}_{ k}^{A} 的表示,而 {\mathit{P}}_{{\mathit{S}}_{k}}^{\mathit{A}}\in {\mathbb{R}}^{{t}_{ka}\times d} 则代表序列中每个项目在原始混合序列中的相对位置编码. 在计算过程中,该组件首先将 {(\mathit{E}}_{{\mathit{S}}_{k}}^{\mathit{A}}\oplus{\mathit{P}}_{{\mathit{S}}_{k}}^{\mathit{A}} )映射为多头查询向量 {\mathit{Q}}_{{\mathit{S}}_{k}}^{\mathit{A}}=\left({{\boldsymbol q}_{{\mathit{S}}_{k}}^{\mathit{A}}}^{\left(1\right)},{{\boldsymbol q}_{{\mathit{S}}_{k}}^{\mathit{A}}}^{\left(2\right)},… ,{{\boldsymbol q}_{{\mathit{S}}_{k}}^{\mathit{A}}}^{\left(t\right)},… ,{{\boldsymbol q}_{{\mathit{S}}_{k}}^{\mathit{A}}}^{\left(\beta \right)}\right) ,其中,\, \beta 为控制注意力头个数的超参数, {{\boldsymbol q}_{{\mathit{S}}_{k}}^{\mathit{A}}}^{\left(t\right)} 为第 t 个注意力头.

    随后,外部注意力运算过程可以形式化为:

    \begin{array}{c}{\boldsymbol A}^{\left(t\right)}={a}_{i,j}^{{S}_{ k}}={{Norm}}\left(\dfrac{{{\boldsymbol q}_{{\mathit{S}}_{k}}^{\mathit{A}}}^{\left(t\right)}{{{\boldsymbol M}}_{\mathrm{K}}^{\mathit{A}}}^{{\mathrm{T}}}}{\sqrt{d}}\right)\text{,}\end{array} (15)
    {{\hat{\boldsymbol{E}}}_{{S}_{k}}^{\mathit{A}{\left(t\right)}}}={\boldsymbol{A}}{\boldsymbol M}_{\mathrm{V}}^{\mathit{A}}\text{,} (16)

    其中, {\boldsymbol A}^{\left(t\right)}\in {\mathbb{R}}^{{t}_{ka}\times d} 为注意力矩阵; {a}_{i,j}^{{S}_{ k}} 代表着序列 {S}_{ k}^{A} 中第 i 个项目与 {{\boldsymbol M}}_{\mathrm{K}}^{\mathrm{A}} 中第 j 行之间的相关度; {\hat{\boldsymbol{E}}}_{{S}_{k}}^{{A}{\left(t\right)}}则表示加权后的序列表示.

    于是,最终输出的序列级表示 {\boldsymbol H}_{S} 可以表示为:

    \begin{array}{c}{\hat{{\boldsymbol E}}}_{A}^{A}=\displaystyle\sum _{{S}_{ k}^{\mathit{A}}}^{{t}_{ka}}{C}{o}{n}{c}{a}{t}\left({{\boldsymbol H}_{{S}_{ k}}^{A}}^{\left(1\right)},{{\boldsymbol H}_{{S}_{ k}}^{A}}^{\left(2\right)},… ,{{\boldsymbol H}_{{S}_{ k}}^{A}}^{\left(\beta \right)}\right){{\boldsymbol W}}_{1}\text{,} \end{array} (17)

    其中, {\hat{\boldsymbol{E}}}_{A}^{A} 表示加权后的 {\mathcal{G}}_{\mathit{A}} 分支上的项目表示.

    同理,在 {\mathcal{G}}_{{\mathrm{M}}} 分支上也可以根据相同的计算方式获得 {\hat{\boldsymbol{E}}}_{A}^{{\mathrm{M}}} .

    总体而言,TEA-Net所采用的共享外部注意力结构存在4点优势:1)外部注意力由于采用了2个低秩的外部存储单元来计算全局相关性,其计算复杂度O( {{t}_{ka}\times d}^{2} )相较于自注意力O( {t}_{ka}^{2}\times d )有着显著的降低;2)不同分支间共享同一对外部记忆单元有利于对齐来自不同分支上的项目表示;3)避免了为不同分支单独配置外部记忆单元,节约了内存开销;4)继续在不同分支的工作流上保持并行,有助于提升表示学习效率,节约时间成本.

    同理,通过在 {\mathcal{G}}_{\mathrm{M}} {\mathcal{G}}_{\mathit{B}} 之间应用共享外部注意力组件,可以得到另一组加权后的项目表示,即 {\hat{\boldsymbol{E}}}_{B}^{B} {\hat{\boldsymbol{E}}}_{B}^{{\mathrm{M}}} . 在此基础上,为了增强A域和B域上项目节点的一致性,TEA-Net采用了相同的对比学习策略. 在( {\hat{\boldsymbol{E}}}_{A}^{A},{\hat{\boldsymbol{E}}}_{A}^{{\mathrm{M}}} )与( {\hat{\boldsymbol{E}}}_{B}^{B} , {\hat{\boldsymbol{E}}}_{B}^{{\mathrm{M}}} )之间分别采用式(13)所介绍的InfoNCE损失,以获得 {\mathcal{L}}_{C}^{A} {\mathcal{L}}_{C}^{B} .

    最后,TEA-Net通过合并用户表示以及不同分支上的项目表示来得到最终的A域项目表示 {\boldsymbol H}_{\mathit{A}} B域项目表示 {\boldsymbol H}_{\mathit{B}}

    \begin{array}{c}{\boldsymbol H}_{\mathit{A}}={{Concat}}\left(\left({\boldsymbol E}_{\mathit{A}}^{\mathrm{M}}+{\boldsymbol E}_{\mathit{A}}^{\mathrm{A}}\right),{\boldsymbol E}_{\mathrm{U}}\right)\text{,} \end{array} (18)
    {\boldsymbol H}_{\mathit{B}}={{Concat}}\left(\left({\boldsymbol E}_{\mathit{B}}^{\mathrm{M}}+{\boldsymbol E}_{\mathit{B}}^{\mathrm{B}}\right),{\boldsymbol E}_{\mathrm{U}}\right)\text{.} (19)

    在上述表示学习过程结束之后,TEA-Net分别获得了2个域中带有用户信息的序列表示 {\boldsymbol H}_{\mathit{A}}\mathrm{和}{\boldsymbol H}_{\mathit{B}} . 为了充分利用跨域知识,本文在预测前对它们进行了特征拼接,并将拼接后的嵌入一起馈送给了预测层:

    P\left({A}_{i+1}|{S}_{\mathit{A}},{S}_{ \mathit{B}}\right)={{softmax}}\left( {{\boldsymbol W}}_{\mathit{A}}\cdot \left[{\boldsymbol H}_{\mathit{A}},{\boldsymbol H}_{\mathit{B}}\right]^{{\mathrm{T}}}+{{\boldsymbol b}}_{\mathit{A}}\right)\text{,} (20)
    P\left({B}_{j+1}|{S}_{\mathit{B}},{S}_{ \mathit{A}}\right)={{softmax}}\left( {{\boldsymbol W}}_{\mathit{B}}\cdot \left[{\boldsymbol H}_{\mathit{B}},{\boldsymbol H}_{\mathit{A}}\right]^{{\mathrm{T}}}+{{\boldsymbol b}}_{B}\right)\text{,} (21)

    其中, {S}_{ \mathit{A}} {S}_{ \mathit{B}} 分别表示A域和B域中所有的输入序列, {{\boldsymbol W}}_{A} {{\boldsymbol W}}_{B} 分别是A域和B域中所有项目的权重矩阵; {{\boldsymbol b}}_{A} {{\boldsymbol b}}_{B} 是2个域的偏置项. 在先前的CSR工作中,π-Net[5]和DA-GCN[9]均采用了联合损失函数来一起优化2个域中的参数,但是这样可能会导致2个域的损失发生此消彼长的跷跷板现象(see-saw phenomenon). 因此,TEA-Net选择分别在2个域上计算交叉熵损失,并独立地对它们进行优化:

    \begin{array}{c}{\mathcal{L}}_{{\mathrm{CE}}}^{A}=-\dfrac{1}{\left|\mathcal{S}\right|}\displaystyle\sum _{{S}_{ A},{S}_{ B}\in \mathcal{S}} \displaystyle\sum _{{A}_{i}\in {S}_{ A}} {\rm{log}}P\left({A}_{i+1}|{S}_{ \mathit{A}},{S}_{ \mathit{B}}\right)\text{,} \end{array} (22)
    \begin{array}{c}{\mathcal{L}}_{{\mathrm{CE}}}^{B}=-\dfrac{1}{\left|\mathcal{S}\right|}\displaystyle\sum _{{S}_{ B},{S}_{ A}\in \mathcal{S}} \displaystyle\sum _{{B}_{j}\in {S}_{ B}} {\rm{log}}P\left({B}_{j+1}\right|{S}_{ \mathit{B}},{S}_{ \mathit{A}})\text{,} \end{array} (23)

    其中, \mathcal{S} 表示2个域全部的训练序列.

    因此,2个域的完整损失可以表示为交叉熵损失与对比损失的加和:

    \begin{array}{c}{{\mathcal{L}}_{A}^{}=\mathcal{L}}_{{\mathrm{CE}}}^{A}+{\mathcal{L}}_{{\mathrm{C}}}^{A}+{\mathcal{L}}_{{\mathrm{C}}}^{{\mathrm{U}}A}\text{,} \end{array} (24)
    \begin{array}{c}\mathcal{L}_B^{ }=\mathcal{L}_{\mathrm{CE}}^B+\mathcal{L}_{\mathrm{C}}^B+\mathcal{L}_{\mathrm{C}}^{\mathrm{U}B}\text{.}\end{array} (25)

    与通过有损的扰动或其他破坏图结构的方法所产生自监督信号不同,TEA-Net通过对齐不同的分支上的嵌入(即强调域间序列图和域内序列图上节点的结构一致性)来进行对比学习. 由于不包含额外的数据增广噪声,这里并未设置其他超参数来测试对比损失的影响,而是采用直接相加的策略让其尽可能地辅助原始的跨域监督学习任务.

    本文在2个来自真实世界的数据集上进行实验以验证TEA-Net的有效性,重点回答4个研究问题:

    1)作为一种轻量化CSR模型,TEA-Net的轻量化性能表现如何?各组件对轻量化效果的贡献如何?

    2)与其他先进的基线方法相比,TEA-Net的预测性能表现如何?其轻量化策略是否导致了推荐性能的下降?

    3)采用三分支图卷积结构是否有助于节点表示学习?共享外部注意力组件的表现如何?对比学习的效果如何?

    4)对比学习损失中的温度系数 \alpha 对TEA-Net的影响如何?共享外部注意力组件中的多头数目\, \beta 对性能有多少影响?

    1)数据集. 本文在2个真实世界的数据集豆瓣(DOUBAN)[37]和亚马逊(AMAZON)[38]上进行实验,数据集的统计信息如表1所示.

    表  1  数据集的统计信息
    Table  1.  Statistics of the Datasets
    统计项目 DOUBAN AMAZON
    A B A B
    项目种类 14 636 2 940 126 526 61 362
    交互个数 607 523 360 798 1 678 006 978 226
    用户个数 6 582 9 204
    训练序列个数 42 062 90 574
    测试序列个数 10 431 14 463
    下载: 导出CSV 
    | 显示表格

    ①DOUBAN. 该数据集收集自中国知名社交媒体平台豆瓣网[37],其包含了用户在2个域上的历史交互记录,如A域(豆瓣电影)和B域(豆瓣图书),这些交互被按照发生的时间顺序以混合序列的形式记录了下来.

    ②AMAZON.该数据集则是一个经典的产品评论数据集[38],其包含了亚马逊网站上2个不同平台中用户的评论行为,即亚马逊图书(A域)和亚马逊电影(B域).

    2个数据集中数据的分类和交互个数等统计信息均在表2中给出. 此外,对于2个数据集中所有的混合序列,随机选择了其中80%作为训练序列,其余20%作为测试序列. 并且,本文遵循大多数CSR模型的实验设置[5,9,14],过滤掉了2个数据集中历史交互次数少于10次的用户以及只被交互了不超过5次的项目.

    表  2  对比方法在数据集DOUBAN和AMAZON上的实验结果
    Table  2.  Experiment Results of Comparative Methods on DOUBAN and AMAZON Datasets %
    方法DOUBAN数据集AMAZON数据集
    ABAB
    RCMRRNDCGRCMRRNDCGRCMRRNDCGRCMRRNDCG
    NCF69.7558.0540.2635.2423.2918.2815.5911.306.1217.3813.205.29
    NGCF79.2177.8249.1267.3754.4137.2621.5218.7412.0826.5525.3717.45
    LightGCN78.5275.3548.9368.3252.1137.7921.6717.4110.1326.4924.2315.09
    GRU4REC80.1375.4147.8166.6654.1038.0321.5117.119.6624.5122.1312.94
    SASRec80.5677.4546.2365.7754.2538.2222.7518.0311.2525.4624.0816.03
    HRNN81.2577.9048.8868.3254.9938.9321.9217.309.8725.1022.4813.44
    SCRM83.5581.0751.8371.4459.3141.3024.0318.4412.5629.6527.4317.96
    PSJNet83.5480.9651.7271.5958.3640.7125.0321.0913.5431.2428.3518.93
    TiDA-GCN83.6881.2752.0272.5660.2741.3825.0521.2314.6832.8429.6519.12
    LEA-GCN83.8381.2252.0676.1466.1545.0125.4721.5714.9333.9730.6520.46
    TEA-Net83.9181.3552.2476.3867.5845.5525.8722.2715.3134.2931.1820.96
    注:粗体值表示最优结果;“†”标记了与次优结果相比时具有显著提升的结果(经过配对样本t检验,p<0.05).
    下载: 导出CSV 
    | 显示表格

    2)评价指标. 本文采用3个常用的评价指标RC@10, MRR@10和NDCG@10) [9,39]. 其定义为:

    1)RC(recall). RC是一个衡量系统检索性能的指标,通常用于衡量推荐系统能够召回到的相关项目的比例. 它的计算方式是相关项目的数量除以所有项目的总数. RC关注的是遗漏召回相关项目的风险,希望尽可能多地找到所有相关的项目.

    2)MRR(mean reciprocal rank). MRR是衡量推荐系统或检索系统性能的一种常用评价指标,它关注的是排在检索结果列表中第1个相关项目的排名(即平均倒数排名). 如果一个用户查询的第1个相关文档排在较高的位置,那么MRR值就会较高. MRR@N的计算公式为:

    \begin{array}{c}{{MRR@N}}=\dfrac{1}{\left|Q\right|}\displaystyle\sum _{q\in Q} \dfrac{1}{\displaystyle\sum _{k\in \left[1,N\right]}{R}_{q}\left(k\right)}\end{array} ,

    其中, Q 表示查询数量, q\in Q 则表示一个具体的查询, {R}_{q}\left(k\right) 表示应用查询 q 时在召回结果集合中的第k个项目的排名.

    3)NDCG(normalized discounted cumulative gain). NDCG是另一种常见的推荐系统评价指标,它同时考虑了项目在召回序列中的排名和项目本身的相关性. 具体而言,它对召回的项目按其排名来计算DCG(discounted cumulative gain)值,然后除以理想情况下(即完美排序的情况下)的DCG值,以达到归一化效果. NDCG倾向于为排名靠前的相关项目赋予更高的权重. 公式为:

    {{NDCG@N}}=\dfrac{{D}{C}{G}@{N}}{{I}{D}{C}{G}@{N}} ,

    其中,DCG是折现累积获得值,IDCG是理想的折现累积获得值. DCG的计算考虑了排名的折现因子,通常是对召回结果的排名进行指数折现.

    3)基线方法. 为了验证TEA-Net的预测性能,本文将其与3类共10种基线方法进行了对比实验:

    ①传统推荐方法. 此处采用了2017年的NCF[1]、2019年的NGCF[40]和2020年的LightGCN[34]三个里程碑式的传统推荐方法作为参考基线方法.

    ②序列推荐方法. 此处采用了具有代表性的2016年的GRU4REC[2]、2017年的HRNN[22]和2018年的SASRec[41]三种序列推荐方法作为参考基线方法.

    ③跨域序列推荐方法. 此处采用了近年来有竞争力的4种CSR方法作为对比方法,包括2021年的SCRM[31]、2023年的PSJNet[6]、2024年的TiDA-GCN[10]和2023年的LEA-GCN[14].

    4)实验设置. TEA-Net通过TensorFlow实现,并通过NVIDIA RTX 3090 GPU加速模型的训练过程. 对于实验参数,采用了Xavier[42]和Adam[43]来分别进行初始化和参数优化. 给定数据集的混合输入序列,TEA-Net将A域和B域最后被观测到的2个项目分别视作2个域的预测目标(即预测真值). 对于模型训练,TEA-Net的输入批次大小设置为256,将丢弃率设置为0.1,将A域的学习率设置为0.005,将B域的学习率分别设置为0.004. 对于TEA-Net的具体参数,嵌入大小维度被设置为16,正则化比率被设置为1E−7. 此外,TEA-Net在[0.1, 1]范围中以0.1为步长探索超参数 \alpha 的影响,以了解温度参数对对比学习性能的影响. 同时,也在\beta\in {1, 2, 4, 8, 16}范围中探索了对外部注意力组件的影响. 本文在3.4节中详细介绍了超参数 \alpha \, \beta 对试验结果的影响与分析. 此外,为了保证对比结果的公平性,所有基线方法的嵌入大小被统一设置为16. 值得说明的是,为了使传统推荐基线方法具备可比性,本文在实验过程中将它们的输入统一改为了序列化输入,并分别报告了它们在各个数据集中每个域的实验结果. 而对于序列推荐基线方法,本文则在实验结果中分别报告了它们在每个域中的性能表现. 对于基线方法的其他超参数,统一采用了相应论文中的最佳设置. 为了促进轻量化跨域序列推荐的研究与发展,本文已将TEA-Net的相关代码及数据集提交到GitHub以实现开源 1.

    为了测量模型训练的时间开销,本文分别在数据集DOUBAN和AMAZON上对TEA-Net以及3个有代表性的CSR基线方法开展了一系列实验. 具体而言,此处按照0.2, 0.4, 0.6, 0.8, 1.0的不同训练集比例,通过多次改变输入数据的规模来观察模型所需的训练时间,这有助于测试模型在适应不同规模的训练数据时的表现. 同时,还额外将TEA-net的训练时间成本与理想的线性训练时间成本进行了比较,以观察TEA-Net的轻量化表现.

    其次,本文通过比较TEA-Net与其他3个具有竞争力的CSR基线方法的模型体积(参数规模)来进一步考察了它们的轻量化性能. 最后,还对TEA-Net中包含的各组件的模型体积进行了探索,这是为了展示各组件对模型轻量化性能的贡献. 上述实验结果被汇总在图3中,对于图3中的观测结果存在5点分析:1)从图3(a)(b)中可以发现,TEA-Net的训练时间开销远远低于TiDA-GCN和PSJNet,这表明TEA-Net相比于其他常规CSR模型具有更好的训练效率,并且具备扩展到大规模数据集的潜力. 2)TEA-Net与轻量化跨域序列推荐模型LEA-GCN有着较为接近的训练时间开销. 这证明TEA-Net能够在保持相似的轻量化性能的同时实现更高的预测精度. 3)从图3(c)中可以观察到TEA-Net的表现非常接近线性增长,这体现了TEA-Net在面对大规模数据时的稳定性. 4)通过观察图3(d)(e)可以发现,TEA-Net与3种基线方法相比拥有最小的模型体积. 其中,TEA-Net的模型体积小于LEA-GCN,这进一步显示了TEA-Net在轻量化目标上的优越性. 5)与TEA-Net相比,移除了对比学习组件的变体模型TEA-noC、改用单分支图卷积模块的变体模型TEA-noT以及移除了共享外部注意力模块的变体模型TEA-noE在模型体积方面并没有显著的差异,这恰恰说明每个模块所需的模型体积均相对较小,体现了各组件的轻量化优势.

    图  3  TEA-Net与LEA-GCN,TiDA-GCN和PSJNet相比的时间消耗和模型体积
    Figure  3.  Time consumption and the model volume of TEA-Net compared with LEA-GCN, TiDA-GCN and PSJNet

    为了验证TEA-Net的预测性能,本文将其与3种类别标签下的10个基线方法进行了综合比较. 表2显示了TEA-Net以及其他3类基线方法在2个数据集上的预测性能表现. 对实验结果的观察与分析得出:1)TEA-Net在2个数据集上的全部评价指标上均取得了最优的性能表现,并且与次优结果相比在大多数评估指标上都具有显著的提升. 这表明TEA-Net中采用的轻量级策略没有对预测性能产生消极影响,甚至一定程度上提高了CSR模型的预测性能. 2)跨域序列推荐方法普遍优于其他类别中的基线方法(即传统推荐方法和序列推荐方法),这证明了同时建模用户的序列偏好和考虑跨领域特征的重要性. 3)TEA-Net优于所有的CSR基线方法,表明所提出的三分支图外部注意力网络在建模用户混合序列的问题上具有更好的预测性能. 4)TEA-Net的性能更优于LEA-GCN,这证明了针对节点表示学习方法以及序列表示学习方法的改进不仅在轻量化性能上表现更好,并且在预测性能上也要更优于现有的轻量化跨域序列推荐方法.

    本节以DOUBAN数据集为例开展了消融实验,以探索TEA-Net中不同组件的贡献. 由于TEA-Net的组件间耦合度较高,因此需要通过与6组模型变体对比来验证各组件的有效性. 变体模型的定义为:1)TEA-SLAP表示在其他组件不变的情况下,对三分支图卷积统一采用SLAP的变体;2)TEA-noC移除了TEA-Net中的对比学习组件(包括项目对比学习和用户对比学习);3)TEA-noT表示采用单分支图卷积的变体模型,请注意,由于TEA-Net的对比学习策略是在不同分支的节点嵌入间展开的,因此,在该变体中对比学习的作用也被移除了;4)在TEA-noS变体中,共享外部注意力组件中的共享机制被取消,即分别给每个分支单独设置一组外部记忆单元来计算注意力得分;5)TEA-noE则表示彻底移除共享外部注意力组件的变体;6)TEA-noA表示移除了所有组件的TEA-Net变体,此时模型退化为采用跨域序列图作为输入的LightGCN网络.值得说明的是,相较于仅使用单个域信息的传统LightGCN,该变体因保留了跨域嵌入拼接的设计而具备更好的性能.

    本文基于对表3的观察结果进行了6点分析:1)TEA-Net的性能表现优于TEA-SLAP,这表明在三分支结构下采取不同的层聚合策略的必要性. 同时,也证明了挖掘域内高阶序列依赖关系与高阶协同过滤关系的重要性. 2)TEA-Net的性能优于TEA-noC,这表明在不同的分支间应用对比学习策略的确有助于对齐跨域节点表示. 3)TEA-Net与TEA-SLAP的表现优于TEA-noT,进一步证明了采用三分支图卷积网络结构有助于提高模型在CSR任务上的表现. 4)TEA-Net的表现优于TEA-noS,这证明了外部记忆单元在共享外部注意力组件中的重要性,体现了该设计在辅助对齐不同分支之间项目嵌入的作用. 5)TEA-Net以及其他全部变体(除TEA-noA之外)的表现均显著优于TEA-noE,这证明了共享外部注意力组件对节点序列级表示学习过程的贡献,同时也证明了该组件在建模用户序列行为模式过程中的贡献. 6)TEA-Net以及其他5个变体的性能均显著优于TEA-noA,这证明TEA-Net的所有组件均是有效的.

    表  3  TEA-Net在DOUBAN数据集上的消融实验结果
    Table  3.  Results of Ablation Studies of TEA-Net on DOUBAN Dataset %
    本文方法
    及其变体
    A B
    RC MRR NDCG RC MRR NDCG
    TEA-SLAP 83.41 81.19 52.08 76.14 66.28 45.12
    TEA-noC 83.26 80.17 51.58 75.44 65.82 44.03
    TEA-noT 83.12 80.03 51.16 74.86 64.17 43.58
    TEA-noS 83.16 80.24 51.21 75.05 64.60 43.74
    TEA-noE 82.66 79.43 50.25 73.48 63.09 41.95
    TEA-noA 82.12 78.10 49.64 71.28 59.43 41.28
    TEA-Net 83.91 81.35 52.24 76.38 67.58 45.55
    注:粗体值表示最优结果.
    下载: 导出CSV 
    | 显示表格

    本节介绍了TEA-Net中的2个关键超参数 \alpha \, \beta . \alpha 为对比损失计算过程中使用的温度系数,该系数控制着负样本对正样本的相对影响力,决定了在计算对比损失时样本间相似度所赋的权重. 而\, \beta 则控制了共享外部注意力组件中多头机制所使用的注意力头个数. 为了探究上述超参数对TEA-Net性能的影响,本文以DOUBAN数据集为例,在[0.1,1]的区间内以0.1为步长进行了10组超参数实验来验证 \alpha 对模型性能的影响;同样地,在\beta\in{1, 2, 4, 8, 16}的参数设置下也探索了\, \beta 对模型性能的影响. 图4显示这2种超参数在不同的设置下TEA-Net的性能表现. 基于观察结果的分析有:

    图  4  超参数 \alpha \, \beta 在DOUBAN数据集上的影响
    Figure  4.  Impact of hyper-parameters \alpha and \, \beta on DOUBAN dataset

    1)当 \alpha =0.4时,TEA-Net的性能达到最优,而当\alpha 趋向0.1或1时,模型的性能均处于波动下降的状态. 当\alpha 趋向于0.1时模型会更加强调细粒度信息的捕捉,但同时也可能使得模型对于噪声或者干扰更加敏感. 而当\alpha 趋于1时,会降低模型对样本间相似度差异的感知,同样影响了模型的性能. 因此,只有采用适中的\alpha ,才能最大限度的发挥TEA-Net中对比学习策略的优势.

    2)当注意力头个数\beta =4时,TEA-Net达到了最优性能. 当继续增加\beta 时,性能反而出现了下降. 这一结果说明,较少的\beta 可能更有利于模型在CSR场景中的表达,由于一段时间内用户的兴趣通常不会存在太大差异,因此,仅需要少量的\beta 即可模拟用户有限的兴趣个数. 这一结果符合现实世界的客观规律.

    本文提出了一种轻量级的基于GCN的CSR方法TEA-Net. 该方法首先针对跨域序列推荐场景的特点,设计了一种并行的三分支图卷积结构. 该结构优化了过去基于单分支的多层图卷积网络,并通过应用不同的层聚合方法以及并行策略来降低内存开销. 其次,TEA-Net在三分支网络基础上提出了一种改良的共享外部注意力组件. 该组件能够以更低的时间复杂度来进一步挖掘项目节点表示中的序列依赖关系. 此外,在未引入额外输入和扰动的情况下,采用了对比学习策略来增强不同分支间的节点表示学习能力. 本文在2个真实世界数据集上进行实验,分别对模型的轻量化性能、预测性能、各组件贡献以及超参数进行了评估,实验结果证实了所提出的轻量化CSR方法的优越性.

    作者贡献声明:张劲羽负责模型总体设计和论文撰写;马晨曦负责算法实现与论文修改;李超指导论文的修改;赵中英指导模型设计、论文的撰写和修改.

    https://github.com/ZZY-GraphMiningLab/TEA-Net
  • 图  1   TEA-Net的架构图

    注: {\mathit{u}}_{1} {\mathit{u}}_{2} 分别表示2个不同重叠用户,而S1S2则分别表示他们的混合交互序列.

    Figure  1.   The architecture diagram of TEA-Net

    图  2   A域中共享外部注意力组件

    注: {{\boldsymbol M}}_{\mathrm{K}}^{\mathit{A}} {{\boldsymbol M}}_{\mathrm{V}}^{\mathit{A}} 是2个不同的外部记忆单元.

    Figure  2.   The sharing external attention components in domain A

    图  3   TEA-Net与LEA-GCN,TiDA-GCN和PSJNet相比的时间消耗和模型体积

    Figure  3.   Time consumption and the model volume of TEA-Net compared with LEA-GCN, TiDA-GCN and PSJNet

    图  4   超参数 \alpha \, \beta 在DOUBAN数据集上的影响

    Figure  4.   Impact of hyper-parameters \alpha and \, \beta on DOUBAN dataset

    表  1   数据集的统计信息

    Table  1   Statistics of the Datasets

    统计项目 DOUBAN AMAZON
    A B A B
    项目种类 14 636 2 940 126 526 61 362
    交互个数 607 523 360 798 1 678 006 978 226
    用户个数 6 582 9 204
    训练序列个数 42 062 90 574
    测试序列个数 10 431 14 463
    下载: 导出CSV

    表  2   对比方法在数据集DOUBAN和AMAZON上的实验结果

    Table  2   Experiment Results of Comparative Methods on DOUBAN and AMAZON Datasets %

    方法DOUBAN数据集AMAZON数据集
    ABAB
    RCMRRNDCGRCMRRNDCGRCMRRNDCGRCMRRNDCG
    NCF69.7558.0540.2635.2423.2918.2815.5911.306.1217.3813.205.29
    NGCF79.2177.8249.1267.3754.4137.2621.5218.7412.0826.5525.3717.45
    LightGCN78.5275.3548.9368.3252.1137.7921.6717.4110.1326.4924.2315.09
    GRU4REC80.1375.4147.8166.6654.1038.0321.5117.119.6624.5122.1312.94
    SASRec80.5677.4546.2365.7754.2538.2222.7518.0311.2525.4624.0816.03
    HRNN81.2577.9048.8868.3254.9938.9321.9217.309.8725.1022.4813.44
    SCRM83.5581.0751.8371.4459.3141.3024.0318.4412.5629.6527.4317.96
    PSJNet83.5480.9651.7271.5958.3640.7125.0321.0913.5431.2428.3518.93
    TiDA-GCN83.6881.2752.0272.5660.2741.3825.0521.2314.6832.8429.6519.12
    LEA-GCN83.8381.2252.0676.1466.1545.0125.4721.5714.9333.9730.6520.46
    TEA-Net83.9181.3552.2476.3867.5845.5525.8722.2715.3134.2931.1820.96
    注:粗体值表示最优结果;“†”标记了与次优结果相比时具有显著提升的结果(经过配对样本t检验,p<0.05).
    下载: 导出CSV

    表  3   TEA-Net在DOUBAN数据集上的消融实验结果

    Table  3   Results of Ablation Studies of TEA-Net on DOUBAN Dataset %

    本文方法
    及其变体
    A B
    RC MRR NDCG RC MRR NDCG
    TEA-SLAP 83.41 81.19 52.08 76.14 66.28 45.12
    TEA-noC 83.26 80.17 51.58 75.44 65.82 44.03
    TEA-noT 83.12 80.03 51.16 74.86 64.17 43.58
    TEA-noS 83.16 80.24 51.21 75.05 64.60 43.74
    TEA-noE 82.66 79.43 50.25 73.48 63.09 41.95
    TEA-noA 82.12 78.10 49.64 71.28 59.43 41.28
    TEA-Net 83.91 81.35 52.24 76.38 67.58 45.55
    注:粗体值表示最优结果.
    下载: 导出CSV
  • [1]

    He Xiangnan, Liao Lizi, Zhang Hanwang, et al. Neural collaborative filtering[C]//Proc of the 26th Int Conf on World Wide Web. New York: ACM, 2017: 173−182

    [2]

    Hidasi B, Karatzoglou A, Baltrunas L, et al. Session-based recommendations with recurrent neural networks[C]//Proc of the 4th Int Conf on Learning Representations, New York: penReview. net, 2016: 1−10

    [3]

    Li Yang, Chen Tong, Zhang Pengfei, et al. Lightweight self-attentive sequential recommendation[C]//Proc of the 30th ACM Int Conf on Information and Knowledge Management. New York: ACM, 2021: 967−977

    [4]

    Zheng Xiaolin, Su Jiajie, Liu Weiming, et al. DDGHM: Dual dynamic graph with hybrid metric training for cross-domain sequential recommendation[C]//Proc of the 30th ACM Int Conf on Multimedia. New York: ACM, 2022: 471−481

    [5]

    Ma Muyang, Ren Pengjie, Lin Yujie, et al. π-Net: A parallel information-sharing network for shared-account cross-domain sequential recommendations[C]//Proc of the 42nd Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2019: 685−694

    [6]

    Sun Wenchao, Ma Muyang, Ren Pengjie, et al. Parallel split-join networks for shared account cross-domain sequential recommendations[J]. IEEE Transactions on Knowledge and Data Engineering, 2023, 35(4): 4106−4123 doi: 10.1109/TKDE.2021.3130927

    [7]

    Chen Chen, Guo Jie, Song Bin. Dual attention transfer in session-based recommendation with multi-dimensional integration[C]//Proc of the 44th Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2021: 869−878

    [8]

    Li Pan, Jiang Zhichao, Que Maofei, et al. Dual attentive sequential learning for cross-domain click-through rate prediction[C]//Proc of the 27th ACM SIGKDD Conf on Knowledge Discovery and Data Mining. New York: ACM, 2021: 3172−3180

    [9]

    Guo Lei, Tang Li, Chen Tong, et al. DA-GCN: A domain-aware attentive graph convolution network for shared-account cross-domain sequential recommendation[C]//Proc of the 30th Int Joint Conf on Artificial Intelligence. Amsterdam: Elsevier, 2021: 2483−2489

    [10]

    Guo Lei, Zhang Jinyu, Tang Li, et al. Time interval-enhanced graph neural network for shared-account cross-domain sequential recommendation[J]. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35(3): 4002−4016 doi: 10.1109/TNNLS.2022.3201533

    [11]

    Chen Tong, Yin Hongzhi, Zheng Yujia, et al. Learning elastic embeddings for customizing on-device recommenders[C]//Proc of the 27th ACM SIGKDD Conf on Knowledge Discovery and Data Mining. New York: ACM, 2021: 138−147

    [12]

    Miao Hang, Li Anchen, Yang Bo. Meta-path enhanced lightweight graph neural network for social recommendation[C]//Proc of the 27th Int Conf on Database Systems for Advanced Applications. Berlin: Springer, 2022: 134−149

    [13]

    Wang Ruiqin, Lou Jungang, Jiang Yunliang. LightGCAN: A lightweight graph convolutional attention network for user preference modeling and personalized recommendation[J]. Expert Systems with Applications, 2023, 232: 120741 doi: 10.1016/j.eswa.2023.120741

    [14]

    Zhang Jinyu, Duan Huichuan, Guo Lei, et al. Towards lightweight cross-domain sequential recommendation via external attention-enhanced graph convolution network[C]//Proc of the 28th Int Conf on Database Systems for Advanced Applications. Berlin: Springer, 2023: 205−220

    [15]

    Cheng Chen, Yang Haiqin, Michael R T L, et al. Where you like to go next: Successive point-of-interest recommendation[C]//Proc of the 23rd Int Joint Conf on Artificial Intelligence. Amsterdam: Elsevier, 2013: 2605–2611

    [16]

    He Ruining, Kang Wangcheng, McAuley J. Translation-based recommendation[C]//Proc of the 11th ACM Conf on Recommender Systems. New York: ACM, 2017: 161−169

    [17] 宋威,乔阳阳. 基于加权序列模式的推荐算法研究[J]. 计算机工程与科学,2015,37(7):1399−1404 doi: 10.3969/j.issn.1007-130X.2015.07.028

    Song Wei, Qiao Yangyang. Research on the recommender algorithm based on weighted sequential patterns[J]. Journal of Computer Engineering and Science, 2015, 37(7): 1399−1404 (in Chinese) doi: 10.3969/j.issn.1007-130X.2015.07.028

    [18] 邢春晓,高凤荣,战思南,等. 适应用户兴趣变化的协同过滤推荐算法[J]. 计算机研究与发展,2007,44(2):296−301

    Xing Chunxiao, Gao Fengrong, Zhan Sinan, et al. A collaborative filtering recommendation algorithm incorporated with user interest change[J]. Journal of Computer Research and Development, 2007, 44(2): 296−301 (in Chinese)

    [19]

    Zheng Yujia, Liu Siyi, Li Zekun, et al. DGTN: dual-channel graph transition network for session-based recommendation[C]//Proc of the 2020 Int Conf on Data Mining Workshops. Piscataway, NJ: IEEE, 2020: 236−242

    [20]

    Qiu Ruihong, Huang Zi, Yin Hongzhi, et al. Contrastive learning for representation degeneration problem in sequential recommendation[C]//Proc of the 15th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2022: 813−823

    [21] 赵容梅,孙思雨,鄢凡力,等. 基于对比学习的多兴趣感知序列推荐系统[J/OL]. 计算机研究与发展,[2024−03−12]. http://kns.cnki.net/kcms/ detail/11.1777.TP.20240105.1351.010.html

    Zhao Rongmei, Sun Siyu, Yan Fanli, et al. Multi-interest aware sequential recommender system based on contrastive learning[J]. Journal of Computer Research and Development, [2024−03−12]. http://kns.cnki.net/kcms/ detail/11.1777.TP.20240105.1351.010.html (in Chinese)

    [22]

    Quadrana M, Karatzoglou A, Hidasi B, et al. Personalizing session-based recommendations with hierarchical recurrent neural networks[C]//Proc of the 11th ACM Conf on Recommender Systems. New York: ACM, 2017: 130−137

    [23]

    Wu Chaoyuan, Ahmed A, Beutel A, et al. Recurrent recommender networks[C]//Proc of the 10th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2017: 495−503

    [24]

    Zhang Mengqi, Wu Shu, Yu Xueli, et al. Dynamic graph neural networks for sequential recommendation[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 35(5): 4741−4753

    [25]

    Zhu Tianyu, Sun Leilei, Chen Guoqing. Graph-based embedding smoothing for sequential recommendation[J]. IEEE Transactions on Knowledge and Data Engineering, 2021, 35(1): 496−508

    [26]

    Chen Huiyuan, Lin Yusan, Pan Menghai, et al. Denoising self-attentive sequential recommendation[C]//Proc of the 16th ACM Conf on Recommender Systems. New York: ACM, 2022: 92−101

    [27]

    Xie Jiayi, Chen Zhenzhong. Hierarchical transformer with spatio-temporal context aggregation for next point-of-interest recommendation[J]. ACM Transactions on Information Systems, 2023, 42(2): 1−30

    [28]

    Lin Zhuoyi, Zang Sheng, Wang Rundong, et al. Attention over self-attention: Intention-aware re-ranking with dynamic transformer encoders for recommendation[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 35(8): 7782−7795

    [29]

    Xie Xu, Sun Fei, Liu Zhaoyang, et al. Contrastive learning for sequential recommendation[C]//Proc of the 38th Int Conf on Data Engineering. Piscataway, NJ: IEEE, 2022: 1259−1273

    [30]

    Ma Muyang, Ren Pengjie, Chen Zhumin, et al. Mixed information flow for cross-domain sequential recommendations[J]. ACM Transactions on Knowledge Discovery from Data, 2022, 16(4): 1−32

    [31] 郭磊,李秋菊,刘方爱,等. 基于自注意力网络的共享账户跨域序列推荐[J]. 计算机研究与发展,2021,58(11):2524−2537 doi: 10.7544/issn1000-1239.2021.20200564

    Guo Lei, Li Qiuju, Liu Fang’ai, et al. Shared-account cross-domain sequential recommendation with self-attention network[J]. Journal of Computer Research and Development, 2021, 58((11): ): 2524−2537 (in Chinese) doi: 10.7544/issn1000-1239.2021.20200564

    [32] 任豪,刘柏嵩,孙金杨,等. 基于时间和关系感知的图协同过滤跨域序列推荐[J]. 计算机研究与发展,2023,60(1):112−124 doi: 10.7544/issn1000-1239.202110545

    Ren Hao, Liu Baisong, Sun Jinyang, et al. A time and relation-aware graph collaborative filtering for cross-domain sequential recommendation[J]. Journal of Computer Research and Development, 2023, 60(1): 112−124 (in Chinese) doi: 10.7544/issn1000-1239.202110545

    [33]

    Liu Siyi, Gao Chen, Chen Yihong, et al. Learnable embedding sizes for recommender systems[C]//Proc of the 9th Int Conf on Learning Representations, Virtual: OpenReview. net, 2021: 1−17

    [34]

    He Xiangnan, Deng Kuan, Wang Xiang, et al. LightGCN: Simplifying and powering graph convolution network for recommendation[C]//Proc of the 43rd Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2020: 639−648

    [35]

    Guo Menghao, Liu Zhengning, Mu Taijiang, et al. Beyond self-attention: external attention using two linear layers for visual tasks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(5): 5436−5447

    [36]

    Mei M J, Zuber C, Khazaeni Y. A lightweight transformer for next-item product recommendation[C]//Proc of the 16th ACM Conf on Recommender Systems. New York: ACM, 2022: 546−549

    [37]

    Zhuang Fuzhen, Zhou Yingmin, Ying Haochao, et al. Sequential recommendation via cross-domain novelty seeking trait mining[J]. Journal of Computer Science and Technology, 2020, 35: 305−319 doi: 10.1007/s11390-020-9945-z

    [38]

    Fu Wenjing, Peng Zhaohui, Wang Senzhang, et al. Deeply fusing reviews and contents for cold start users in cross-domain recommendation systems[C]//Proc of the AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2019: 94−101

    [39]

    Guo Lei, Zhang Jinyu, Chen Tong, et al. Reinforcement learning-enhanced shared-account cross-domain sequential recommendation[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 35(7): 7397−7411

    [40]

    Li Xunkai, Guo Ronghui, Chen Jianwen, et al. Neural graph collaborative filtering[C]//Proc of the 42nd Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2019: 165−174

    [41]

    Kang Wangcheng, McAuley J. Self-attentive sequential recommendation[C]//Proc of the Int Conf on Data Mining. Piscataway, NJ: IEEE, 2018: 197−206

    [42]

    Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//Proc of the 30th Int Conf on Artificial Intelligence and Statistics. Palermo, Sicily, Italy: JMLR, 2010: 249−256

    [43]

    Kingma D P, Ba J. Adam: A method for stochastic optimization[J]. arXiv preprint, arXiv: 1412.6980, 2014

图(4)  /  表(3)
计量
  • 文章访问数:  258
  • HTML全文浏览量:  41
  • PDF下载量:  66
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-03-15
  • 修回日期:  2024-04-28
  • 网络出版日期:  2024-05-16
  • 刊出日期:  2024-07-31

目录

/

返回文章
返回