-
摘要:
对中国计算机大会(CNCC 2024)论坛《“人工智能+”赋能新质生产力:新、质与力的道与术》中专家发言观点进行思考,分析了新质生产力中“新” “质”和“力”的内涵,讨论了人工智能这一通用目的技术正成为新质生产力的重要引擎,重塑社会经济发展和科学研究范式变革,推动人类社会迈向“人工智能+”时代. 最后,结合中国“2030教育强国、科技强国、人才强国”的战略目标,对人工智能与新质发展力的融合发展提出若干未来展望.
-
随着信息时代的发展,人们被越来越多的信息数据包围. 企业为了从海量的信息数据中提取出有用信息并为企业带来效益,推荐算法被广泛应用于各大企业的在线服务中[1-7]. 推荐系统旨在通过历史交互数据对用户和项的表征进行建模,发现隐藏在数据背后的模式和规律,进而为决策提供支持和指导[8-18]. 然而,传统的推荐系统只关注用户与项在单一域的交互,这相对于用户-项交互关系的总数量来说是相当小的,意味着数据稀疏性仍然是一个需要克服的问题[19-23]. 同时,对于进入系统的新用户和新项来说,缺乏历史交互数据造成的数据稀疏也是一个严重问题,也就是所谓的冷启动问题[24-32].
为解决数据稀疏问题并提高推荐准确性,跨域推荐(cross-domain recommendation,CDR)方法被提出[33-34]. CDR利用其他域的相关信息来协助目标域的预测任务. 例如,喜欢喜剧电影而不喜欢爱情电影、喜欢笑话集而不喜欢爱情小说的用户,其个人表征反映了他们对喜剧项的偏好和对爱情项的厌恶. 现有的CDR方法通常通过学习不同域之间重叠用户或项的潜在表征,再结合来自不同域的共享信息来作为信息传递的桥梁.
尽管传统的CDR方法已取得一定的研究进展,但仍然存在一定局限性. 如现有的非图的CDR方法忽略了用户-项交互关系的高阶隐含特征和用户-项交互图的高阶结构特征,导致不能完全捕捉到用户-项交互的复杂性[35]. 这种局限性导致推荐效果有待改善. 具体来说,传统方法只能隐式地捕捉协同信号(即使用用户-项交互信息作为监督信号),可以看作是利用一跳邻居的交互信息来进行用户的表征学习. 而将用户与项交互信息显示建模成交互图(即拓扑结构),利用图神经网络在交互图上提取出来的高阶交互信息可以自然、显式地编码关键的协同信号. 利用图神经网络提取用户-项交互信息时,每个节点(用户或项)不仅能够与一跳邻居进行交互,还能通过图结构与间接相连的用户或项(多跳邻居)进行交互,因此得到的高阶交互信息能够包含更多的上下文关系和更丰富的特征,从而提高推荐性能. 因此,设计能够捕捉高阶特征的新方法对于提高跨域推荐的准确性至关重要.
为了从用户-项交互图中捕捉高阶信息,图卷积网络(graph convolutional network,GCN)已被广泛应用于推荐系统[36-37]. GCN使用初始属性或结构特征初始化节点表示,通过递归聚合更新每个节点,最后根据下游任务读出节点或图的最终表示[38]. 基于GCN的推荐模型通常将用户与项的交互视为用户与项的2-部图,并在图中传播信息和聚合邻近节点的特征,从而获得用户和项的高质量特征嵌入. 最近,一些研究工作通过使用GCN来实现跨域推荐任务[39-41]. 但这些工作在跨域特征提取上为每一个用户交互序列构建交互子图或在每个域上单独构建域的子图,并没有构建一个统一的不同域间用户-项交互图. 由于非活跃用户通常交互项较少,只依靠用户子图不足以生成高质量的跨域表示从而限制了推荐系统的偏好表达能力,而分开建模域的子图无法提取到丰富的跨域特征. 建模一个统一的用户-项交互图有助于提取丰富的跨域特征,提高跨域推荐性能. 此外,现有的基于图的CDR方法也没有考虑到基于图卷积的方法普遍面临的过平滑问题.
针对上述问题,我们提出了一个新框架,称为图卷积宽度跨域推荐系统(graph convolutional broad cross-domain recommender system,GBCD). 该推荐系统利用GCN获取多个域内的高阶相似性和结构特征,从而进一步提高推荐性能,并缓解上述问题.
本文在建立的模型过程中必须应对2个主要挑战. 第1个挑战是构建不同域之间的用户-项交互图,第2个挑战是制定有效的策略在不同域中通过GCN提取高阶信息所构成的高质量用户-项跨域嵌入向量. 为了应对这2个挑战,本文提出了一种基于多部图概念的新方法. 具体地说,我们开发了一个(D+1)-部图,该图建立了多个域的项和重叠用户之间的关系,其中重叠用户作为传递信息的桥梁,如图1所示. 在同一域内,类似的项也被链接起来. 然后,使用GCN来聚合邻近节点的关系,并提取用户和项的特征.
针对基于GCN方法普遍面临的过度平滑问题,即由于邻近节点信息的信息过度聚合,模型的鉴别性能降低. 我们引入了宽度学习系统(broad learning system,BLS)[42]作为非线性近似器,BLS可以根据任何连续概率分布使用随机隐藏层权重将原始样本映射到一个具有区分度的特征空间. 通过随机权重向模型中引入随机噪声,可以有效地增强模型的鲁棒性,进而缓解过度平滑问题.
在GBCD中,我们遵循了大多数 GCN推荐模型的思路,摒弃了对特征聚合帮助不大的非线性激活部分. 但与简化图卷积推荐系统(simplifying and powering graph convolution network for recommendation,L-GCN)[43]不同的是,我们没有放弃权重矩阵的训练过程,实现了输入节点特征的降维. 在模型训练过程中,我们将每个 GCN的结果输入BLS进行评分预测. 由于GCN网络的训练易受噪音的影响,例如:不可靠的交互等,为此我们提出了一种新的面向任务的优化损失函数. 该损失函数根据最终推荐任务的BLS输出性能反馈训练GCN网络. 通过这种方法,可有效地训练GBCD并提高其在推荐任务中的性能.
本文的主要贡献有3个方面:1)专注于探索如何从多个域学习高阶特征,创新性地将不同域的用户-项交互信息构建成(D+1)-部图. 2)提出了一种新的模型 GBCD,它是一种基于图神经网络的宽度跨域推荐系统. 此外,还设计了一种新的面向任务的损失函数来训练GBCD. 3)在2个大规模真实数据集上对GBCD进行了综合实验评估,结果表明GBCD 显著提高了推荐性能.
1. 相关工作
1.1 跨域推荐
CDR方法已被提出作为解决推荐系统中冷启动和数据稀疏性挑战的一种解决方案. 多年来,CDR的各种变体被开发出来,每一种都有其独特的特点和局限性. 例如,集体矩阵分解(collective matrix factorization,CMF)[44]假设存在一个跨所有域共享的全局嵌入矩阵,并同时从多个域分解该矩阵. 在低秩和稀疏的跨域推荐(low-rank and sparse cross-domain recommendation,LSCD)[2]中,对每个域分别提取用户和项的潜在特征矩阵,而不是将每个域的评分矩阵分解为3个低维矩阵3次. 此外,用户的特性被自适应地分为共享组件和域特定组件. 近年来,深度学习模型也被引入CDR中. 例如,在文献[3]中提出一种新的自动编码器框架,它可以跨域传输和融合信息,以做出更准确的评分预测.Zhu等人[45]提出一个基于矩阵分解模型和全连接深度神经网络的跨域和跨系统推荐的深度框架. 嵌入映射跨域推荐系统(cross-domain recommendation:an embedding and mapping approach,EMCDR)[46]在每个域中利用隐因子模型学习用户和项特征,在不同域间将数据从丰富域映射到稀疏域实现跨域推荐. 用户偏好个性化迁移(personalized transfer of user preferences,PTUP)推荐系统[27]使用元网络为每个用户生成1个个性化的信息桥梁功能,进而为每个用户学习个性化跨域表示. 同时,Li等人[28]提出了一种新的对抗性学习方法,该方法将从不同域中生成的用户嵌入向量统一为每个用户的1个全局用户表示来进行跨域推荐. Cao等人[29]通过信息瓶颈的原理建模领域间去偏共享信息来实现跨域推荐. 而解耦跨域推荐系统(disentangled representations for cross-domain recommendation,DisenCDR)[47]通过解耦领域共享和领域特定信息,并利用互信息规则来增强跨域推荐性能.Xu等人[48]通过双重嵌入结构、自适应的传递矩阵、注意机制,有效地处理特征维度和潜在空间的异质性来实现跨域推荐.Xie等人[26]通过构建多样化偏好网络和域内域间的对比学习任务来解决跨域推荐中的数据偏差问题.
1.2 基于GCN的推荐
近年来,研究人员一直在探索利用图神经网络提取用户-项交互图中的特征以更好地预测用户的偏好. 其中一种方法是基于图卷积的矩阵补全(graph convolutional matrix completion,GC-MC)[49],该方法在编码交互特征时,通过GCN来利用用户和项之间的连接. 另一种方法将GCN集成到嵌入表征学习过程中的框架——神经图协同滤波(neural graph collaborative filtering,NGCF)[50]. NGCF覆盖多个嵌入传播层,通过传播层捕获用户和项之间的高阶连接的协同信息. Chen等人[51]去掉非线性激活函数,并使用残差学习方法来解释连接各层输出的原因. 为简化NGCF,L-GCN[43]删除了对协同滤波没有正面作用的激活和转换函数等操作. 此外,还有一种新的跨域推荐的双向迁移学习方法被提出,即基于图协同滤波网络的双向转移(bi-directional transfer graph collaborative filtering networks,BiTGCF)模型[52].BiTGCF不仅通过一个新的特征传播层建模单域用户-项图中的高阶连通性,还利用公共用户作为桥梁实现2个知识跨域的双向转移.
1.3 宽度学习系统(BLS)
2017年,BLS[42]作为一种新型的浅层神经网络模型被提出. 类似于深度神经网络,BLS可以近似逼近非线性函数,并对此进行了严格的分析论证[53]. BLS被设计为一个浅层的扁平网络,其中原始输入数据通过连续的概率分布映射到特征节点中,然后在宽度扩展中用节点进行增强. 这种设计可以实现快速的训练过程,因为只需要使用伪逆向算法训练从隐藏层到输出层的权重. 因此,与基于深度神经网络的模型相比,BLS不需要大量训练时间,而且由于其存储的参数数量较少,更适用于大规模数据集.
2. GBCD模型
在本节中,我们将详细描述所提出的GBCD,如图2所示.GBCD的目标是为多个领域中的重叠用户进行推荐,GBCD的关键思路是从(D+1)-部图中提取潜在的特征,该图是利用源域和目标域的信息构造的. 利用(D+1)-部图上的多图卷积网络(MGCN),生成了一个捕获相关信息的特征向量. 进一步地,为了优化所获得的特征向量并消除任何相关的噪声,我们利用BLS从数据中分析和提取有价值的特征.表1中记录了本文中出现的符号汇总.
表 1 主要符号描述表Table 1. Description Table of the Main Notations符号 描述 U,Vd,V={V1,V2,…,VD} 用户集,第d个项域中的项集,
D个项域组成的项节点集{{{\boldsymbol{R}}}^{t}} \in {\mathbb{R}^{\left| {\mathcal{U}} \right| \times \left| {{{\mathcal{V}}^{d}}} \right|}} 第 {d} 个域中的用户 {\text{-}} 项评分矩阵 \mathcal{G}^{D+1}=\{\mathcal{U}, \mathcal{V}, \mathcal{E}\} ({D} + 1) {\text{-}} 部图 \mathcal{E}=\left\{\mathcal{E}^{1}, \mathcal{E}^{2}, …, \mathcal{E}^{D}\right\} 边集,每个 {{\mathcal{E}}^{d}} 都是连接 {\mathcal{U}}
和 {{\mathcal{V}}^{d}} 之间节点的边{{\boldsymbol{A}}} 多域用户项的加权邻接矩阵 {\hat {\boldsymbol{A}}} 基于 {\boldsymbol{A}} 增加自连接的邻接矩阵 {\hat {\boldsymbol{D}}} \hat {\boldsymbol{A}} 的度矩阵 {{\boldsymbol{e}}}_{{{v}^{d}}}^{u} = [{{\boldsymbol{U}}}|{{{\boldsymbol{V}}}^{d}}] \in {\mathbb{R}^{1 \times 2{N}}} 跨域协同滤波嵌入向量 {{{\boldsymbol{E}}}^0},{{{\boldsymbol{E}}}^{k}} {{\boldsymbol{E}}^0} 是 ({D} + 1){\text{ -}} 部图的特征矩阵,
{{\boldsymbol{E}}^{k}} 是第 {k} 层的特征矩阵{{\boldsymbol{E}}} 跨域协同矩阵,由跨域协同滤波嵌
入向量拼接得到{\mathcal{W}^{\mathrm{g}}} = \{ {{{\boldsymbol{W}}}^1},{{{\boldsymbol{W}}}^2},…,{{{\boldsymbol{W}}}^{k}}\} MGCN模块的权重参数集合 {\mathcal{W}^{\mathrm{b}}} = \{ {{{\boldsymbol{W}}}_{z{j}}}{,}{{{\boldsymbol{W}}}_{h{j}}}{,}{{{\boldsymbol{W}}}^y}{,}{{{\boldsymbol{\beta}} }_{zj}}{,}{{{\boldsymbol{\beta}} }_{hj}}\} BLS模块的权重参数集合 {{{\boldsymbol{Z}}}^{m}},{{{\boldsymbol{Z}}}_{j}} 映射特征矩阵,第 {j} 个映射
特征矩阵节点\phi_{j}, \xi_{j} 第 {j} 个非线性映射特征映射函数,
第 {j} 个非线性特征增强映射函数{{{\boldsymbol{H}}}^{h}},{{{\boldsymbol{H}}}_{j}} 特征增强矩阵,第 {j} 个特征增强层节点 {\hat {\boldsymbol{Y}}} BLS输出层的输出矩阵 {\hat {\boldsymbol{r}}}_{{{v}^{d}}}^{u} 用户 {u} 与项 {{v}^{d}} 的预测向量 2.1 跨域特征提取
2.1.1 构造多部图
GBCD利用了 ({D} + 1) {\text{- }}部图,使用公共用户作为桥梁来连接跨不同域的项. 这种方法可以实现不同域之间的间接联系,并便于在每个域中提取潜在的协同滤波嵌入向量. 假设在由 {D} 个项域组成的跨域推荐任务中, {\mathcal{U}} 为用户集, {{\mathcal{V}}^{d}} 为第 {d} 个项域中的项集, {{{\boldsymbol{R}}}^{t}} \in {\mathbb{R}^{|\mathcal{U}| \times |{\mathcal{V}^{d}}|}} 为第 {d} 个项域中的用户 {\text{-}} 项评分矩阵, {{\mathcal{G}}^{{D} + 1}} = \{ {\mathcal{U}},{\mathcal{V}},{\mathcal{E}}\} 表示 ({D} + 1) {\text{-}} 部图. 在 ({D} + 1) {\text{-}} 部图中, {\cal V}=\{{\cal V}^{1},{\cal V}^{2},…,{\cal V}^{{D}}\} 表示 {D} 个项域组成的项节点集,每个 {{\mathcal{V}}^{d}} 对应于第 {d} 个项域中的项集, {\mathcal{E}} = \{ {{\mathcal{E}}^1}, {{\mathcal{E}}^2},…, {{\mathcal{E}}^{D}}\} 表示边集,每个 {{\mathcal{E}}^{d}} 都是连接 {\mathcal{U}} 和 {{\mathcal{V}}^{d}} 之间节点的边,即在第 {d} 个域中用户 {\text{-}} 项的交互. 每条边的权重取决于用户相应项的评分. 对于 ({D} + 1) {\text{-}} 部图,表示多域用户项评分信息的加权邻接矩阵可以构造为
{\boldsymbol{A}} = \left( {\begin{array}{*{20}{c}} {{{0}}}&{{{\left( {{{\boldsymbol{R}}^1},…,{{\boldsymbol{R}}^{D}}} \right)}^{\mathrm{T}}}} \\ {({{\boldsymbol{R}}^1},…,{{\boldsymbol{R}}^{D}})}&{{{0}}} \end{array}} \right) . (1) 2.1.2 基于多部图的图卷积神经网络
在该模型中,设计了一个MGCN模块,用于处理和提取 ({D} + 1) {\text{-}} 部图中不同域之间潜在的高阶特征. 与普通的GCN网络相比,该模块摒弃了对特征聚合贡献较少的非线性激活部分,但保留权重矩阵的训练过程. 该网络定义为
{\boldsymbol{e}} = {{f}_{{\mathrm{MGCN}}}}({{\mathcal{G}}^{{D} + 1}};{{\mathcal{W}}^{\mathrm{g}}}) \text{,} (2) 其中{\boldsymbol{ e}} 为跨域协同滤波嵌入向量, {{\mathcal{W}}^{\mathrm{g}}} 为MGCN模块的权重参数集合.
MGCN的核心思想是利用公共用户作为桥梁,在不同域的项之间建立连接,然后通过线性的GCN来聚合跨域信息学习这些实体的嵌入向量. 该方法可促进信息的递归传递或特征的传播. 具体来说,其计算步骤为
{{\boldsymbol{E}}^{({k} + 1)}} = {\hat {\boldsymbol{D}}^{ - 0.5}}\hat {\boldsymbol{A}}{\hat {\boldsymbol{D}}^{ - 0.5}}{{\boldsymbol{E}}^{k}}{{\boldsymbol{W}}^{k}} \text{,} (3) 其中 \hat {\boldsymbol{A}} = {\boldsymbol{A}} + {\boldsymbol{I}} 是添加自连接的邻接矩阵, {\boldsymbol{I}} 为单位矩阵, \hat {\boldsymbol{D}} 是 \hat {\boldsymbol{A}} 的度矩阵, {{\boldsymbol{W}}^{k}} 是第 {k} 层中的权值矩阵.
为了使用户-项的嵌入向量尽可能保留原始评分数据,特征矩阵 {{\boldsymbol{E}}^0} 表示为
{{\boldsymbol{E}}}^{0}=\left(\begin{array}{cc}{\left({{\boldsymbol{R}}}^{1},…,{{\boldsymbol{R}}}^{{D}}\right)}^{{\mathrm{T}}}& {\boldsymbol{I}}\\ {\boldsymbol{I}}& ({{\boldsymbol{R}}}^{1},…,{{\boldsymbol{R}}}^{{D}})\end{array}\right) . (4) 通过将特征矩阵 {{\boldsymbol{E}}^0} 输入到MGCN中,可以得到跨域嵌入向量矩阵 {\boldsymbol{E}} = {{\boldsymbol{E}}^{k}} ,其中 {k} 为MGCN的层数. 从跨域嵌入向量矩阵 {\boldsymbol{E}} 中,可以得到用户 {{{u}}} 的嵌入向量,记为{\boldsymbol{U}} . 在第 {d} 域中的项 {v^{d}} 的跨域嵌入向量,记为 {{\boldsymbol{V}}^{d}} . 连接形成跨域协同滤波嵌入为
{\boldsymbol{e}}_{{{v}^{d}}}^{u} = [{\boldsymbol{U}}|{{\boldsymbol{V}}^{d}}] \in {{\mathbb{R}}^{1 \times 2{N}}} \text{,} (5) 其中 {N} 为跨域协同滤波嵌入的维数.
MGCN利用其特征提取能力来处理 ({D} + 1) -部图,通过公共用户实现不同域之间的间接连接,更高效地在每个域内提取潜在的高阶结构嵌入向量. 由此产生的跨域协作滤波嵌入向量捕获了跨不同域的用户和项之间的底层关系和交互,从而提高了系统的推荐性能.
2.2 跨域BLS
在此使用跨域BLS来映射从MGCN模块获得的跨域预测向量,以减轻潜在的噪声. 传统的BLS由3个主要部分组成:映射特征层、特征增强层和输出层. 这3个部分共同作用,以增强模型的鲁棒性和预测能力. BLS网络定义为
\hat {\boldsymbol{r}} = {{f}_{{\mathrm{BLS}}}}({\boldsymbol{E}};{{\mathcal{W}}^{\mathrm{b}}}) \text{,} (6) 其中 {\boldsymbol{E}} \in {\mathbb{R}^{|{D}| \times 2{N}}} 为不同用户-项 {\boldsymbol{e}}_{{{v}^{d}}}^{u} 组合的矩阵, {{\mathcal{W}}^{\mathrm{b}}} 为BLS模块的权重参数集合.
2.2.1 映射特征层
在映射特征层中,对嵌入进行初步处理使随机映射嵌入到映射特征矩阵节点 {{\boldsymbol{Z}}_{j}} \in {\mathbb{R}^{|{D}| \times {{d}_{z}}}} 上,表示为
{{\boldsymbol{Z}}_{j}} = {\phi _{j}}({\boldsymbol{E}}{{\boldsymbol{W}}_{{zj}}} + {{\boldsymbol{\beta}} _{{zj}}}),{\text{ }}{j = }1,2,…,{m} \text{,} (7) 其中 |{D}| 为样本大小, {{d}_{z}} 为每个映射特征组的维数, {m} 为映射特征组的个数, {\phi _{j}} 为第 {j} 个非线性映射特征映射函数. 在映射特征层中,采用了简单的线性变化函数. 与此同时,在上述过程中, {{\boldsymbol{W}}_{{zj}}} \in {\mathbb{R}^{2{N} \times {{d}_{z}}}} 和 {{\boldsymbol{\beta }}_{{zj}}} \in {\mathbb{R}^{|{D}| \times {{d}_{z}}}} 在初始化过程中随机生成. 然后,将映射特征层中的节点输出组合成映射特征矩阵 {{\boldsymbol{Z}}^{m}} ,表示为
{{\boldsymbol{Z}}^{m}} =\left({{\boldsymbol{Z}}_1}|{{\boldsymbol{Z}}_2}|…|{{\boldsymbol{Z}}_{m}}\right) \in {\mathbb{R}^{|{D}| \times {m}{{d}_{z}}}} . (8) 2.2.2 特征增强层
特征增强层以映射特征层的输出 {{\boldsymbol{Z}}^{m}} 作为输入,特征增强层节点 {{\boldsymbol{H}}_{j}} \in {\mathbb{R}^{|{D}| \times {{d}_{h}}}} 计算为
{{\boldsymbol{H}}_{j}} = {\xi _{j}}({{\boldsymbol{Z}}^{m}}{{\boldsymbol{W}}_{{hj}}} + {{\boldsymbol{\beta}} _{{hj}}}),{\text{ }}{j = }1,2,…,{h} \text{,} (9) 其中 {{d}_{h}} 表示每个特征增强组的维数, {h} 表示特征增强组的个数, {\xi _{j}} 为第 {j} 个非线性特征增强映射函数. 在上述过程中,采用ReLu作为非线性映射函数. {{\boldsymbol{W}}_{{hj}}} \in {\mathbb{R}^{{m}{{d}_{z}} \times {{d}_{h}}}} 和 {{\boldsymbol{\beta }}_{{hj}}} \in {\mathbb{R}^{|{D}| \times {{d}_{h}}}} 在初始化过程中随机生成. 然后,将特征增强层中的节点输出组合成特征增强矩阵 {{\boldsymbol{H}}^{h}} ,即
{{\boldsymbol{H}}^{h}} = ({{\boldsymbol{H}}_1}|{{\boldsymbol{H}}_2}|…|{{\boldsymbol{H}}_{h}}) \in {\mathbb{R}^{|{D}| \times {h}{{d}_{h}}}} . (10) 2.2.3 输出层
在输出层中,BLS模块用映射的特征矩阵 {{\boldsymbol{Z}}^{m}} 和增强的特征矩阵 {{\boldsymbol{H}}^{h}} 计算输出 \hat {\boldsymbol{Y}} ,即
\hat {\boldsymbol{Y}} = ({{\boldsymbol{Z}}^{m}}|{{\boldsymbol{H}}^{h}}){{\boldsymbol{W}}^{y}} \text{,} (11) 其中 {{\boldsymbol{W}}^{y}} \in {\mathbb{R}^{({m}{{d}_{z}}{ + h}{{d}_{h}}) \times {{d}_{y}}}} 为可训练的权重矩阵, {{d}_{y}} 为输出标签的数量. 在训练过程中,只需要调整可训练的矩阵,这可以通过使用岭回归算法得到一个伪逆矩阵来近似,即
{{\boldsymbol{W}}^{y}} = {({{\boldsymbol{Z}}^{m}}|{{\boldsymbol{H}}^{h}})^ + }{\boldsymbol{Y}} . (12) 在获得BLS模块输出层的输出矩阵 \hat {\boldsymbol{Y}} 后,便可以得到相对应的用户 {u} 与项 {{v}^{d}} 的预测向量 \hat {\boldsymbol{y}}_{{{v}^{d}}}^{u} . 同时,需要对其进行规范化和加权计算预测用户-项评分 \hat {\boldsymbol{r}}_{{{v}^{d}}}^{u} ,即
\hat {\boldsymbol{r}}_{{{v}^{d}}}^{u} = \sum\limits_{{j} = 1}^{{{d}_{y}}} {\frac{{\hat {\boldsymbol{y}}_{{{v}^{d}}}^{u}[{j}] - \min\left( {\hat {\boldsymbol{y}}_{{{v}^{d}}}^{u}} \right)}}{{\max\left( {\hat {\boldsymbol{y}}_{{{v}^{d}}}^{u}} \right) - \min\left( {\hat {\boldsymbol{y}}_{{{v}^{d}}}^{u}} \right)}}} \hat {\boldsymbol{y}}_{{{v}^{d}}}^{u}[{j}] . (13) 2.3 损失函数及方法
使用传统的基于GCN方法训练MGCN网络时,由于在图网络中使用MGCN聚合邻居节点信息会导致学习不合理的交互信息,学习到的高阶信息可能不够准确和合理,导致模型预测精度较低、模型鲁棒性较差. 为克服这一问题,本文利用BLS的随机映射特性来增强MGCN模型的鲁棒性. 因此,GBCD方法不使用中间结果进行MGCN的训练,而是端对端对网络进行更新,直接利用最终推荐任务的输出也就是BLS的输出作为优化目标,即面向任务的训练优化方法. 在本文中,最终推荐任务的目标是预测评分,GBCD方法的损失函数表示为
\mathop {\min}\limits_{{{\mathcal{W}}^{\mathrm{g}}},{{\mathcal{W}}^{\mathrm{b}}}} \frac{1}{{|{\mathcal{R}}|}}\sum\limits_{{\boldsymbol{r}}_{{{v}^{d}}}^{u} \in {\mathcal{R}}} {{{\left( {{\boldsymbol{r}}_{{{v}^{d}}}^{u} - \hat {\boldsymbol{r}}_{{{v}^{d}}}^{u}} \right)}^2}} , (14) 其中 {\mathcal{R}} 表示输入样本集合.
算法1提供了本文所提出的GBCD的伪代码.
算法1. 图卷积宽度跨域推荐系统(GBCD).
输入: ({D} + 1){\text{ -}} 部图 {{\mathcal{G}}^{{D} + 1}} ,映射特征组的个数 {m} ,映射特征组的维数 {{d}_{m}} ,特征增强组的个数 {h} ,每个特征增强组的维数 {{d}_{h}} ,训练轮数 {{N}_{{\mathrm{epoch}}}} .
输出:用户-项的预测评分 \hat {\boldsymbol{r }}.
① 初始化权重参数 {{\mathcal{W}}^g} 和 {{\mathcal{W}}^b} ;
② {{\boldsymbol{A}}} , {{{\boldsymbol{E}}}^0} \leftarrow {{\mathcal{G}}^{{D} + 1}} ; /*将 ({D} + 1){\text{ -}} 部图转换为相应加 权邻接矩阵和特征矩阵*/
③ for {{N}_{{\mathrm{epoch}}}} do
④ {{\boldsymbol{E}}} \leftarrow {{f}_{{\mathrm{MGCN}}}}({{\boldsymbol{A}}},{{{\boldsymbol{E}}}^0};{\mathcal{W}^{\mathrm{g}}}) ;/*通过MGCN提取 和学习不同域之间的嵌入向量*/
⑤ for {j} in 1 to {m} do
⑥ {{{\boldsymbol{Z}}}_{j}} \leftarrow {\phi _{j}}({{\boldsymbol{E}}}{{{\boldsymbol{W}}}_{{zj}}} + {{{\boldsymbol{\beta}} }_{{zj}}}) ;/*对嵌入向量进行随 机映射生成BLS映射层输出*/
⑦ end for
⑧ {{{\boldsymbol{Z}}}^{m}} \leftarrow({{{\boldsymbol{Z}}}_1}|{{{\boldsymbol{Z}}}_2}|…|{{{\boldsymbol{Z}}}_{m}}) ;/*映射特征层中的节点 输出组合成映射特征矩阵*/
⑨ for {j} in 1 to {h} do
⑩ {{{\boldsymbol{H}}}_{j}} = {\xi _{j}}({{{\boldsymbol{Z}}}^{m}}{{{\boldsymbol{W}}}_{{hj}}} + {{{\boldsymbol{\beta}} }_{{hj}}}) ;/*对BLS映射层输出 进行非线性变化生成BLS增强层输出*/
⑪ end for
⑫ {{{\boldsymbol{H}}}^{h}} \leftarrow ({{{\boldsymbol{H}}}_1}|{{{\boldsymbol{H}}}_2}|…|{{{\boldsymbol{H}}}_{h}}) ;/*特征增强层中的节点 输出组合成特征增强矩阵*/
⑬ {{{\boldsymbol{W}}}^{y}} \leftarrow {({{{\boldsymbol{Z}}}^{m}}|{{{\boldsymbol{H}}}^{h}})^ + }{{\boldsymbol{Y}}} ;/*通过使用岭回归算法得 到一个近似的伪逆矩阵与标签信息矩阵 {\boldsymbol{Y}} ,计算出所需权重矩阵*/
⑭ {\hat {\boldsymbol{Y}}} \leftarrow ({{{\boldsymbol{Z}}}^{m}}|{{{\boldsymbol{H}}}^{h}}){{{\boldsymbol{W}}}^y} ;
⑮ {\hat {\boldsymbol{r}}} \leftarrow {\hat {\boldsymbol{Y}}} ;
⑯ 计算并最小化式(14);/*通过最小化该损 失函数学习GBCD*/
⑰ end for
⑱ 返回 \hat {\boldsymbol{r}} .
3. 实 验
在本节实验中,我们打算回答3个研究问题:
研究问题1. 为什么有必要使用CDR方法,以及利用来自源域的信息是否能提高其有效性. 此外,与其他最先进的跨域方法相比,我们提出的GBCD方法性能表现如何.
研究问题2. 利用MGCN聚合多部图的特征是否有优势. 此外,结合BLS随机映射的特征是否增强了模型的鲁棒性.
研究问题3. 超参数如何影响GBCD的性能.
3.1 实验设置
3.1.1 数据集和评估指标
根据现有文献[2],本文实验使用2个具有多个项域的真实公共数据集,即Amazon数据集和MovieLens数据集,如表2所示.
表 2 实验中使用的2个数据集Table 2. Two Datasets Used in Experiments数据集 域 用户数 项数 评分数 密度/% Amazon Books 12761 7346 85400 0.09 CDs 12761 2541 85865 0.27 Music 12761 778 28680 0.29 Movies 12761 8270 188507 0.18 Beauty 30000 302782 345231 0.01 Fashion 30000 146794 140648 0.01 MovieLens COM 2113 3029 332038 5.19 DRA 2113 3975 381616 4.54 ACT 2113 1277 241211 8.94 THR 2113 1460 226975 7.36 1)Amazon. 该数据集包含1996年5月至2018年10月的2.331亿条评论(评分),每个记录均为一个元组(用户、项、评分、时间戳). 由于数据集的规模相当大,评分记录很少的用户倾向于对随机项进行评分,这将降低效率和有效性. 因此,在我们的实验中按照文献[2]的规定,将在4个域汇总评分记录中数量小于5的用户和项删除,即书本(books)、光盘(CDs)、音乐(music)和电影(movies). 同时,我们保留2个域为原始数据集大小,即美容(beauty)和时尚(fashion).
2)MovieLens. 数据集来自马德里自治大学的信息检索组,该数据集包含2113名用户、10197部电影、855598个1970―2009年的电影评分. 我们使用电影的标签将电影划分为18个域,并在我们的实验中使用了4个电影域,即喜剧(COM)、戏剧(DRA)、动作(ACT)和惊悚(THR).
如表3所示,我们从这2个不同的数据集中定义了23个CDR任务.
表 3 跨域任务的统计信息Table 3. Statistics of the Cross Domain Tasks数据集 CDR任务 源域 目标域 Amazon 1 Books CDs 2 Books Music 3 Books Movies 4 CDs Music 5 CDs Movies 6 Music Movies 7 Books+CDs Music 8 Books+CDs Movies 9 Books+Music Movies 10 CDs+Music Movies 11 Books+CDs+Music Movies 12 Beauty Fashion MovieLens 1 COM DRA 2 COM ACT 3 COM THR 4 DRA ACT 5 DRA THR 6 ACT THR 7 COM+DRA ACT 8 COM+DRA THR 9 COM+ACT THR 10 DRA+ACT THR 11 COM+DRA+ACT THR 3.1.2 对比方法
由于GBCD属于CDR方法的类别,本文的重点是将其性能与经典的和最先进的CDR方法进行比较. 因此,我们选择6种方法作为对比算法: 1)单域推荐模型(target,TGT)是一种经典的单域MF模型,仅使用目标域数据进行训练. 2)CMF[44]是MF的扩展,它考虑了目标域和源域的交互矩阵,在这2个域之间共享用户的嵌入内容. 3)L-GCN[43]是一个简化的图卷积推荐方法,它是一个单领域方法. 我们将多个域的数据进行合并,利用L-GCN在合并数据上进行推荐计算. 4)EMCDR[46]是一种常用的冷启动CDR方法. 它将用户偏好编码为源域和目标域中的向量,然后学习一个映射函数,将用户向量从源域映射到目标域. 5)PTUP[27]是一种个性化的桥接CDR方法,它通过学习由用户特征嵌入组成的元网络来定制用户桥接. PTUP提供了3种变体版本PTUP-MF,PTUP-DNN,PTUP-GMF,每种版本都使用不同的模型进行个性化桥接. 6)DisenCDR[46]通过解耦领域共享和领域特定信息以及利用互信息规则来增强跨域推荐性能.
3.1.3 实施细节
GBCD方法以及对比方法均基于PyTorch实现. 其中TGT,CMF,EMCDR的实现是由PTUP的公开代码一并实现的. Adam优化器的初始学习速率在{0.001,0.001,0.005,0.01,0.02,0.02,0.1}范围内使用网格搜索进行调整. 另外,所有模型的批处理大小均设置为256,每个模型的嵌入维度为10.
在GBCD方法中,我们将映射特征组数量m和特征增强组数量h均设置为25,映射的特征维度 {{d}_{m}} 设置为10,增强的特征维度d_h 设置为15. 将测试用户设置为25%的重叠用户. 所有的实验均在一台拥有英特尔酷睿i9-10900 CPU,GeForce RTX 3090的服务器上运行. GBCD的代码可以在https://github.com/BroadRS/GBCD下载.
3.2 性能比较(研究问题1)
在本节中,我们将介绍实验结果,并深入讨论将GBCD方法应用于23个跨域任务数据集的实验效果. 实验结果如表4和表5所示,其中MAE和RMSE分别表示平均绝对误差和均方差. 结果如下:首先,TGT 是一种单域模型,只利用目标域的数据,而忽略源域的数据,其性能并不令人满意. 相比之下,其他利用源域数据进行跨域推荐的跨域方法始终优于单域TGT. 因此,结合源域数据的方法被证明是缓解数据稀疏性和提高目标域推荐性能的有效方法. 其次,CMF,L-GCN将多个域的数据合并到一个域中,并共享用户的嵌入,但在大多数任务中特别是在Amazon数据集,CMF,L-GCN的表现都差于CDR. 造成这种差异的原因是,CMF,L-GCN对来自不同域的数据一视同仁,从而忽略了潜在的特定域特征. 另一方面,CDR通过采用特定方法将源域嵌入转化为目标特征空间,从而有效解决域转移问题. L-GCN相比CMF性能优异,这是因为与CMF相比,L-GCN考虑到了用户与项之间的高阶交互信息. 最后,值得注意的是,在大多数情况下,与跨域对比算法相比,GBCD的性能始终优于最佳对比方法. 这是由于与L-GCN相比,GBCD通过 ({D} + 1){\text{ -}} 部图来提取跨域特征信息,比将多个域的数据进行简单合并更加有效. 与EMCDR,PTUP,DisenCDR相比,GBCD利用MGCN在 ({D} + 1){\text{ -}} 部图上显式捕捉了不同域之间高阶的交互信息,进而提升了跨域推荐的性能. 这进一步证明了GBCD在跨域推荐方面的有效性.
表 4 在Amazon数据集上的性能结果比较Table 4. Comparison of Performance Results on Amazon Dataset任务 评估指标 方法 提升度/% TGT CMF L-GCN EMCDR PTUP-MF PTUP-DNN PTUP-GMF DisenCDR GBCD(本文) 1 MAE 4.4126 2.0761 1.4284 2.9807 1.4095 0.8481 1.2199 1.1426 0.8077 4.76 RMSE 5.1390 2.8938 1.5315 3.3968 1.9718 1.1655 1.7455 1.3226 1.0124 13.14 2 MAE 4.4121 2.2234 1.4501 3.3254 1.3885 0.8179 1.1673 1.0112 0.7715 5.67 RMSE 5.1441 3.0424 1.5729 3.6547 1.9173 1.1287 1.7027 1.1812 1.0033 11.11 3 MAE 4.2753 1.9922 1.3649 3.1422 1.1931 0.8388 1.0567 0.9796 0.8243 1.73 RMSE 4.9974 2.7055 1.4885 3.5375 1.6146 1.1178 1.4960 1.3086 1.0532 5.78 4 MAE 4.4090 1.0745 1.3875 1.5591 1.0396 0.7881 0.9428 1.2650 0.7605 3.50 RMSE 5.1440 1.6133 1.5045 1.9730 1.5209 1.0809 1.4601 1.3874 0.9743 9.86 5 MAE 4.2662 1.1581 1.3549 1.1762 0.8572 0.7978 0.8468 1.0165 0.7959 0.24 RMSE 4.9697 1.6362 1.4892 1.5842 1.1494 1.0540 1.1155 1.2779 1.0151 3.69 6 MAE 4.2423 1.0408 1.4625 1.0026 0.8332 0.8162 0.8270 1.2322 0.8071 1.11 RMSE 4.9304 1.4686 1.5985 1.3383 1.1076 1.0425 1.0904 1.3083 0.9816 5.84 7 MAE 4.4705 0.9866 1.3899 1.5988 1.0335 0.7589 0.9412 1.0480 0.7494 1.25 RMSE 5.2000 1.4476 1.5012 1.9597 1.4720 1.0515 1.3644 1.2216 0.9954 5.34 8 MAE 4.3285 1.0726 1.3371 1.0938 0.8753 0.8245 0.8512 1.2172 0.8146 1.20 RMSE 5.0042 1.5010 1.4651 1.4726 1.1611 1.0525 1.1244 1.3182 1.0201 3.08 9 MAE 4.2627 1.0081 1.3632 0.9862 0.8467 0.7761 0.8210 1.1562 0.8035 - 3.53 RMSE 4.9398 1.4133 1.4943 1.3093 1.1210 1.0398 1.0867 1.3172 0.9995 3.88 10 MAE 4.2112 0.9572 1.3493 0.9766 0.8548 0.7802 0.8222 1.3246 0.7789 0.16 RMSE 4.8905 1.3365 1.4851 1.2701 1.1440 1.0318 1.0898 1.4514 0.9740 5.60 11 MAE 4.4446 0.9610 1.3343 0.9786 0.8702 0.7821 0.8264 1.3118 0.7530 3.72 RMSE 5.1121 1.3287 1.4571 1.2771 1.1578 1.0360 1.1043 1.4714 0.9586 7.47 12 MAE 4.3761 4.1337 2.5227 3.9229 2.1195 2.0704 2.1029 3.2112 1.4552 29.71 RMSE 5.2022 4.7734 2.9646 4.1703 2.6949 2.6547 2.6882 4.1867 1.9684 25.85 注:加粗为最优结果,提升度=(最佳基线性能 - GBCD的性能)/最佳基线性能. 表 5 在MovieLens数据集上的性能结果比较Table 5. Comparison of Performance Results on MovieLens Dataset任务 评估指标 方法 提升度/% TGT CMF L-GCN EMCDR PTUP-MF PTUP-DNN PTUP-GMF DisenCDR GBCD(本文) 1 MAE 3.5187 0.7259 0.7206 0.7093 0.7087 0.6912 0.6943 0.9793 0.6550 5.66 RMSE 4.0828 0.9454 0.9892 0.9183 0.9203 0.9035 0.9066 1.0842 0.8523 5.99 2 MAE 3.4289 0.7524 0.8395 0.7484 0.7461 0.7289 0.7343 0.8931 0.6793 7.49 RMSE 4.0343 0.9715 1.0485 0.9637 0.9689 0.9377 0.9509 0.9520 0.8720 8.30 3 MAE 3.6157 0.7597 0.8823 0.7402 0.7337 0.7203 0.7217 0.8597 0.6732 6.72 RMSE 4.2084 0.9847 1.0985 0.9562 0.9481 0.9339 0.9412 0.9576 0.8657 8.02 4 MAE 3.3605 0.7036 0.8390 0.7131 0.7086 0.6924 0.6903 0.9571 0.6834 1.00 RMSE 3.9528 0.9122 1.0550 0.9178 0.9152 0.8945 0.8944 1.0122 0.8861 0.93 5 MAE 3.5322 0.7205 0.8955 0.7380 0.7130 0.7056 0.7025 0.9522 0.6817 2.96 RMSE 4.1614 0.9349 1.1055 0.9499 0.9291 0.9158 0.9157 1.0321 0.8754 4.40 6 MAE 3.5005 0.7063 0.874 0.7170 0.7064 0.6971 0.6911 0.9160 0.6643 3.88 RMSE 4.1662 0.9169 1.0900 0.9241 0.9168 0.9020 0.8939 0.9774 0.8584 3.97 7 MAE 3.4866 0.7187 0.8145 0.7360 0.7153 0.7052 0.7002 0.9363 0.6985 0.86 RMSE 4.0680 0.9342 1.0435 0.9473 0.9245 0.9251 0.9097 0.9871 0.9019 0.24 8 MAE 3.4522 0.7260 0.8760 0.7480 0.7303 0.7133 0.7056 0.9279 0.6719 4.78 RMSE 4.0307 0.9446 1.1065 0.9618 0.9391 0.9246 0.9206 0.9939 0.8758 4.87 9 MAE 3.4793 0.7324 0.8765 0.7379 0.7282 0.7161 0.7111 0.9040 0.6793 4.47 RMSE 4.1414 0.9467 1.1080 0.9467 0.9406 0.9231 0.9183 0.9585 0.8720 5.04 10 MAE 3.5241 0.7147 0.8870 0.7395 0.7124 0.6995 0.6956 0.8730 0.6641 4.52 RMSE 4.1439 0.9283 1.1070 0.9517 0.9283 0.9120 0.9078 0.9313 0.8580 5.49 11 MAE 3.5005 0.7063 0.7057 0.7170 0.7125 0.7064 0.6995 0.9325 0.6701 4.20 RMSE 4.1662 0.9169 1.1069 0.9241 0.9122 0.9168 0.8946 0.9870 0.8691 2.85 注:加粗为最优结果,提升度= (最佳基线性能−GBCD的性能)/最佳基线性能. GBCD的时间复杂度主要来自于2部分:MGCN模块和BLS模块. MGCN模块每层在进行图卷积的过程中,每个节点都需要与邻居节点进行信息交换. 在每次的信息交换中,都需要对 {N} 维的特征向量进行操作,所以MGCN每层的时间复杂度为 {O}{(|}{\varepsilon }{|}{N}{)} . BLS模块映射特征层生成中需要进行归一化和矩阵运算等操作,时间复杂度约为 {O}{(|}{D}{|}N{m}{{d}_{m}}{)} ,增强特征层需要进行非线性激活和矩阵运算等操作,时间复杂度约为 {O}{(|}{D}{|}{m}{{d}_{m}}{h}{{d}_{h}}{)} ,所以BLS模块的时间复杂度约为 {O}{(|}{D}{|(}N{m}{{d}_{m}} + {m}{{d}_{m}}{h}{{d}_{h}}{))} . 各种方法的训练时间与时间复杂度、早停策略、批量大小有关.
表6和表7给出GBCD与对比方法在23个跨域任务上的训练时间. 从表6和表7中可以看出,基于图模型的训练时间在大部分跨域任务的耗时高于传统模型,如L-GCN和GBCD的训练耗时高于其他的对比方法. 这是由于基于图的模型需要处理图结构,导致计算复杂度增加,以及GCN所采用的全批量训练方法导致收敛较慢. 同时,由于Amazon数据集相比MovieLens数据集评分数较少,所以GBCD在MovieLens数据集上的大部分跨域任务比在Amazon数据集上的跨域任务更加耗时.
表 6 在Amazon数据集上的训练时间Table 6. Training Time on Amazon Datasets 任务 方法 TGT CMF L-GCN EMCDR PTUP-MF PTUP-DNN PTUP-GMF DisenCDR GBCD (本文) 1 53.64 79.95 645.80 11.07 125.85 126.6 123.66 502.80 485.86 2 50.82 70.92 370.23 10.92 74.25 77.82 72.57 301.23 343.17 3 97.05 117.78 844.94 17.07 137.37 149.79 142.65 962.10 809.02 4 50.52 93.45 386.85 11.34 69.84 76.89 75.27 285.08 395.48 5 98.01 140.61 444.71 16.56 141.30 152.82 147.57 837.20 667.92 6 97.68 151.17 695.96 17.43 141.39 149.67 148.53 972.04 621.51 7 52.35 119.58 640.57 11.04 69.72 77.82 73.20 235.24 618.98 8 96.315 170.58 563.02 17.36 143.10 177.72 157.59 556.95 1048.18 9 100.29 167.73 471.31 17.52 137.25 145.86 142.62 456.99 918.02 10 99.12 200.52 470.87 16.92 134.64 147.72 142.44 4475.96 906.53 11 117.45 275.55 1196.02 16.98 144.69 161.52 154.86 3722.65 1138.08 12 238.32 1067.19 4229.78 24.07 175.64 173.42 179.11 5308.28 3902.21 表 7 在MovieLens数据集上的训练实验Table 7. Training Time on MovieLens Datasets 任务 方法 TGT CMF L-GCN EMCDR PTUP-MF PTUP-DNN PTUP-GMF DisenCDR GBCD (本文) 1 155.07 219.78 967.29 24.87 256.44 258.33 264.57 2381.35 1947.48 2 216.75 292.02 907.18 31.53 352.05 347.73 347.22 1579.22 1597.79 3 347.22 320.64 867.99 39.09 426.90 426.42 430.53 1525.28 1478.47 4 219.15 387.15 872.87 31.89 341.13 350.64 362.67 1822.40 1719.06 5 268.89 447.06 872.75 41.52 427.35 436.35 455.10 1522.30 1661.04 6 402.18 724.77 774.60 49.62 438.03 433.20 707.58 1147.83 1223.79 7 257.52 566.34 1212.95 35.10 356.19 392.37 408.51 1421.16 2633.87 8 332.25 598.35 1186.57 42.51 451.23 461.94 476.58 1333.53 2593.37 9 278.28 680.82 1055.66 40.35 457.86 474.75 466.12 1004.09 2158.97 10 326.55 819.60 1111.12 43.08 529.47 464.76 468.04 2423.01 2358.87 11 218.73 906.75 1508.44 40.89 579.32 523.79 518.25 4297.78 3610.48 3.3 消融实验(研究问题2)
在本节中,我们将进行实验,分析GBCD的不同组成部分,并开发2种变体,以更好地验证其有效性. 其中,GCD是在GBCD的基础上去掉BLS模块的变体; GMCD采用MLP代替BLS模块;GATBCD采用图注意网络(GAT)代替GCN. 在此使用MAE和 RMSE指标评估了GBCD及其变体的性能,结果见表8和表9. 表8和表9中的结果清楚地表明,GBCD模型的性能优于其他2个变体:GCD和GMCD. 与这2个变体相比,GBCD的性能提升幅度高达22.41%. 这表明,通过使用 BLS 随机映射功能可增强了模型的鲁棒性,有助于提高模型的预测性能. 此外,表8和表9还显示,GBCD模型显著优于GATBCD. 这表明与使用GAT相比,利用GCN聚合邻域特征有利于提高模型的预测性能. 这些实验结果不仅验证了GBCD不同组件的有效性,还可以看出使用BLS增强模型鲁棒性和利用GCN聚合图邻域特征对提高模型预测性能的重要性.
表 8 在Amazon数据集上的消融实验Table 8. Ablation Study on Amazon Dataset任务 评估指标 方法 提升度/% GCD GMCD GATBCD GBCD (本文) 1 MAE 1.0304 0.8708 1.2419 0.8077 7.24 RMSE 1.1403 1.2367 1.6498 1.0124 11.22 2 MAE 1.0181 0.8317 1.2123 0.7715 7.24 RMSE 1.1272 1.1987 1.6525 1.0033 11.00 3 MAE 0.9201 0.8538 1.1032 0.8243 3.56 RMSE 1.1974 1.1821 1.5033 1.0532 10.90 4 MAE 0.8360 0.8200 1.0054 0.7605 7.26 RMSE 1.1440 1.2187 1.3767 0.9743 14.83 5 MAE 0.8508 0.8636 0.9839 0.7959 6.45 RMSE 1.1697 1.2099 1.3809 1.0151 13.21 6 MAE 0.9423 0.8823 1.0313 0.8071 8.52 RMSE 1.2304 1.1869 1.2167 0.9816 17.30 7 MAE 1.0258 0.8918 0.9943 0.7494 15.97 RMSE 1.2500 1.2375 1.3066 0.9954 19.56 8 MAE 0.9285 0.8952 1.0256 0.8146 9.00 RMSE 1.1042 1.2128 1.2179 1.0201 7.62 9 MAE 0.9237 0.9068 0.9482 0.8035 11.39 RMSE 1.1732 1.2051 1.2390 0.9995 14.81 10 MAE 0.9180 0.8829 0.9670 0.7789 11.78 RMSE 1.2905 1.2429 1.2608 0.9740 21.63 11 MAE 0.8412 0.8695 0.9520 0.7530 13.40 RMSE 1.2553 1.2115 1.2604 0.9586 20.87 12 MAE 1.6986 1.7228 2.1872 1.4552 14.33 RMSE 2.1740 2.2176 2.3449 1.9684 9.45 注:加粗为最优结果,提升度= (最佳基线性能−GBCD的性能)/最佳基线性能. 表 9 在MovieLens数据集上的消融研究Table 9. Ablation Study on MovieLens Dataset任务 评估指标 方法 提升度/% GCD GMCD GATBCD GBCD (本文) 1 MAE 0.9017 0.7796 1.0419 0.6550 15.98 RMSE 1.3749 0.9827 1.2809 0.8523 13.27 2 MAE 0.8559 0.8223 1.0040 0.6793 17.39 RMSE 1.1631 1.0625 1.1608 0.8720 17.93 3 MAE 0.8900 0.8091 0.8969 0.6732 16.80 RMSE 1.1758 1.0174 1.1699 0.8657 14.91 4 MAE 0.8503 0.8383 0.8799 0.6834 18.48 RMSE 1.1044 1.0598 1.1554 0.8861 16.39 5 MAE 0.8305 0.8121 1.1041 0.6817 16.06 RMSE 1.0946 1.0433 1.3024 0.8754 16.09 6 MAE 0.8354 0.7888 0.8375 0.6643 15.78 RMSE 1.0966 0.9977 1.0393 0.8584 13.96 7 MAE 0.9274 0.8845 0.9139 0.6985 21.03 RMSE 1.2729 1.1225 1.2139 0.9019 19.65 8 MAE 0.8365 0.8173 0.8518 0.6719 17.79 RMSE 1.1261 1.0384 1.2059 0.8758 15.66 9 MAE 0.8105 0.8008 0.8855 0.6793 15.17 RMSE 1.0747 1.0103 1.0972 0.8720 13.69 10 MAE 0.8734 0.8559 0.8971 0.6641 22.41 RMSE 1.1123 1.0838 1.1897 0.8580 20.83 11 MAE 0.8403 0.8063 0.9081 0.6701 16.89 RMSE 1.0406 1.0169 1.1133 0.8691 14.53 注:加粗为最优结果,提升度= (最佳基线性能 - GBCD的性能)/最佳基线性能. 3.4 超参数分析(研究问题3)
在本节中,我们将对GBCD方法的超参数即映射特征组数 {m} 、映射特征维数 {{d}_{m}} 、特征增强组数 {h} 和特征增强维数 {{d}_{h}} 进行敏感性分析. 在对1个参数进行分析时,其他参数都是固定的. 通过这种灵敏度分析,我们旨在研究每个超参数对GBCD方法性能的影响. 限于篇幅,我们仅给出2个数据集上的任务1,6,7,11,其他任务上的结果可以类似得到.
3.4.1 特征映射模块中的超参数
在敏感性分析中,首要分析GBCD方法中特征映射模块的超参数,包括映射特征组数 {m} 和映射特征维数 {{d}_{m}} . 为分析 GBCD方法对这2个超参数的敏感性,在{15,20,25,30,35}范围内测试 {m} ,在{5,10,15,20,25}范围内测试 {{d}_{m}} . 在此用MAE,RMSE评估不同值对性能的影响,结果如图3和图4所示. 从图3和图4中可以看出, GBCD方法对特征映射层中超参数的敏感度相对较低. 这表明在测试范围内,GBCD方法的性能不易受到 {m} 和 {{d}_{m}} 的特定值的影响.
3.4.2 特征增强模块中的超参数
在敏感性分析中,在此分析GBCD方法特征增强模块中的超参数,包括特征增强组数 {h} 和特征增强维数 {{d}_{h}} . 为分析GBCD方法对这些超参数的敏感性,在{15,20,25,30,35}范围内测试 {h} ,在{5,10,15,20,25}范围内测试 {{d}_{h}} . 在此同样使用MAE和RMSE评估了不同值对性能的影响,结果如图5和图6所示. 从图5和图6中可以看出,GBCD方法对特征增强模块中超参数的敏感度相对较低. 这表明在测试范围内,GBCD方法的性能不易受到 {h} 和 {{d}_{h}} 的特定值的影响.
3.5 案例分析
我们进行了案例分析以验证GBCD的有效性,表10中列出了在Amazon和MovieLens数据集中部分跨域任务的具体案例,其中“真实评分”表示原始的真实评分,“预测评分”表示GBCD和部分基线的预测评分. 如表10所示,GBCD在大部分的具体案例上的表现更好. 跨域推荐的基线都比单域的基线在大多数的具体案例下表现得要更好,这说明结合源域数据被证明是缓解数据稀疏性和提高目标域推荐性能的有效方法.
表 10 GBCD有效性的案例研究Table 10. Case Study of the Effectiveness of GBCD数据集 任务 用户编号 项编号 真实评分 不同算法的预测评分 TGT L-GCN EMCDR PTUP-DNN DisenCDR GBCD (本文) Amazon 1 360 8874 1 2.8748 3.3818 1.5408 1.8930 1.6353 1.3503 6 1569 5363 5 2.2330 3.1874 3.1622 4.0144 3.6050 4.4975 7 4067 15249 5 1.1260 4.0448 3.7357 4.6258 4.7390 4.6835 11 1188 27555 5 1.7055 3.4451 4.5359 4.7281 3.5772 4.7434 MovieLens 1 414 4042 4 0.7557 4.4624 2.2757 4.1191 3.3242 4.4395 6 814 4220 3 1.1037 3.2118 2.0289 3.6359 3.1161 3.0989 7 1703 7248 5 0.1681 3.8297 3.0117 4.2053 3.4718 4.0739 11 896 12777 3 1.9577 2.7000 2.1512 2.8680 3.9828 3.0385 注:加粗为最优结果. 3.6 可视化分析
在本节中,我们进一步分析GBCD是否通过 ({D} + 1){\text{ -}} 部图提取到高阶的交互信息从而学习到更好的用户和项表征来提升推荐的性能. 为此,我们从MovieLens数据集的COM到DRA跨域任务中随机选择3名用户及相关项,并在图7中给出从GBCD与PTUP-DNN提取的用户和项跨域表征进行对比. 通过图7(a)(b)联合分析(如2102和2105)可以发现:GBCD提取到的用户历史项的跨域嵌入往往更加接近,该现象验证了GBCD相比传统的跨域推荐算法(如PTUP)能够捕捉到更复杂的用户-项的高阶交互信息.
4. 结 论
在本文中,我们建立了一个基于图卷积宽度跨域推荐系统(GBCD). 该方法引入多项关键创新以提高模型的性能和鲁棒性. 首先,将多域用户-项交互图建模为(D + 1)-部图,从而能够探索更高阶的特征. 其次,利用图卷积网络(GCN)来学习这些高阶特征,从而捕捉跨域用户与项之间的复杂关系. 最后,采用BLS来增强模型的鲁棒性,从而提高其预测能力. 此外,我们还提出了一种新的面向任务的优化损失函数,以有效优化GBCD方法,GBCD方法包括单域和跨域方法. 在2个真实数据集上进行的大量实验表明,GBCD优于对比方法,这验证了GBCD在应对跨域推荐任务挑战方面的优越性.
在未来的工作中,我们将尝试纳入语义信息,如用户的社交信息和项知识图谱. 通过利用这些附加信息,可以提取更多丰富的特征,并更准确地模拟用户的细粒度偏好. 这种扩展可以进一步提升 GBCD模型的性能和个性化能力,为用户提供更全面、更有针对性的推荐. 此外,当前存在一些用预训练模型来解决稀疏性问题的研究[54],这是另一个解决数据稀疏性问题的思路. 作为未来工作,我们会尝试用预训练语言模型解决数据稀疏性问题.
作者贡献声明:黄玲、王昌栋提出了算法思路和实验方案;黄镇伟、黄梓源负责完成实验并撰写论文;关灿荣负责实验数据采集和预处理;高月芳、王昌栋提出指导意见并修改论文.
-
[1] Bresnahan T F, Trajtenberg M. General purpose technologies: Engines of growth[J]. Journal of Econometrics, 1995, 65(1): 83−108
[2] Crafts N. Artificial intelligence as a general-purpose technology: An historical perspective[J]. Oxford Review of Economic Policy, 2021, 37(3): 521−536 doi: 10.1093/oxrep/grab012
[3] 新华社.习近平在中共中央政治局第十一次集体学习时强调:加快发展新质生产力 扎实推进高质量发展[EB/OL]. [2024-12-18]. https://www.gov.cn/yaowen/liebiao/202402/content_6929446.htm Xinhua. Xi stresses development of new productive forces, high-quality development[EB/OL]. [2024-12-18]. https://www.gov.cn/yaowen/liebiao/202402/content_6929446.htm (in Chinese)
[4] 陈慧敏,刘知远,孙茂松. 大语言模型时代的社会机遇与挑战[J]. 计算机研究与发展,2024,61(5):1094-1103 Chen Huimin, Liu Zhiyuan, Sun Maosong. The social opportunities and challenges in the era of large language models[J]. Journal of Computer Research and Development, 2024, 61(5): 1094-1103 (in Chinese)
[5] 魏子舒,韩越,刘思浩,等. 2021至2023年人工智能领域研究热点分析述评与展望[J]. 计算机研究与发展,2024,61(5):1261−1275 doi: 10.7544/issn1000-1239.202440063 Wei Zishu, Han Yue, Liu Sihao, et al. Lookahead analysis and discussion of research hotspots in artificial intelligence from 2021 to 2023[J]. Journal of Computer Research and Development, 2024, 61(5): 1261−1275 (in Chinese) doi: 10.7544/issn1000-1239.202440063
-
期刊类型引用(0)
其他类型引用(4)
计量
- 文章访问数: 284
- HTML全文浏览量: 55
- PDF下载量: 128
- 被引次数: 4