MOOCDR-VSI: A MOOC Resource Dynamic Recommendation Model Fusing Video Subtitle Information
-
摘要:
学习者在面对浩如烟海的在线学习课程资源时往往存在“信息过载”和“信息迷航”等问题,基于学习者的学习记录,向学习者推荐与其知识偏好和学习需求相符的MOOC资源变得愈加重要. 针对现有MOOC推荐方法没有充分利用MOOC视频中所蕴含的隐式信息,容易形成“蚕茧效应”以及难以捕获学习者动态变化的学习需求和兴趣等问题,提出了一种融合视频字幕信息的动态MOOC推荐模型MOOCDR-VSI,模型以BERT为编码器,通过融入多头注意力机制深度挖掘MOOC视频字幕文本的语义信息,采用基于LSTM架构的网络动态捕捉学习者随着学习不断变化的知识偏好状态,引入注意力机制挖掘MOOC视频之间的个性信息和共性信息,最后结合学习者的知识偏好状态推荐出召回概率Top N的MOOC视频. 实验在真实学习场景下收集的数据集MOOCCube分析了MOOCDR-VSI的性能,结果表明,提出的模型在HR@5,HR@10,NDCG@5,NDCG@10,NDCG@20评价指标上比目前最优方法分别提高了2.35%,2.79%,0.69%,2.2%,3.32%.
Abstract:Learners often have problems such as “information overload” and “information trek” when facing the vast online learning course resources. Based on learners’ learning records, it is increasingly important to recommend MOOC courses to learners that are consistent with their knowledge preferences and learning needs. Aiming at the problems that the existing MOOC recommendation methods do not make full use of the implicit information contained in MOOC videos, which are easy to form a “cocoon effect”, and it is difficult to capture the dynamic learning needs and interests of learners, a dynamic MOOC recommendation model integrating video subtitle information MOOCDR-VSI is proposed, which uses BERT as the encoder to deeply mine the semantic information of MOOC video subtitle text by integrating the multi-head attention mechanism. The network based on LSTM architecture is used to dynamically capture the changing knowledge preference state of learners with learning, introduce the attention mechanism to mine the personality information and common information between MOOC videos, and finally recommend MOOC videos with Top N recall probability combined with the knowledge preference status of learners. The performance of MOOCDR-VSI is analyzed by MOOCCube in the experimental dataset collected in the real learning scenario, and the results show that the proposed model improves the HR@5, HR@10, NDCG@5, NDCG@10 , NDCG@20 evaluation indexes by 2.35%, 2.79%, 0.69%, 2.2% and 3.32%, respectively, compared with the current most optimal method.
-
Keywords:
- MOOC recommendation /
- BERT /
- multiple attention mechanism /
- caption information /
- LSTM
-
中国的教育已步入新时代,为了更好地落实科教兴国、人才强国战略,国家对教育现代化[1]和信息化[2]均提出了新要求、新使命. 同时,普通民众对知识更新的需求不断增高,以固定时间、确定地点进行的线下课堂教学活动,已经难以满足知识日益更新、终生学习的新形势和新需求. 在知识快速更新的新形势和终身自主学习的新需求推动下,各种大规模开放式在线课程(massive open online courses,MOOC)学习平台如雨后春笋般地发展起来,如edX、Coursera、MIT Open Courseware、Stanford Online、ITS、腾讯课堂、百度传课、智学网和淘宝教育等. 在线学习(e-learning)、开放学习(open-learning)为实现“人人皆学、处处能学、时时可学”和“终身学习”,为教育优质均衡发展和实现教育公平提供了技术上的保证;对于构建学习型社会,促进人的素质的全面提高,也具有重要的意义.
MOOC平台汇聚了海量的优质教学资源,这些种类繁多、琳琅满目的资源为广大学习者实现自主学习的同时,也造成了“信息过载”和“信息迷航”等问题. 一项对在线学习用户的研究表明,以不适当的课程视频向用户提供学习内容会降低他们的参与度[3]. 随着个性化学习需求的不断增加,基于学习者的知识偏好和学习需求向用户推荐符合他们的兴趣和认知水平的教学资源变得越来越重要.
推荐技术旨在解决“信息过载”问题,使用户从浩如烟海的信息中快速定位到自己感兴趣的内容,已经广泛应用于许多领域,如产品推荐、新闻推荐、亚马逊图书推荐和Netflix电影推荐[4-5]. 受这些领域成功案例的启发,有研究者将推荐技术引入MOOC推荐中,用以解决学习资源与学习者兴趣和需求不匹配等问题,并取得一定进展. 然而,目前的推荐方法在建模学习者学习偏好和预测学习者需求时仍然存在3点不足:
1) 无法深度挖掘课程内容的隐含信息. MOOC大多以视频为载体向学习者传递知识,而视频包含了丰富的信息,如语音、字幕等,通过挖掘课程视频信息能够进一步过滤与学习者需求不符的课程资源. 例如,有的教师讲授数据结构课程时采用C语言,而有的教师可能采用C++或者Java语言,这些潜在信息对于精确表示课程特征、提高推荐质量具有辅助意义.
2) 容易形成“蚕茧效应”. 推荐的课程若不能在学习者兴趣的基础上适度延伸、拓展,就不可避免地产生“蚕茧效应”,造成学习者视野日益狭窄、丧失学习兴致,而要打破这种“蚕房”的桎梏,就要求模型能够挖掘课程内容的个性和共性特征,增加推荐的多样性. 例如,学习者在学习“操作系统”课程的“哲学家进餐问题”时,模型能够给出“信号量机制”“银行家算法”等相关的延伸知识的推荐.
3) 难以捕获学习者动态变化的学习需求和兴趣. 随着学习者对知识的不断内化和迁移,其需求和兴趣可能会随之变化,如何动态追踪学习者不断变化的学习需求和兴趣也是亟待解决的关键问题.
针对这3点不足,本文提出了一种融合视频字幕信息的MOOC资源动态推荐模型(MOOC resource dynamic recommendation model fusing video subtitle information, MOOCDR-VSI). 视频的字幕文本是向学习者传递信息的重要载体,通过提取字幕的语义特征能够从自然语言处理的角度理解视频内容,进而深度挖掘课程内容的隐含信息. MOOCDR-VSI的思想类似于观看外文电影时,双语字幕能够帮助观看者理解视频内容. 另一方面,通过引入课程内容的语义关联挖掘视频内容的个性和共性特征,增加推荐的多样性,能够适度地扩充学习者的视野和兴趣. MOOCDR-VSI首先探索学习者的学习记录和相应的课程内容,学习记录中的观看完成率是刻画学习者对当前学习内容是否感兴趣的重要特征. 对于课程内容,MOOCDR-VSI首先采用BERT(bidirectional encoder representations from transformers)[6]编码器和多头注意力机制获取每个视频字幕的语义信息和挖掘视频内容的个性特征. 然后,MOOCDR-VSI采用一种基于LSTM(long short-term memory)[7]的网络结构动态建模学习者的兴趣状态. 接着通过引入注意力机制关注不同课程的共性特征. 最后,结合学习者当前的兴趣状态和课程内容的特征生成推荐列表. 总的来说,本文的主要贡献包括4个方面:
1) 通过BERT编码器获取MOOC视频字幕的文本表示,并采用多头注意力从不同的语义空间捕获局部特征间的依赖关系,深度挖掘了课程内容之间的个性信息和共性信息;
2) 通过外部矩阵建模了不同MOOC与各个知识点的关联性,学习者每一次完成MOOC学习后,采用一种基于LSTM的网络架构更新学习者对每一个知识的偏好状态,从而动态获取学习者的知识偏好状态;
3) 引入注意力机制捕获MOOC视频之间的相关性,结合学习者当前的知识偏好状态推荐出Top N个学习者可能感兴趣的MOOC视频;
4) 构建了融合字幕信息的MOOC推荐模型MOOCDR-VSI,在真实学习场景下收集的MOOCCube数据集上的实验验证了该模型的有效性.
1. 相关工作
传统的课程推荐算法包括协同过滤推荐算法[8-10]、基于内容的推荐算法[11]和混合的推荐算法[12-14]. 其中,协同过滤推荐算法主要依赖用户对课程的反馈(包括评价、打分),而较少地考虑用户和课程的内容信息,当用户对课程的交互信息较少时,容易产生冷启动问题. 有研究者通过引入学习行为[15]、社交网络[16]、用户属性[17]和上下文[18]等辅助信息减少用户对课程交互信息的依赖,缓解了由交互数据稀疏带来的冷启动问题. 基于内容的推荐算法主要依赖挖掘课程之间的相似度,为用户推荐与过去学习相似的课程,但项目的内容信息往往同时包含结构数据和非结构数据,因此这种算法高度依赖特征工程. 为了满足个性化学习的需求,混合推荐算法成为解决复杂场景的主流算法,如Chen等人[19]提出了一种基于内容的协同过滤方法来获得与内容相关的课程集,然后根据学习者学习序列,使用顺序模式挖掘算法,对课程集进行筛选.Li等人[20]通过融合用户兴趣模型和教学资源模型构建了个性化网络教学资源系统,改进的混合推荐算法在个性化课程推荐系统中具有更好的性能,但这些方法大都将用户偏好视为静止状态,即无法动态监控用户每一次交互后的兴趣变化,因此依然存在一定局限性.
近年来,深度学习因其具有强大的特征提取能力受到研究者们的关注,受其在语音分析[21]和文本处理[22]等领域成功的启发,有研究者将深度学习引入课程推荐系统.Zhao等人[23]提出了一种全路径学习的推荐模型,该模型首先对学习者集合进行聚类,接着训练LSTM来预测学习者的学习路径和学习成绩,最后根据学习路径预测的结果推荐个性化学习的完整路径. Li等人[24]提出了一种基于互信息的特征选择(mutual information feature selection,MIFs)模型和学习者学习资源二部图关联模型,利用深度神经网络挖掘学习者的个性化偏好基础,进而为学习者推荐资源.Fan等人[25]通过构建了一个多注意力(学习记录注意力、课程描述注意力等)网络模型探索多个非结构化信息,为分析学生的学习行为和进行个性化的MOOC推荐提供了一种可解释的策略.Wang等人[26]提出了一种基于图神经网络的Top N个性化课程推荐方法,并探索了2种不同的聚合函数来处理学习者的序列邻居. 在考虑课程内容的工作中,Xu等人[27]提出一个融入课程名称、课程评价等信息的多模态课程特征提取的推荐框架. 考虑到课程推荐存在丰富的实体关系,Gong等人[28]通过构建异构信息网络(heterogeneous information network,HIN)[29]捕获多种实体,如课程、视频、教师之间的关系并将其纳入学习过程. 这些方法相较传统的协同过滤方法能够获得较好的推荐效果,但由于其无法深入挖掘课程内容的隐含信息,可能导致推荐的结果存在“蚕茧效应”,即无法在学习者兴趣的基础上进行扩展及延伸式的推荐. 另一方面,这些方法大多将学习者兴趣和需求视为静止状态,不符合学习者的兴趣随学习时间变化的过程,因此,这些方法依然存在一定的局限性.
2. 问题描述与研究思路
2.1. 问题描述
课程视频推荐可以形式化为一个有监督的序列预测问题,假设在一个学习系统中存在一个学习者S和一组课程视频E,学习者S1的学习序列表示为X={(title1,caption1,ts1,te1,d1),(title2,caption2,ts2,te2,d2),…,(titlet,captiont,tst,tet,dt)},其中元组(titlet,captiont,tst,tet,dt)表示该学生在时刻t的学习交互,titlet和captiont分别表示学习者时刻t学习的MOOC视频的标题和字幕文本,tst和tet分别表示观看视频的开始时间和结束时间,dt表示该课程视频时长. 通过预设的模型捕捉每个时刻学习者的学习兴趣和需求,并预测该学习者在时刻t+1可能感兴趣的N个MOOC视频.
2.2. 研究思路
针对传统MOOC推荐模型存在的无法深入挖掘课程视频内容信息、推荐结果扩展性较差以及无法捕捉学习者动态变化的学习兴趣和需求等问题,本文按照以下研究思路进行学习者兴趣动态建模和MOOC推荐:
首先,本文将BERT作为视频标题和字幕文本的编码器,考虑到BERT模型采用双向的Transformer结构[30],因此它能够较好地捕获前后文的语义信息. 接着采用多头注意力机制从不同语义空间捕获局部特征间的依赖关系,进一步挖掘课程视频的个性特征和共性特征,以此获得较好的扩展性推荐结果. 对于建模学习者的学习兴趣变化过程,本文采用LSTM获取每一时刻学习者的知识偏好状态,由于课程视频的完成率能够从侧面反映学习者对当前视频感兴趣的程度,因此学习者每一时刻的知识偏好状态由当前视频的知识点和完成率共同决定. 同时,课程的知识点并不孤立而是彼此关联,因此在这个过程中引入了课程视频知识点的关联性以刻画学习者完成当前视频学习后对潜在知识点偏好的影响. 最后通过注意力机制获取已学习MOOC和未学习MOOC间的关联,并结合当前时刻学习者的知识偏好状态召回Top N个学习者可能感兴趣的MOOC视频.
3. MOOCDR-VSI模型
本节给出了MOOCDR-VSI的总体框架和各个模块的实现过程,包括MOOC的文本(标题文本、字幕文本)特征提取、学习者知识偏好动态建模、MOOC推荐等模块以及模型的训练方法.
3.1. 模型总体框架
本文提出的MOOCDR-VSI架构如图1所示,主要分为3个模块:MOOC文本特征提取、学习者知识偏好动态建模、MOOC推荐.
1) MOOC文本特征提取. MOOC包含了标题和视频字幕等文本信息,并通过BERT编码器获得其字符级的文本嵌入表示,接着采用多头注意力机制从不同语义空间捕获局部特征间的依赖关系,并输出最终文本特征的嵌入表示.
2) 学习者知识偏好动态建模. 该模块将学习者学习序列的每个交互信息作为输入,包含经特征提取后得到的MOOC字幕文本的嵌入表示和当前MOOC的完成率,MOOC标题信息经特征提取后与外部知识存储矩阵计算当前MOOC知识点与其他MOOC知识点的关联性,接着通过LSTM输出每次学习交互后学习者的知识偏好状态.
3) MOOC推荐. 该模块将结合当前时刻学习者的知识偏好状态以及经注意力机制提取的MOOC视频之间的相关性,从未学习的MOOC资源中召回N个MOOC视频.
3.2. MOOC文本特征提取
MOOC中含有大量文本信息,包括标题、字幕等,通过这些信息能从文本的角度来理解视频的内容. 本文首先将BERT作为编码器,获取MOOC的标题和字幕文本的词向量. 与传统的Word2vec[31]词向量表示方法不同,BERT采用的双向Transformer结构包含位置编码,因此能够考虑上下文语义信息. 给定MOOC标题文本title = {x1,x2,…,xn}和字幕文本caption = {y1,y2,…,ym},通过BERT预训练模型得到标题矩阵{\boldsymbol{O}}_t 和字幕文本矩阵{\boldsymbol{O}}_c 表示:
\boldsymbol{O}_{\mathrm{t}}=(\boldsymbol{T}_1,\boldsymbol{T}_2,\dots,\boldsymbol{T}_n)==B_{\mathrm{B}\mathrm{E}\mathrm{R}\mathrm{T}}\left(\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_n\right), (1) \boldsymbol{O}_{\boldsymbol{c}}=(\boldsymbol{C}_1,\boldsymbol{C}_2,\dots,\boldsymbol{C}_m)=B_{\mathrm{B}\mathrm{E}\mathrm{R}\mathrm{T}}\left(\boldsymbol{y}_1,\boldsymbol{y}_2,\dots,\boldsymbol{y}_m\right), (2) 其中 {\boldsymbol{O}}_{\mathrm{t}}\in {\mathbb{R}}^{n\times d} , {\boldsymbol{O}}_{\mathrm{c}}\in {\mathbb{R}}^{m\times d} ,n,m分别为MOOC标题和字幕文本的长度, {\boldsymbol{T}}_{i} , {\boldsymbol{C}}_{j} 分别表示MOOC标题和字幕文本的第i和j个词的向量表示,为向量维度大小d = 768. 接着使用 {\boldsymbol{O}}_{\mathrm{c}} 在不同语义空间的文本信息:
{{\boldsymbol{head}}}_{i}=Softmax\left(\frac{\left({{\boldsymbol{W}}_{i}^{\mathrm{Q}}\boldsymbol{O}}_{\mathrm{c}}\right)\left({\boldsymbol{W}}_{i}^{\mathrm{K}}{\boldsymbol{O}}_{\mathrm{c}}\right)}{\sqrt{d}}\right)\left({\boldsymbol{W}}_{i}^{\mathrm{V}}{\boldsymbol{O}}_{\mathrm{c}}\right), (3) M=Concat\left(\boldsymbol{head}_1,\boldsymbol{head}_2,\dots,\boldsymbol{head}_i\right)\boldsymbol{W}_0, (4) 其中 {\boldsymbol{head}}_{i} 为第i个头的自注意力, {\boldsymbol{W}}_{i}^{\mathrm{Q}} , {\boldsymbol{W}}_{i}^{\mathrm{K}} , {\boldsymbol{W}}_{i}^{\mathrm{V}} 为第i头自注意力的权重矩阵,接着将所有自注意力矩阵拼接在一起,最后乘以一个权重矩阵 {\boldsymbol{W}}_{0} 得到多头注意力M.
3.3. 学习者知识偏好动态建模
学习者知识偏好动态模块的目标是通过建模学习者的学习序列,进而追踪学习者知识偏好状态随着学习过程的动态变化. 这个过程考虑了3个方面的输入对学习者知识偏好的影响:1)当前MOOC标题的语义信息 {\boldsymbol{O}}_{\mathrm{t}} ;2)当前MOOC视频字幕经多头注意力捕获的语义信息M;3)当前MOOC学习的完成率.
通常MOOC标题包含了当前学习内容的知识点信息,为了量化完成当前MOOC后对不同知识点的影响,在建模过程引入了外部存储矩阵 {\boldsymbol{M}}^{k} ,首先将当前MOOC标题语义信息 {\boldsymbol{O}}_{\mathrm{t}} 和知识空间矩阵 {\boldsymbol{M}}^{k} 的每一列相乘得到权重 {\boldsymbol{w}}_{\mathrm{t}} :
{\boldsymbol{w}}_{\mathrm{t}}^{i}=Softmax\left({\boldsymbol{O}}_{\mathrm{t}}^{\mathrm{T}}{\boldsymbol{M}}_{i}^{k}\right) = \frac{\left.\mathrm{e}\mathrm{x}\mathrm{p}({\boldsymbol{O}}_{\mathrm{t}}^{\mathrm{T}}{\boldsymbol{M}}_{i}^{k}\right)}{\sum\limits_{i=1}^{k}\mathrm{e}\mathrm{x}\mathrm{p}\left({\boldsymbol{O}}_{\mathrm{t}}^{\mathrm{T}}{\boldsymbol{M}}_{i}^{k}\right)}, (5) {\boldsymbol{w}}_{\mathrm{t}}^{i} 表示当前MOOC视频与知识空间所有知识点的相关度, {\boldsymbol{M}}^{k} 存储的是MOOC标题语义的嵌入表示. 接着,为了量化不同MOOC视频的完成率对学习者知识偏好的影响,采用了一种合并的方式将完成率与当前MOOC视频字幕文本语义的向量聚合. 具体而言,首先将学习者对当前MOOC视频的观看完成率 {r}_{i} 扩展为与字幕语义向量相同维度的全“ {r}_{i} ”的向量,然后与 {\boldsymbol{M}}_{i} 拼接得到维度为2d的向量 \boldsymbol{x}_i :
{r}_{i}=\frac{{t}_{i}^{\mathrm{e}}-{t}_{i}^{\mathrm{s}}}{{d}_{i}}, (6) {\check{\boldsymbol{r}}}_{i}={({r}_{i},{r}_{i},… ,{r}_{i})}^{d}, (7) {\boldsymbol{x}}_{i}={{(\boldsymbol{M}}_{i}\oplus{\check{\boldsymbol{r}}}_{i})}^{2d}, (8) 接着,当前时刻学习者的知识偏好状态可以表示为
{\boldsymbol{H}}_{i}^{j}={\boldsymbol{w}}_{i}^{j}{\boldsymbol{x}}_{i}, (9) 其中 {\boldsymbol{H}}_{i}^{j} 为学习者对知识空间中第j个知识的偏好状态,其含义为学习者完成当前MOOC后对不同知识点的偏好影响由当前MOOC与其他知识点的关联度决定,并将关联度映射到知识偏好状态矩阵 {\boldsymbol{H}}_{i} 的第j列. 接着,在时刻t,模型采用LSTM对学习者的每一个知识点的学习偏好进行更新,即 {\boldsymbol{H}}_{t}^{i}= {L}_{\mathrm{L}\mathrm{S}\mathrm{T}\mathrm{M}} ({\boldsymbol{M}}_{t}^{v}\left(i\right), {\boldsymbol{H}}_{t-1}^{i}) ,具体计算过程为:
\begin{array}{c}\boldsymbol{i}_t=\sigma\left(\boldsymbol{Z}_{\boldsymbol{x}\boldsymbol{i}}\boldsymbol{x}_t+\boldsymbol{Z}_{\boldsymbol{h}\boldsymbol{i}}\boldsymbol{H}_{t-1}^i+\boldsymbol{b}_{\boldsymbol{i}}\right),\end{array} (10) \begin{array}{c}\boldsymbol{f}_t=\sigma\left(\boldsymbol{Z}_{\boldsymbol{x}\boldsymbol{f}}\boldsymbol{x}_t+\boldsymbol{Z}_{\boldsymbol{h}\boldsymbol{f}}\boldsymbol{H}_{t-1}^i+\boldsymbol{b}_{\boldsymbol{f}}\right),\end{array} (11) \begin{array}{c}\boldsymbol{o}_t=\sigma\left(\boldsymbol{Z}_{\boldsymbol{x}\boldsymbol{o}}\boldsymbol{x}_t+\boldsymbol{Z}_{\boldsymbol{h}\boldsymbol{o}}\boldsymbol{H}_{t-1}^i+\boldsymbol{b}_{\boldsymbol{o}}\right),\end{array} (12) \begin{array}{c}\boldsymbol{c}_t=\boldsymbol{f}_t\cdot\boldsymbol{c}_{t-1}+\boldsymbol{i}_t\cdot\end{array}\mathrm{tanh}\left(\boldsymbol{Z}_{\boldsymbol{xc}}\boldsymbol{x}_t+\boldsymbol{Z}_{\boldsymbol{h\boldsymbol{c}}}\boldsymbol{H}_{t-1}^i+\boldsymbol{b}_{\boldsymbol{c}}\right), (13) \begin{array}{c}{\boldsymbol{H}}_{t}^{i}={{{\boldsymbol{o}}}}_{t}\cdot {{\mathrm{tanh}}}\left({\boldsymbol{c}}_{t}\right),\end{array} (14) 其中 {\boldsymbol{Z}}_{x*} , {\boldsymbol{Z}}_{h*} , {\boldsymbol{b}}_{*} 是网络参数, {\boldsymbol{H}}_{t}^{i} 为学习者在时刻t对第i个知识点的偏好状态. LSTM是循环神经网络的一种变体,对于处理长序列依赖问题有出色的性能,与RNN不同,LSTM设置了输入门、遗忘门、输出门来控制单元状态在每一个时刻的更新.
3.4. MOOC推荐
MOOC推荐过程是从m个未学习的MOOC视频中召回n个当前学习者可能感兴趣的MOOC视频,该过程采用注意力机制的方法计算学习者未学习的MOOC视频与过去学习的MOOC视频的相似度,并根据学习者当前知识偏好状态 {\boldsymbol{H}}_{t} 召回n个MOOC视频. 具体而言,学习者未学习的MOOC与过去学习的MOOC的相似度由它们之间的语义余弦相似度刻画:
{\boldsymbol{\beta }}_{ij}=\mathrm{cos}\left({\boldsymbol{M}}_{i},{\boldsymbol{M}}_{j}\right), (15) {\boldsymbol{\beta }}_{ij} 为MOOC视频字幕语义 {\boldsymbol{M}}_{i} 与 {\boldsymbol{M}}_{j} 的相似度,接着,结合学习者当前的知识偏好状态 {\boldsymbol{H}}_{t} 计算第i个MOOC视频被召回的概率:
{\boldsymbol{y}}_{t+1}=ReLU\left({\boldsymbol{W}}_{1}\cdot \left[{\sum \limits_{j=1}^{K}}{\boldsymbol{\beta }}_{ij}{\boldsymbol{H}}_{t}^{j}\oplus{\boldsymbol{M}}_{i}\right]+{\boldsymbol{b}}_{1}\right), (16) {\boldsymbol{p}}_{t+1}=Sigmoid\left({\boldsymbol{W}}_{2}\cdot {\boldsymbol{y}}_{t+1}+{\boldsymbol{b}}_{2}\right), (17) 其中 {\boldsymbol{y}}_{t+1} 为预测信息的表征, {\boldsymbol{W}}_{1} , {\boldsymbol{W}}_{2} , {\boldsymbol{b}}_{1} , {\boldsymbol{b}}_{2} 为模型参数, {\boldsymbol{p}}_{t+1} 表示第i个MOOC视频被召回的概率, {\boldsymbol{p}}_{t+1} 值越大,代表学习者对其感兴趣的程度越大,最后通过取 {\boldsymbol{p}}_{t+1} 前n个最大值作为推荐结果.
3.5. 目标函数
模型的目标函数是基于学生MOOC学习序列的负对数似然函数:
\begin{array}{c}{\mathcal{L}}=-\displaystyle\sum\limits _{t=1}^{T}\left({\check{s}}_{t}\mathrm{l}\mathrm{n}{r}_{t}+\left(1-{\check{s}}_{t}\right)\mathrm{ln}\left(1-{s}_{t}\right)\right),\end{array} (18) 其中 {\check{s}}_{t} 为样本的真实得分,样本与学习者有交互记录时得分为1,否则得分为0; {s}_{t} 为样本预测概率. 目标函数通过随机梯度下降法最小化预测概率和真实标签结果的交叉熵损失更新模型中的参数.
4. 实验与结果
本节介绍了实验所采用的数据集、对比模型以及评价模型性能的指标. 然后给出了实验结果以及对实验结果的分析,包括模型损失下降过程和不同注意力头数对模型性能的影响分析. 最后,给出了追踪学习者知识偏好状态的变化过程和MOOC视频关联性的可视化分析.
4.1. 数据集、对比模型和评估方法
本文实验选用的数据集MOOCCube[32]为中国最大的 MOOC 平台之一的学堂在线收集的在线学习数据集,该数据集包含了199199名学习者在706门真实在线课程的选课和视频观看记录,这些课程涉及38181个教学视频和114563个知识概念.
为了验证MOOCDR-VSI模型的有效性,本文选取了9个典型的基准方法的对比实验结果.
1) MLP[33]. 该方法利用多层感知器来学习用户-项目交互的协同过滤方法.
2) FISM[9]. 该方法基于内容的方法来生成Top N推荐,该方法将项目相似度矩阵学习作为2个低维潜在因子矩阵的乘积,缓解了模型的性能由于数据稀疏的增加而减低的问题.
3) NAIS[34]. 该方法基于内容协同过滤的神经注意项目相似性模型,通过注意力网络区分用户交互记录中哪些历史项目对预测更重要.
4) NARM[35]. 该方法基于一种具有编解码结构的神经注意推荐机,通过在RNN中加入注意机制来捕获当前会话中用户的连续行为和主要目的.
5) metapath2vec[36]. 该方法是一种异构网络中元路径引导的随机行走策略,能够捕获不同类型节点和关系的结构和语义关联.
6) ACKRec[28]. 该方法是一种基于图神经网络的注意卷积网络知识推荐器,通过构建一个异构信息网络,以捕获不同类型实体之间的有效语义关系,并将其纳入表示学习过程.
7) HRL[13]. 该方法是一种基于分层强化学习的课程推荐方法,其在NAIS模型的基础上改进以去除噪声数据.
8) 文献[25]方法. 该方法是一种基于多级注意力的方法,通过学习记录注意、单词级注意、句子级注意等探索了多个非结构化信息.
9) DARL[37]. 该方法是一种基于动态注意和分层强化学习的课程推荐方法,在每次学习交互记录中自适应更新课程的注意力权重.
参照大部分MOOC推荐模型的研究工作,本文实验采用命中率(hit radio,HR)和归一化折损累计增益(normalize discount cumulative gain,NDCG)作为评估指标.HR是评价召回准确率的指标,用于衡量成功推荐给学习者的项目数所占的百分比,计算公式为:
\begin{array}{c}HR@K=\dfrac{{\sum\limits_{i=1}^{U}}{Hits}_{u}@K}{\left|GT\right|},\end{array} (19) 其中GT表示所有学习者测试集长度之和, {Hits}_{u}@K 表示测试集中第u个学习者的推荐列表中的项目数.NDCG是衡量精确度的指标,其值越大,表示推荐准确的结果排名越靠前,计算公式为:
NDCG@K=\frac{1}{U}\sum _{u=1}^{U}\frac{{DCG}_{u}@K}{{IDCG}_{u}@K}, (20) {DCG}_{u}@K=\sum _{i=1}^{K}\dfrac{{2}^{{rel}_{u}^{\;i}}-1}{\mathrm{l}\mathrm{b}\left(i+1\right)}, (21) 其中 {rel}_{u}^{i} 为排名在第i位的推荐结果与第u个用户的匹配度,如果命中测试集中的课程则 {rel}_{u}^{i} =1,否则 {rel}_{u}^{i} =0, {IDCG}_{u}@K 为 {DCG}_{u}@K 的理想值,即可能取得的最大值.
4.2 实验结果与分析
本文实验模型参数为:MOOC视频标题文本字符长度title_length=10,该长度为标题预处理后文本的最大长度,BERT隐藏单元数hidden_num=768(即词向量维度大小),BERT处理每个MOOC字幕文本长度text_length=510,多头注意力机制的头数num_head=8,batch_size=128,learningrate=0.001,dropoutratio=0.2.实验将数据集80%的数据划分为训练集与验证集,20%的数据划分为测试集. 图2展示了MOOCDR-VSI方法的损失曲线. 由图2可知,MOOCDR-VSI经过46轮的迭代后基本达到收敛,RMSE(root mean square error)稳定在0.89附近.
实验结果如表1所示,MOOCDR-VSI在HR@5,HR@10,NDCG@5,NDCG@10,NDCG@20指标上取得了最佳的性能,比目前最优方法分别提高了2.35%,2.79%,0.69%,2.2%,3.32%,实验结果证明了MOOCDR-VSI的有效性.图3展示了HR@K和NDCG@K随着迭代次数的变化,第47次左右迭代后趋于稳定,达到了最优效果.
表 1 实验结果与性能对比Table 1. Experimental Results and Performance Comparison方法 HR@1 HR@5 HR@10 HR@20 NDCG@5 NDCG@10 NDCG@20 MLP 0.0660 0.3680 0.5899 0.7270 0.2231 0.2926 0.3441 FM 0.2272 0.4057 0.5867 0.7644 0.3655 0.3968 0.3930 FISM 0.1410 0.5849 0.7489 0.7610 0.3760 0.4203 0.4279 NAIS 0.078 0.4112 0.6624 0.8649 0.2392 0.3201 0.3793 NARM 0.1382 0.4437 0.6215 0.7475 0.2364 0.3172 0.3821 metapath2vec 0.2476 0.5983 0.7598 0.8689 0.4194 0.4422 0.4602 HRL 0.1638 0.6203 0.7670 0.8802 0.4564 0.5127 0.5405 文献[25] 0.2012 0.6585 0.7884 0.9008 0.5116 0.5536 0.5821 ACKRec 0.2645 0.6470 0.8122 0.9255 0.4635 0.5170 0.5459 DARL 0.1968 0.6715 0.8261 0.9406 0.4948 0.5451 0.5785 MOOCDR-VSI(本文) 0.2486 0.6948 0.8540 0.9397 0.5185 0.5671 0.6153 注: 加粗数字为在对应指标上获得的最优值. 本文采用了多头注意力从不同语义空间的文本信息提取特征,为了研究不同的注意力头数num_head对模型性能的影响,实验分别取num_head = 1, 2, 4, 8, 12进行实验,不同头数的注意力对模型的影响如图4所示. 图4中,当num_head = 8时,模型获得最佳效果,当num_head = 1时,此时的多头注意机制为自注意机制,随着注意力头数的增加,MOOCDR-VSI性能取得一定提升,这验证了多头注意力机制能够捕捉多方面的信息,深度挖掘MOOC视频的个性信息. 但当继续增加多头注意力的头数时,导致了MOOCDR-VSI性能不升反降,这是由于过多的注意力头数可能会引入噪声信息从而误导模型,使得模型性能下降.
另外,MOOCDR-VSI模型能够动态跟踪学习者随学习不断变化的知识偏好和需求,为了证明模型追踪学生知识偏好状态的合理性和可解释性,我们对同一个学习者在6个知识点的偏好状态进行可视化追踪,如图5所示,其中深颜色表示对应知识点有较高的偏好状态. 可以看出,该学习者在完成第5次学习后,可能对“K_含水层_地质学”和“K_孔隙比_地质学”有较高的兴趣;当完成第15次学习后,该次学习内容可能与“K_透水性_地质学”和“K_孔隙比_地质学”等知识点具有较高的关联性,因此捕捉到学习者可能有学习相应知识点的倾向,通过不断追踪学习者变化的学习偏好和需求能够使模型更加精准地推荐相关MOOC资源,并且使得模型能够提供学习者知识偏好层面的解释.
除此之外,MOOCDR-VSI具有较好的扩展学习者兴趣的能力,图6展示了基于学习者的学习记录的MOOC视频推荐结果,纵轴为一名学习者已学习过的MOOC视频,横轴为向该学习者推荐的Top 10的MOOC视频. 从学习者的历史学习记录来看,该学习者可能对“化学”“基因”等学习内容感兴趣,在推荐结果中给出了“编码”“继承”等非“化学”学科的相关延伸知识,能够在一定程度上缓解“蚕茧效应”造成的学习者视野日益狭隘等问题,体现了推荐结果的拓展性和多样性. 另外,模型通过计算MOOC字幕文本之间的特征相似性而获得MOOC内容语义层面的相关性,这种关联性可作为向学习者推荐 MOOC 的依赖信息. 图 6 中格子颜色越深表示课程之间的相关性越高,如“K_氨基酸_化学”与“K_核酸_化学”可能在内容上有较高的相关性,这种相关性可能体现在涉及的知识点或有语义层面的共性特征,这些自动学习到的结果可以作为教育领域的数据补充.
5. 结束语
本文提出了一种融合字幕信息的MOOC推荐模型对学习者的知识偏好状态进行动态追踪,进而为学习者推荐其可能感兴趣的MOOC视频资源. 首先通过BERT编码器获得MOOC视频的文本语义信息的表征;接着采用多头注意力机制提取到局部语义特征的关联性;其次采用基于LSTM的网络架构捕获学习者随着学习不断变化的知识偏好状态;然后通过挖掘MOOC视频之间的字幕文本语义关联性获得MOOC之间的相关性;最后结合当前学习者的知识偏好状态召回Top N个学习者可能感兴趣的MOOC视频. 这种通过深入挖掘MOOC视频内容的方法能够获得词语级粒度的MOOC个性信息和共性信息,从而获得更加精准的推荐结果. 除此之外,通过追踪学习者知识偏好状态的变化过程和挖掘MOOC之间的关联性能够使模型提供知识层面的解释性.
后续工作我们将构建的知识图谱引入多种实体之间,如学生与课程、课程与教师、课程与知识点等的关系作为MOOC推荐约束的方法. 实体之间并不是相互独立而是彼此关联,例如,不同的教师授课具有不同的风格,不同的学习者对不同教师的授课风格具有不同的偏好,因此不同实体之间具有一定的依赖关系,将知识图谱等辅助信息引入推荐模型获得不同实体之间的内在关联,可以作为MOOC推荐任务的约束条件.
作者贡献声明:吴水秀负责模型的搭建与算法的设计;罗贤增和钟茂生负责模型实现与论文的撰写;吴如萍和罗玮负责实验的可行性分析.
-
表 1 实验结果与性能对比
Table 1 Experimental Results and Performance Comparison
方法 HR@1 HR@5 HR@10 HR@20 NDCG@5 NDCG@10 NDCG@20 MLP 0.0660 0.3680 0.5899 0.7270 0.2231 0.2926 0.3441 FM 0.2272 0.4057 0.5867 0.7644 0.3655 0.3968 0.3930 FISM 0.1410 0.5849 0.7489 0.7610 0.3760 0.4203 0.4279 NAIS 0.078 0.4112 0.6624 0.8649 0.2392 0.3201 0.3793 NARM 0.1382 0.4437 0.6215 0.7475 0.2364 0.3172 0.3821 metapath2vec 0.2476 0.5983 0.7598 0.8689 0.4194 0.4422 0.4602 HRL 0.1638 0.6203 0.7670 0.8802 0.4564 0.5127 0.5405 文献[25] 0.2012 0.6585 0.7884 0.9008 0.5116 0.5536 0.5821 ACKRec 0.2645 0.6470 0.8122 0.9255 0.4635 0.5170 0.5459 DARL 0.1968 0.6715 0.8261 0.9406 0.4948 0.5451 0.5785 MOOCDR-VSI(本文) 0.2486 0.6948 0.8540 0.9397 0.5185 0.5671 0.6153 注: 加粗数字为在对应指标上获得的最优值. -
[1] 教育部. 中共中央国务院印发《 中国教育现代化 2035》[J]. 新教育,2019(7):27−27 Ministry of Education. Central Committee of the Communist Party of China, The State Council Printed and Distributed China’s Educational Modernization 2035[J]. New Education, 2019(7): 27−27 (in Chinese)
[2] 雷朝滋. 教育信息化:从 1.0 走向 2.0——新时代我国教育信息化发展的走向与思路[J]. 华东师范大学学报:教育科学版,2018,36(1):98−103 Lei Chaozi. Educational informatization: From 1.0 to 2.0–The trend and thinking of China’s educational informatization development in the new era[J]. Journal of East China Normal University: Educational Science Edition, 2018, 36(1): 98−103 (in Chinese)
[3] Adamopoulos P. What makes a great MOOC? An interdisciplinary analysis of student retention in online courses[C/OL]// Proc of the 4th Int Conf on Information Systems. Milan: Association for Information Systems, 2013[2022-07-15]. https://xueshu.baidu.com/usercenter/paper/show? paperid=2aa8f571007f3c1d5d13776fc0495fe8&site=xueshu_se&hitarticle=1
[4] Schafer J B, Frankowski D, Herlocker J, et al. Collaborative Filtering Recommender Systems[M]. Berlin: Springer, 2007: 291−324
[5] Najafabadi M K, Mahrin M N. A systematic literature review on the state of research and practice of collaborative filtering technique and implicit feedback[J]. Artificial Intelligence Review, 2016, 45(2): 167−201 doi: 10.1007/s10462-015-9443-9
[6] Devlin J, Chang Mingwei, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint, arXiv:1810. 04805, 2018
[7] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735−1780 doi: 10.1162/neco.1997.9.8.1735
[8] Zhou Xiuze, Wu Shunxiang. Rating LDA model for collaborative filtering[J]. Knowledge-Based Systems, 2016, 110: 135−143 doi: 10.1016/j.knosys.2016.07.020
[9] Kabbur S, Ning Xia, Karypis G. FISM: Factored item similarity models for top-n recommender systems[C] //Proc of the 19th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2013: 659−667
[10] Zhang Jian, Sheng Jianan, Lu Jiawei, et al. UCPSO: A uniform initialized particle swarm optimization algorithm with cosine inertia weight[J/OL]. Computational Intelligence and Neuroscience, 2021[2022-07-16]. https://xueshu.baidu.com/usercenter/paper/show?paperid=1h100xp0pc5d0ag0hf1c0m20k0577642&site=xueshu_se&hitarticle=1
[11] Jian Meng, Jia Ting, Wu Lifa, et al. Content-based bipartite user-image correlation for image recommendation[J]. Neural Processing Letters, 2020, 52(2): 1445−1459 doi: 10.1007/s11063-020-10317-5
[12] Chang Peichan, Lin Chenghui, Chen Menghui. A hybrid course recommendation system by integrating collaborative filtering and artificial immune systems[J/OL]. Algorithms, 2016[2022-07-16].https://www.mdpi.com/1999-4893/9/3/47
[13] Zhang Jing, Hao Bowen, Chen Bo, et al. Hierarchical reinforcement learning for course recommendation in MOOCs[C] //Proc of the 33rd AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2019, 33(1): 435−442
[14] Wan Shanshan, Niu Zhendong. A hybrid e-learning recommendation approach based on learners’ influence propagation[J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 32(5): 827−840
[15] Wang Xuebin, Zhu Zhengzhou, Yu Jiaqi, et al. A learning resource recommendation algorithm based on online learning sequential behavior[J]. International Journal of Wavelets, Multiresolution and Information Processing, 2018, 17(2): 1940001
[16] Jamali M, Ester M. A matrix factorization technique with trust propagation for recommendation in social networks[C] //Proc of the 4th ACM Conf on Recommender Systems. New York: ACM, 2010: 135−142
[17] Wang Hongwei, Zhang Fuzheng, Hou Min, et al. Shine: Signed heterogeneous information network embedding for sentiment link prediction[C]//Proc of the 18th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2018: 592−600
[18] Sun Yu, Yuan Nijing, Xie Xing, et al. Collaborative intent prediction with real-time contextual data[J]. ACM Transactions on Information Systems, 2017, 35(4): 1−33
[19] Chen Wei, Niu Zhendong, Zhao Xiangyu, et al. A hybrid recommendation algorithm adapted in e-learning environments[J]. World Wide Web, 2014, 17(2): 271−284 doi: 10.1007/s11280-012-0187-z
[20] Li Hui, Li Haining, Zhang Shu, et al. Intelligent learning system based on personalized recommendation technology[J]. Neural Computing and Applications, 2019, 31(9): 4455−4462 doi: 10.1007/s00521-018-3510-5
[21] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C] // Proc of the 14th IEEE Int Conf on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013: 6645−6649
[22] Hu Ze, Zhang Zhan, Yang Haiqing, et al. A deep learning approach for predicting the quality of online health expert question-answering services[J]. Journal of Biomedical Informatics, 2017, 71: 241−253 doi: 10.1016/j.jbi.2017.06.012
[23] Zhou Yuwen, Huang Changqin, Hu Qintai, et al. Personalized learning full-path recommendation model based on LSTM neural networks[J]. Information Sciences, 2018, 444: 135−152 doi: 10.1016/j.ins.2018.02.053
[24] Li Haojun, Zhang Zhen, Guo Haidong, et al. Personalized learning resource recommendation from the perspective of deep learning [J]. Modern Distance Education Research, 2019[2022-07-16].https://www.sciencedirect.com/science/article/abs/pii/S0020025518301397
[25] Fan Ju, Jiang Yuanchun, Liu Yezheng, et al. Interpretable MOOC recommendation: A multi-attention network for personalized learning behavior analysis[J]. Internet Research, 2021, 34(5): 1934−1947
[26] Wang Jingjing, Xie Haoran, Wang Fu, et al. Top-N personalized recommendation with graph neural networks in MOOCs[J/OL]. Computers and Education: Artificial Intelligence, 2021[2022-07-16]. https://www.sciencedirect.com/science/article/pii/S2666920X21000047
[27] Xu Wei, Zhou Yuhan. Course video recommendation with multimodal information in online learning platforms: A deep learning framework[J]. British Journal of Educational Technology, 2020, 51(5): 1734−1747 doi: 10.1111/bjet.12951
[28] Gong Jibing, Wang Shen, Wang Jinlong, et al. Attentional graph convolutional networks for knowledge concept recommendation in MOOCs in a heterogeneous view[C] //Proc of the 43rd Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2020: 79−88
[29] Sun Yizhou, Han Jiawei, Zhao Peixaing, et al. Rankclus: Integrating clustering with ranking for heterogeneous information network analysis[C] //Proc of the 12th Int Conf on Extending Database Technology: Advances in Database Technology. New York: ACM, 2009: 565−57
[30] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C] //Proc of the 31st Advances in Neural Information Processing Systems. Cambridge, MA: MIT, 2017: 5998−6008
[31] Mikolov T, Chen Kai, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint, arXiv: 1301. 3781, 2013
[32] MOOCData. MOOCCube[DB/OL]. 2020 [2022-03-18]. http://moocddata.cn/data/MOOCCube
[33] He Xiangnan, Liao Lizi, Zhang Hanwang, et al. Neural collaborative filtering[C] //Proc of the 26th Int Conf on World Wide Web. New York: ACM, 2017: 173−182
[34] He Xiangnan, He Zhankui, Song Jingkuan, et al. NAIS: Neural attentive item similarity model for recommendation[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(12): 2354−2366 doi: 10.1109/TKDE.2018.2831682
[35] Li Jing, Ren Pengjie, Chen Zhumin, et al. Neural attentive session-based recommendation[C] //Proc of the 17th ACM on Conf on Information and Knowledge Management. New York: ACM, 2017: 1419−1428
[36] Dong Yuxiao, Chawla N V, Swami A. metapath2vec: Scalable representation learning for heterogeneous networks[C] //Proc of the 23rd ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2017: 135−144
[37] Lin Yuanguo, Feng Shibo, Lin Fan, et al. Adaptive course recommendation in MOOCs[J]. Knowledge-Based Systems, 2021, 224: 107085 doi: 10.1016/j.knosys.2021.107085
-
期刊类型引用(1)
1. 周洋涛,褚华,朱非非,李祥铭,韩子涵,张帅. 基于深度学习的个性化学习资源推荐综述. 计算机科学. 2024(10): 17-32 . 百度学术
其他类型引用(1)