教育是立国之本,强国之基.随着互联网技术的快速发展,收集教育相关数据变得更为方便快捷,对教育大数据的分析、挖掘和应用是教育发展的重要需求和必然趋势[1].学生成绩预测,又称为学生学业表现预测,是指利用学生的相关信息预测其在未来的学业表现[2],包括课程成绩、学期末综合成绩以及是否存在退学风险等.借助学生成绩预测技术,教师可以清晰洞察学生的学习状态与质量,并以此为基础开展差异化教学,满足学生的个性化学习需求,真正达到“以评促学”的目的.此外,学生成绩预测技术也有助于高校开展学业预警工作,特别是根据对学生成绩的实时预测结果建立动态的预警机制,及时发现可能无法正常完成学业的学生,引导他们走出困境,顺利实现人才培养的目标.因此,无论是从提升教学效果还是从强化学生管理的角度来看,学生成绩预测技术都具有重要的研究价值和实践意义.
近年来,学生成绩预测受到国内外学者的广泛关注,涌现出了一系列卓有成效的研究工作.早期的研究大多集中在教育学和心理学领域,试图探索影响学生学业表现的关键因素,例如性格构成、学习动机、家庭环境等.这类研究主要依据部分学生提供的自我评估报告,在样本规模、时效性等方面存在较大的缺陷,所得出的结论也易受到受访个体主观意识的影响.部分研究采用学生在学习过程中的表现信息,例如出勤情况[3]、作业完成情况[4]、阶段性测试成绩[5]等,对学生的课程最终成绩进行预测.由于课程学习过程的表现信息与最终成绩存在较强的关联性,所得模型往往可以取得较好的预测性能.但是,此类研究需要课程开展之后一段时间方可进行,因而无法预测学生在课程初始阶段的学习表现,导致预测结果存在一定的滞后性[6].
值得注意的是,随着我国高校信息化建设的持续推进,大学校园网络认证系统越来越完善,学生可以通过个人电脑或者移动设备在校园内方便地接入校园网络,各高校也逐步积累了丰富的学生校园上网行为数据.教育心理学领域的研究已经表明:人的外在行为表现和学习能力密切相关.受此启发,我们认为不同的上网行为可能也在一定程度上反映了学生不同的学习状态.例如,课余时间频繁访问教育类型网站表明学生持续保持学习状态,因而在考试中更有可能取得优异的成绩.因此,本文提出以校园上网行为感知为切入点,对学生成绩预测问题展开研究,通过分析挖掘学生的上网行为日志,构建有效的学生行为特征,进而预测学生未来的学业表现.
然而,在实现上述目标时仍面临着诸多挑战:
1) 学生的上网行为通常按照时间顺序被记录,因而对上网行为进行分析可以被看作是一个典型的行为序列建模问题[7].但是,上网行为往往持续发生,导致行为序列的长度很大,传统的序列分析方法难以对长序列数据进行有效分析.
2) 现有的相关工作[8-9]需要通过特征工程对学生行为序列进行处理并提取特征,特征的可靠性高度依赖于人工经验和领域先验知识,设计合理有效的序列特征具有很高的难度.
3) 由于很难准确地预测学生的具体成绩分值,现有方法大多关注于预测学生在成绩上的相对排名.但是,对于学生数量有限的专业,如何在训练时有效缓解数据稀疏性问题是一个亟待解决的问题.
针对上述问题,本文提出了一种双层自注意力网络(dual-level self-attention network, DEAN)来建模学生的上网行为特征.受到近年来自注意力机制在诸多序列建模任务上的良好表现[10],该深度学习模型可以端到端地学习学生上网行为特征,避免引入特征工程.具体来说,首先利用低层级的自注意力层来建模学生一天内不同时间段的上网行为,构建局部上网行为特征;进一步地,利用高层级的自注意力层将学生在不同日期的局部上网行为进行融合,最终构建全局上网行为特征.相比于传统的循环神经网络等方法[11],自注意力网络被证明可以更为有效地捕获序列数据之间的长时依赖关系[10],而本文进一步引入级联式架构来分别提取学生的局部上网行为特征和全局上网行为特征,从而可以更好地解决长序列数据建模问题.
此外,本文引入多任务学习策略[12].通过共享双层自注意力层的模型参数,实现在统一的框架下同时训练面向不同专业的学生成绩预测模型,从而有效缓解部分专业训练样本不足的问题.最后,设计了一个基于学生排名差的代价敏感损失函数(cost-sensitive loss)[13],进一步提升了预测方法的准确性.
本文工作的主要贡献有3个方面:
1) 与传统方法基于学生历史学习表现或校园一卡通刷卡记录等数据进行研究的思路不同,本文从校园上网行为感知的角度来进行学生成绩预测,为后续研究提供了新思路、新视角.
2) 构建了一个端到端的双层自注意力网络来有效建模学生的上网行为序列数据,进而预测学生成绩;同时,引入多任务学习策略将面向不同专业的学生成绩预测问题进行关联,并设计了基于学生排名差的代价敏感损失函数进一步提高预测性能.
3) 收集构建了一个真实的校园上网行为数据集,并将学生上网行为数据和成绩数据相关联.在该数据上的实验结果表明,相比于传统的序列分析方法,本文所提出的方法具有更好的性能.
学生成绩是衡量教育质量和教学水平的关键指标.学生成绩预测研究对于实现个性化教学、提升教学质量具有重要意义,因而近年来受到研究人员的广泛关注.
面向在线教学场景,Ren等人[14]基于学生在慕课平台上的视频观看时长、每日学习的模块数目以及完成测验的次数等信息,采用多元线性回归模型预测学生在课程上的最终成绩.Jiang等人[15]根据学生开课后第一周的学习行为来预测他们最终的课程成绩等级.He等人[16]根据学生每周的课程参与情况,采用迁移学习方法在每一周预测学生中途放弃课程学习的可能性.Macfadyen等人[17]考虑学生在课程讨论区中的发帖数量和评测完成情况,分别利用回归和分类方法预测学生最终的成绩分值以及是否存在不及格的风险.蒋卓轩等人[18]针对中文慕课中学习行为的特点将学生分类,并选择开课后前几周的学习行为特征,采用线性分类器预测学生是否能顺利获得课程结业证书.Li等人[19]将不同的在线学习行为看作学生的多视图特征,利用半监督多视图学习算法预测学生是否能完成课程.Feng等人[20]基于学习行为对学生进行聚类,并利用卷积神经网络融合学生个人学习行为、同一类别中的他人学习行为和课程信息来预测学生是否能完成课程.
在线教育更加需要个性化、多样性以及适应性的学习.在学生数量庞大的情况下,跟踪和了解每个学生的学习情况对于老师来说困难很大.因此,知识追踪(knowledge tracing, KT)近年来受到越来越多的关注.知识追踪的流行算法有贝叶斯知识追踪(Bayesian knowledge tracing, BKT)[21]、深度知识追踪(deep knowledge tracing, DKT)[22]等.当学生完成一个练习后,模型会动态地更新学生的知识状态.从这个角度来看,知识追踪的基本思想与典型的序列行为挖掘[23]相似,基于学生相关的静态数据,如考试数据[24]等,发现和建模学生的潜在特征或技能熟练程度.Yu等人[25]收集了学生的练习记录和习题信息,LSTM结合注意力机制来关注学生对于类似题目的训练情况.Chen等人[26]提出的KPT(knowledge proficiency tracing)模型通过加入教育先验知识提高了模型的可解释性.
面向校园教学场景,Huang等人[5]根据学生在前导课程和开课后过程性考核中的成绩,分别采用4种常见的机器学习模型来预测学生在期末考试中的成绩.类似地,Polyzou等人[27]根据学生的过往成绩,利用多种机器学习模型来尝试在学期开始之前对学生的课程期末成绩进行预测.黄建明[28]根据不同课程之间的依赖关系以及学生在先导课程上的成绩,提出了一种基于贝叶斯网络模型的课程成绩预测方法.Ma等人[29]在前期基于学生在已完成课程上的学习情况来预测其在新学期待开设课程上的成绩.针对学生已完成课程不一致的问题,采用多示例学习方法将学生表示为包含不同课程的集合;并且采用多标记学习方法同时建立多门待开设课程的预测模型,使得课程间的关联关系得到潜在的利用.
考虑到人的外在行为表现和学习能力密切相关,目前已有少量研究将校园行为信息引入到学生成绩预测中.例如Lian等人[30]根据学生的借书记录数据,利用矩阵分解算法为学生推荐书目并预测学生的平均学分绩点(grade point average, GPA)成绩.此外,该研究组通过统计不同学生在同一地点共同出现的次数来度量学生之间的关系亲密程度,并采用图传播算法预测学生的GPA等级[31].Cao等人[8]和Yao等人[32]根据校园一卡通刷卡记录数据,人为定义了代表学生校园行为规律性、学习勤奋程度和睡眠习惯的指标,并依据这些指标预测学生的GPA排名.
对于学生上网行为,Cao等人[33]统计分析了505名手机社交网站用户收集的日志数据,发现过度使用手机社交网站会对学业成绩产生负面影响.Chen等人[34]利用问卷调查的方法探讨了大学生网络使用情况与学业成绩、人际关系、社会心理适应及自我评价之间的关系,发现轻度上网用户的学业成绩以及对学习状况的满意度均优于重度上网用户.Xu等人[9]人为定义了上网时间、上网频率、上网流量和分时段上网时间4种特征,基于浅层机器学习的方法来预测学生成绩.
近些年,深度学习发展迅速,大家开始将深度学习与时间序列的传统模型结合起来,出现了一些新的时间序列建模方法.Salinas等人[35]在深度学习的基础上,提出了深度自回归模型(DeepAR)对时间序列数据进行深度学习,设计了基于LSTM(long short-term memory)的自回归RNN架构来解决概率预测问题.Vaswani等人[10]提出Transformer模型,该模型使用注意力机制来处理数据,Transformer模型可以使用任意的历史数据,更加适合具有长期依赖的数据.曹洪江等人[7]发现学生学习知识的时间是动态的,提出利用LSTM模型预测学生成绩.
如上所述,尽管文献[9,33-34]已经从校园上网行为感知的角度开展学生成绩预测工作,也有序列建模的方式来进行学生成绩预测,但在实现时都采用基本的统计分析方法或基于特征工程的浅层机器学习方法.与之相反,本文构建了一个端到端的双层自注意力网络来有效建模学生的上网行为序列.
为了支撑研究顺利开展,本文收集构建了学生校园上网行为数据集,并将学生的上网行为数据和成绩数据相关联.本节首先介绍数据集的收集过程,然后通过相关性分析来说明不同校园上网行为和学生成绩之间的关系.
随着教育信息化的发展,校园网络认证系统在各高校内迅速普及,每个学生海量的细粒度校园上网行为以一种完全隐蔽的方式被记录下来.学生通过学生ID可接入校园网,一旦学生发出网络访问请求,都会在网络日志文件中产生有良好格式和标识符的相应记录,包括一个加密的学生ID、请求的URL、请求的时间、应用类型、具体应用、源和目标IP地址,以及一些终端、服务器端口等信息.结合这些记录可以将学生ID和他们的上网行为进行一一对应.
本文中的学生校园上网行为数据来自于国内一所公立大学,经过网络中心批准,我们收集了7个不同的专业共519名学生80天内的校园上网行为数据,时间跨度是从2020-10-01—2020-12-19.我们对上网行为数据进行脱敏处理,用伪学号代替真实学号从而达到匿名化效果,把伪学号作为主键把其他不相关的字段删除,确保不会泄露网络用户的隐私.具体专业以及各专业学生数量如表1所示:
Table 1 Number of Students of Different Majors
表1 不同专业学生数量
专业学生数量学前教育179特殊教育72小学教育99会计29汉语言文学35电信工程41计算机科学与技术64合计519
在对学生的校园上网行为进行分析的过程中发现,学生日常访问站点的数量庞大,为了便于理解学生的上网行为模式,我们按照访问站点的类型对学生的上网行为进行了分类,分别将学生对于新闻、IT相关、教育、娱乐、Web应用、生活相关、经济、流媒体、社交、网购、导航、移动下载以及其他类别网站的访问作为13种不同类型的上网行为.考虑到绝大多数学生在夜晚休息期间较少进行上网操作,本文以1 h为单位时间段,仅统计学生在每天早上6点至晚上12点共计18个时间段内产生不同类型上网行为的频次.
对于成绩信息,我们通过学校教务系统获取了全部学生在2020—2021学年秋季学期末在不同课程上取得的考试成绩和课程学分,并进一步计算得到学生的GPA.直接对学生的绝对GPA分数进行估计是相当困难的,相比之下,更为可行的方式是预测学生在成绩上的相对排名[8,32].为此,本文按照GPA分数递减的顺序对学生进行排序,即成绩较好的学生被排在较靠前的位置.
在获取数据后,本文对学生的上网行为和成绩进行了相关性分析.图1(a)和图1(b)分别展示了各专业学生对于教育类型网站和娱乐类型网站的访问频率与他们成绩排名之间的相关关系散点图.
Fig. 1 The relationship between interview rating and score ranking
图1 访问频率与成绩排名之间的关系
为了方便展示,我们对网站访问频率进行了去均值化操作,即先统计出同一专业所有学生对某类型网站访问频率的平均值,再将该专业每一位学生对此类型网站访问频率减去平均值.同时,采用离差标准化(min-max normalization)方法将成绩排名变量变化到0~1之间,即成绩排名值越接近0,意味着成绩越好.从图上可以观察到,越频繁访问教育类型网站的学生通常会取得更好的成绩,而娱乐类型网站的访问频率却与学生成绩排名呈现明显的负相关关系.
其次,本文统计了任意两名学生在相同时间段产生同一种上网行为的频率,以及他们在学期末成绩排名上的差值.进一步地,将成绩排名差值相同的学生集合在一起,并统计集合内每一对学生相同上网行为频率的中位数.图2展示了学前教育专业的学生的成绩排名差值与相同上网行为频率中位数之间的相关关系散点图.这里依旧采用了离差标准化方法将2个变量的值变化到0~1之间.可以看到,成绩排名越接近的学生会更频繁地在同一时间段内产生相同类型的上网行为.这再次验证了,学生的校园上网行为和学习成绩之间具有密切的关联性.
Fig. 2 The relationship between the median of the same online behavior frequency and the ranking difference
图2 相同上网行为频率的中位数与排名差值之间的关系
为了有效利用学生上网行为数据来预测他们的成绩,本文构建了一个端到端的双层自注意力网络DEAN.同时,引入多任务学习机制,将面向不同专业学生的成绩预测问题进行关联,并设计了一个代价敏感损失函数来进一步提高方法的性能.
给定一个学生,本文收集该学生连续n天的上网行为记录,即学生对于不同类型网站的访问频率.具体来说,可以用矩阵Ai∈
l×m编码学生在第i天的上网行为,其中m表示一天中时间段的个数,l表示网站的类别个数.设![]()
l为Ai的第j列,其进一步表示了学生在第i天第j个时间段的上网行为,它的第k个元素
代表了学生在该时间段内对于第k种类型网站的访问频率.
遵循现有工作中的问题设定[8,32],本文旨在预测学生之间在成绩上的相对排名.形式上,方法需要找到一个映射函数f,该函数将一个学生的上网行为表示映射为一个成绩值,并根据该值对学生进行排序.设u和v代表2个学生,yuv∈{+1,-1}代表两者之间真实的成绩相对关系,即yuv=+1表示u的成绩优于v,yuv=-1表示u的成绩落后于v.在训练中,方法的目标是使得映射函数f的输出尽可能地满足学生u和v之间的成绩相对关系.也就是说,若yuv=+1,则应使得f(u)>f(v);否则,则应使得f(u)<f(v).在实现时,可以通过优化逐对铰链损失(pairwise hinge loss)来实现这一目标,即
(1)
其中S表示训练学生集合.
由于学生上网行为序列的长度很大,传统的序列建模方法难以对长序列数据进行有效分析.为了解决该问题,本文提出的DEAN包含一个由局部自注意力层和全局自注意力层构成的级联式架构,分层次建模学生一天内的局部上网行为特征和整个时间跨度上的全局上网行为特征. DEAN的框架图如图3所示:
Fig. 3 Architecture of the proposed DEAN
图3 本文提出的DEAN架构图
3.2.1 局部自注意力层
基于自注意力机制[10],局部自注意力层通过捕获同一天内不同时间段行为模式之间的依赖关系来对学生每天的行为特征进行建模.具体地,给定学生一天的校园上网行为
将其作为一个1到m时刻的序列输入局部自注意力层.自注意力机制不借助外部信息,通过融合其他时刻的数据来重构任一时刻数据.在这个过程中,通过为不同时刻的数据赋予不同权重以动态捕捉重点信息.形式上,给定时刻j的数据
时刻q的数据
相对于
的权重被定义为
(2)
(3)
其中,
是一个相似性函数,它分别利用变换矩阵Ql∈
d×l和Kl∈
d×l将
和
转换到一个潜在空间,并在潜在空间中计算它们的内积以度量两者的相似性,d是潜在空间的维度.最后,计算变换后的各时刻数据的加权和得到时刻j新的特征表
示![]()
(4)
其中,Vl∈
d×l是另一个需要学习的变换矩阵.
本文采用多头自注意力机制(multi-head self-attention mechanism),学习h组不同的变换矩阵Ql,Kl和Vl,即同时在h个潜在空间内进行特征变换,然后将结果进行拼接以实现信息互补,并通过参数矩阵Wl∈
hd×d与它们相乘,获取多头注意力机制的输出,计算过程:
(5)
其中
是第k头自注意力操作的结果,Concat代表拼接函数.在实现时,多头注意力操作通常被设计为一个残差结构[36],并将结果经过层归一化处理[37].最终,局部自注意力层将不同时刻的特征进行累加,得到学生在第i天的局部上网行为特征表示li:
(6)
3.2.2 全局自注意力层
全局自注意力层将学生在不同天的局部上网行为特征进行融合,从而捕获学生长期的全局行为特征.具体地,将局部自注意力层的输出l1,l2,…,ln作为本层的输入.为了区分不同天的上网行为对成绩影响的差异性,再次基于自注意力机制通过学习变换矩阵Qg,Kg和Vg,获得学生在每一天新的行为特征表示
该计算过程与式(2)~(4)类似.同样采用多头自注意力机制同时学习h组特征变换,并将结果进行拼接以获得更具表示能力的行为特征,即:
(7)
最终,经过求和操作整合不同天的上网行为特征以获得学生的全局行为特征表示:
(8)
其中,n为总天数.
3.2.3 预测层
给定学生u,DEAN将u的全局行为特征表示输入一个带有sigmoid激活函数的全连接层来预测u的成绩水平,即:
f(u)=σ(wpg+b),
(9)
其中,σ代表sigmoid函数,wp代表权重向量,b代表偏置量.
由于不同专业的课程设置以及考试内容不一致,不同专业的学生的成绩无法进行直接比较.本文将对各专业学生的成绩预测问题视为一项单独的任务,并引入多任务学习策略[38-39],在一个统一的框架中同时建模多个任务.遵循经典的硬参数共享(hard parameter sharing)策略[40],使不同任务共享局部自注意力层和全局自注意力层的模型参数,但分别构建各自的预测层以实现特定任务的成绩预测.通过多任务学习,DEAN可以利用不同任务之间潜在的关联性,而且可以缓解由于某些专业的学生人数较少而导致的训练样本不足的问题.
在模型实现过程中,我们发现模型可以较好地判断2个排名差距较大的学生之间的成绩相对关系,但对于排名较为接近的2个学生,在预测时却经常出现错误.本文将前者称为简单样本,将后者称为困难样本.直观上解释,困难样本会导致更大的样本损失和更多的反向传播梯度;相反,简单样本在训练过程中的贡献较小,在学习模型参数时作用有限.有鉴于此,本文进一步引入代价敏感学习(cost-sensitive learning)的思想[41],根据成绩排名差距为不同的学生样本对分配不同的权重.给定2个学生u和v,定义他们组成的学生样本对的权重:
(10)
其中,r(u)和r(v)表示u和v真实的成绩排名,|S|代表专业内的学生总数.式(10)表明若r(u)和r(v)的差别越小,则u和v构成了一个困难样本,对应的权重wuv越大,在训练过程中更应优先确保对u和v之间成绩相对关系预测的准确性.相应地,模型的损失函数被修改:
(11)
本文数据集为随机抽取的20万对学生对,实验过程中数据集的正负样本比为1∶1.本文进行了一系列实验,从不同角度对本文所提出的学生成绩预测方法的有效性进行了验证.数据集统计情况如表2所示.所有的实验均在配置有2核2.4 GHz Intel Xeon处理器和1块NVIDIA Titan XP显卡的工作站上进行.
Table 2 Dataset Statistics
表2 数据集统计情况
统计项数量天数80时间段数18上网行为类型数13学生数519学生日均上网行为频次259
实验分别从每个专业中随机挑选出70%和10%的学生用于训练和验证,将剩余20%的学生作为测试对象.基于深度学习框架Pytorch[42]对网络模型进行训练和测试.在训练时,采用Adam优化器[43],设批处理大小为32,所有网络层的初始学习率为10-5.在训练过程中,每20个周期将学习率减半,总共训练50个周期.
准确率(accuracy, Acc)和ROC曲线下方的面积大小(area under curve, AUC)都是被经常采用的评价模型分类性能的评价指标.面向学生成绩预测任务,本文遵循了先前工作[30-32]的做法,选择了Acc和斯皮尔曼等级相关系数评价模型的好坏.本文首先度量算法对于成对学生之间成绩好坏判断的Acc. 给定测试学生集合S,Acc指标定义:
(12)
对于学生u和
分别代表他们之间真实的成绩相对关系以及算法预测的相对关系.I是一个指示函数,若给定的布尔表达式为真,其值为1;反之,其值为0.
同时,采用斯皮尔曼等级相关系数[44]来度量算法预测的学生成绩排序和真实成绩排序之间的相关性.斯皮尔曼等级相关系数越高,表明算法对于学生成绩排序的预测性能越好.斯皮尔曼等级相关系数ρ定义:
(13)
其中,r(u)和
分别是学生u的真实排名和预测排名.需要说明的是,以上2个评价指标均是针对每个专业的学生分别计算的,最终计算指标在不同专业的平均值以评估模型性能.
Fig. 4 Performance comparison between the methods across students of different majors
图4 不同专业学生在不同方法上的准确率比较
4.3.1 对比实验
在实验中,将本文所提出的双层自注意力网络DEAN与3种传统的深度序列建模方法进行对比,包括:长短期记忆神经网络(long short-term memory, LSTM)[45]、时序卷积网络(temporal convolutional network, TCN)[46]以及Transformer网络[10].此外,实验还选择分层注意力网络(hierarchical attention network, HAN)[47]作为基线方法. 与DEAN类似,HAN基于LSTM采用双层注意力机制首先融合学生一天内不同时间段的上网行为,进而将学生在不同天的上网行为进行融合.不同方法之间的性能对比如表3所示:
Table 3 Performance Comparison of Different Methods
表3 不同方法的性能比较 %
方法Acc ρLSTM69.2658.06TCN69.9059.26Transformer70.2861.17HAN70.2459.95DEAN74.0665.85
注:黑体字表示DEAN的准确率以及斯皮尔曼系数.
从表3中可以看出,相比其他4种方法,本文所提出的DEAN模型在学生成绩预测任务上取得了最好的结果.具体地说,DEAN在准确率和斯皮尔曼等级相关系数上分别达到了74.06%和65.85%的成绩,大幅超过了次优模型Transformer,在2个指标上分别获得了3.78%和4.68%的相对提升.
比较而言,LSTM,TCN和Transformer直接将学生长时间连续的行为序列作为输入进行学习,但如前文所分析,对长序列数据直接建模面临着较大的困难.HAN和DEAN都采用了级联式架构,分别对学生每一天的局部上网行为特征和整体时间跨度上的全局上网行为特征进行建模.我们认为,DEAN优于HAN的原因可能包括:1)HAN以LSTM作为模型主框架,而过往的工作[7,10]已经证明LSTM在许多序列建模任务上的性能落后于DEAN所采用的自注意力网络;2)DEAN引入了多头注意力机制,从而可以同时在多个不同的潜在空间内进行特征学习,并通过融合不同空间的特征实现信息互补,有效提升了模型的预测能力.
不同专业的学生数量不同,会影响到实验结果.本文进一步讨论了不同方法对不同专业的学生进行成绩预测时的性能比较,图4展示了实验结果.正如预期的那样,本文所提出的DEAN在全部专业的预测结果都优于其他的方法.
4.3.2 消融实验
为了进一步验证本文所提方法中关键部件的有效性,我们进行了一系列消融研究:
1) 级联式自注意力架构的有效性
本实验对比了DEAN的变体,即仅考虑学生在各时间段局部上网行为的单层自注意力网络DEAN-Local和仅融合学生在不同天上网行为的单层自注意力网络DEAN-Global.DEAN-Local是指直接将学生在整个时间跨度上的上网行为按照时间段展开为一个长序列数据,输入单层自注意力网络进行成绩预测.DEAN-Global则是指直接统计学生在每一天访问不同类型网站的频次来获得日期级别的行为特征,通过单层注意力网络融合不同日期的上网行为进行成绩预测.
表4列出了DEAN,DEAN-Local以及DEAN-Global之间的性能对比.可以看到,DEAN在2个评价指标上均明显优于仅基于单层注意力网络的DEAN-Local和DEAN-Global,这表明DEAN中的级联式自注意力网络架构可以有效提高模型的特征学习能力.
Table 4 Effect of Hierarchical Self-Attention Architecture
表4 级联式自注意力架构的影响 %
方法Acc ρDEAN-Local70.2861.17DEAN-Global71.0862.86DEAN74.0665.85
注:黑体字表示DEAN的准确率以及斯皮尔曼系数.
2) 多任务学习的有效性
本文通过引入多任务学习策略来缓解面向单个专业的学生成绩预测任务中训练数据较小的问题.表5比较了引入和不引入多任务学习策略的DEAN方法在性能上的差异.可以看到,前者在准确率和斯皮尔曼等级相关系数上分别提高了2.16%和1.12%.这说明多任务学习策略确实使得模型可以充分利用不同任务之间潜在的关联性,并在一定程度上缓解了数据不足的问题.
Table 5 Effect of Multi-Task Learning
表5 引入多任务学习的影响 %
方法Acc ρ无多任务学习DEAN71.9064.73有多任务学习DEAN74.0665.85
注:黑体字表示有多任务学习DEAN的准确率以及斯皮尔曼系数.
3) 代价敏感学习的有效性
为了缓解困难样本带来的预测准确率低的问题,本文引入了基于学生排名差的代价敏感损失函数,即根据成对样本中2个学生的成绩排名差距,自适应地为其生成一个权重,排名越相近的样本权重越大.表6展示了在使用和没有使用代价敏感损失的情况下所提出的DEAN方法的结果,即分别通过最小化式(1)和式(11)中的损失函数来训练模型.可以看到,基于学生排名差的代价敏感损失函数确实对方法性能提升起到了正向作用.
Table 6 Effect of Cost-Sensitive Loss
表6 使用代价敏感损失的影响 %
方法Acc ρ无代价敏感损失DEAN73.9065.73有代价敏感损失DEAN74.0665.85
注:黑体字表示有代价敏感损失函数的准确率以及斯皮尔曼系数.
4.3.3 不同类型上网行为对成绩的影响比较
如2.2节所述,学生不同类型的上网行为与学习成绩之间的关联性是不同的.为了进一步定量地分析这种差异性,我们分别利用单一类型上网行为数据进行成绩预测.图5展示了各方法在利用不同类型上网行为时的预测准确率.
Fig. 5 Performance comparison between different methods when using each type of online behavior data
图5 不同方法在利用单一类型上网行为数据时的性能比较
从图5中可以得到3个结论:1)相比于表3中的结果,当仅利用单一类型上网行为数据时,各方法的性能均出现了显著下降,这说明有效融合多种类型的上网行为数据对于提升学生成绩预测的精度至关重要;2)无论使用何种类型的上网行为数据,DEAN均优于其他对比方法,再次验证了本文所提方法的有效性;3)基于学生对于教育、IT相关、新闻以及娱乐类型站点的访问数据可以相对更为准确地预测学生的成绩,这与之前我们进行数据分析的结果大致吻合.直观上理解,频繁地访问教育、IT相关或新闻类型网站,可能代表学生在持续地扩充自己的知识面,反映了学生良好的学习态度,因而与学生成绩密切相关;相反,长时间浏览娱乐类型站点的学生可能无法在学习中投入足够的精力,导致相对落后的成绩,这种负相关关系也可以帮助我们更好地进行学生成绩预测.
本文提出以校园上网行为感知为切入点,对学生成绩预测问题展开研究,通过分析挖掘学生的上网行为日志,构建有效的学生行为特征,进而预测学生未来的学业表现.本文提出了一种端到端的双层自注意力网络,引入级联式的自注意力机制来分别提取学生每一天的局部上网行为特征和长时间的全局上网行为特征.同时,引入多任务学习策略将面向不同专业的学生成绩预测问题进行关联,并设计了基于学生排名差的代价敏感损失函数进一步提高预测性能.在真实数据集上的实验结果证明了本文提出的双层自注意力网络在学生成绩预测问题上的有效性.
我们希望通过本研究,能够激发人们对校园上网行为与学习成绩关联性的研究兴趣.进一步的研究可以通过分析更多类型的上网行为,为教育者开展学生学习管理提供更全面的参考.在未来的研究中,可以参考课程学习的思想,使模型先从容易的样本开始学习,再逐渐进阶到困难的样本并进一步验证方法在更大规模数据集上的有效性.
作者贡献声明:姚丽为论文所述工作的主要完成人,负责收集数据、实验设计与实施、文章撰写;崔超然对论文提出针对性修改意见,负责文章校审;马乐乐负责处理数据、构建数据集,并完善课题思路和实验设计;王飞超负责提供数据、收集数据、分析数据;马玉玲负责论文排版与图形绘制;陈勐负责对实验部分提供技术性指导;尹义龙对论文的方法缺陷提出改进意见并完善最终版修订.
[1]Zhou Qing, Mou Chao,Yang Dan. Research progress on educational data mining: A survey[J]. Journal of Software, 2015, 26(11): 3026-3042 (in Chinese)(周庆, 牟超, 杨丹. 教育数据挖掘研究进展综述[J]. 软件学报, 2015, 26(11): 3026-3042)
[2]Romero C, Ventura S. Educationaldata mining: A review of the state of the art[J]. IEEE Transactions on Systems Man & Cybernetics Part C, 2010, 40(6): 601-618
[3]Marbouti F, Diefes-Dux H A, Madhavan K. Models for early prediction of at-risk students in a course using standards-based grading—ScienceDirect[J]. Computers & Education, 2016, 103: 1-15
[4]Meier Y, Xu Jie, Atan O, et al. Predicting Grades[J]. IEEE Transactions on Signal Processing, 2016, 64(4): 959-972
[5]Huang Shaobo, Ning Fang. Predicting student academic performance in an engineering dynamics course: A comparison of four types of predictive mathematical models[J]. Computers & Education, 2013, 61: 133-145
[6]Ma Yuling, Cui Chaoran,Yu Jun, et al. Multi-task miml learning for pre-course student performance prediction[J]. Frontiers of Computer Science, 2020, 14(5): 111-119
[7]Cao Hongjiang, Xie Jin. LSTM-based learning achievement prediction and its influencing factors[J]. Journal of Beijing University of Posts and Telecommunications: Social Sciences Edition, 2020, 22(6): 90-100 (in Chinese)
(曹洪江, 谢金. 基于lstm的学习成绩预测及其影响因素方法研究[J]. 北京邮电大学学报: 社会科学版, 2020, 22(6): 90-100)
[8]Cao Yi, Gao Jian, Lian Defu, et al. Orderliness predicts academic performance: Behavioural analysis on campus lifestyle[J]. Journal of the Royal Society Interface, 2018, 15(146): 20180210
[9]Xu Xing, Wang Jianzhong, Peng Hao, et al. Prediction of academic performance associated with internet usage behaviors using machine learning algorithms[J]. Computers in Human Behavior, 2019, 98: 166-173
[10]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C] //Proc of the 31st Int Conf on Neural Information Processing Systems (NIPS’17). La Jolla, California: NIPS, 2017
[11]Okubo F, Yamashita T, Shimada A, et al. Students’ performance prediction using data of multiple courses by recurrent neural network[C] //Proc of the 25th Int Conf on Computers in Education (ICCE 2017). Cham, Switzerland: Springer, 2017: 439-444
[12]Zhang Yu, Yang Qiang. A survey on multi-task learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2021
[13]Lin T, Goyal P, Girshick R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 42(2): 318-327
[14]Ren Zhiyun, Rangwala H, Johri A. Predicting performance on MOOC assessments using multi-regression models[J]. arXiv preprint arXiv:1605.02269, 2016
[15]Jiang Shuang, Williams A, Schenke K, et al. Predicting MOOC performance with week 1 behavior[C] //Proc of the 7th Int Conf on Educational Data Mining. London: EDM, 2014: 273-275
[16]He J, Bailey J, Rubinstein B, et al. Identifying at-risk students in massive open online courses[C] //Proc of the AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2015: 1749-1755
[17]Macfadyen L P, Dawson S. Mining LMS data to develop an “early warning system” for educators: A proof of concept[J]. Computers & Education, 2010, 54(2): 588-599
[18]Jiang Zhuoxuan, Zhang Yan, Li Xiaoming. Learning behavior analysis and prediction based on MOOC data[J]. Journal of Computer Research and Development, 2015, 52(3): 614-628 (in Chinese)
(蒋卓轩, 张岩, 李晓明. 基于 MOOC 数据的学习行为分析与预测[J]. 计算机研究与发展, 2015, 52(3): 614-628)
[19]Li Wetao, Gao Min, Li Hua, et al. Dropout prediction in MOOCs using behavior features and multi-view semi-supervised learning[C] //Proc of 2016 Int Joint Conf on Neural Networks (IJCNN). Piscataway, NJ: IEEE, 2016: 3130-3137
[20]Feng Wenzheng, Tang Jie, Liu T X. Understanding dropouts in MOOCs[C] //Proc of the AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2019: 517-524
[21]Yudelson M V, Koedinger K R, Gordon G J. Individualized bayesian knowledge tracing models[M]. Berlin: Springer, 2013
[22]Piech C, Bassen J, Huang J, et al. Deep knowledge tracing[J]. Advances in Neural Information Processing Systems, 2015, 28
[23]Liu Qi, Huang Zhenya, Yin Yu, et al. Ekt: Exercise-aware knowledge tracing for student performance prediction[J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 33(1): 100-115
[24]Cheng Song, Liu Qi. DIRT: Deep learning enhanced item response theory for cognitive diagnosis[C] //Proc of the 28th ACM Int Conf. New York: ACM, 2019
[25]Su Yu, Liu Qingwen, Liu Qi, et al. Exercise-enhanced sequential modeling for student performance prediction[C] //Proc of the AAAI Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2018
[26]Chen Yuying, Liu Qi, Huang Zhenya, et al. Tracking knowledge proficiency of students with educational priors[C] //Proc of the 2017 ACM on Conf on Information and Knowledge Management. New York: ACM, 2017: 989-998
[27]Polyzou A, Karypis G. Feature extraction for next-term prediction of poor student performance[J]. IEEE Transactions on Learning Technologies, 2019, 12(2): 237-248
[28]Huang Jianming. Application of Bayesian network to predicting students’ achievement[J]. Computer Science, 2012, (S3): 280-282 (in Chinese)(黄建明. 贝叶斯网络在学生成绩预测中的应用[J]. 计算机科学, 2012, (S3): 280-282)
[29]Ma Yuling, Cui Chaoran, Nie Xiushan, et al. Pre-course student performance prediction with multi-instance multi-label learning[J]. Science China Information Sciences, 2019, 62(2): 1-3
[30]Lian Defu, Liu Qi, Zhu Wenya, et al. Mutual reinforcement of academic performance prediction and library book recommendation[C] //Proc of 2016 IEEE 16th Int Conf on Data Mining (ICDM). Piscataway, NJ: IEEE, 2016: 1023-1028
[31]Yao Huaxiu, Nie Min, Su Han, et al. Predicting academic performance via semi-supervised learning with constructed campus social network[C] //Proc of Int Conf on Database Systems for Advanced Applications. Berlin: Springer, 2017: 597-609
[32]Yao Huaxiu, Lian Defu, Cao Yi, et al. Predicting academic performance for college students: A campus behavior perspective[J]. ACM Transactions on Intelligent Systems, 2019, 10(3): 24.1-24.21
[33]Cao Xiongfei, Masood A, Luqman A, et al. Excessive use of mobile social networking sites and poor academic performance: Antecedents and consequences from stressor-strain-outcome perspective[J]. Computers in Human Behavior, 2018, 85: 163-174
[34]Chen Yingfang, Peng S S. University students’ internet use and its relationships with academic performance, interpersonal relationships, psychosocial adjustment, and self-evaluation[J]. CyberPsychology & Behavior, 2008, 11(4): 467-469
[35]Salinas D, Flunkert V, Gasthaus J, et al. DeepAR: Probabilistic forecasting with autoregressive recurrent networks[J]. International Journal of Forecasting, 2020, 36(3): 1181-1191
[36]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C] //Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778
[37]Ba J L, Kiros J R, Hinton G E. Layer normalization[J]. arXiv preprint arXiv:1607.06450, 2016
[38]Ruder S. Ruder S. An overview of multi-task learning in deep neural networks[J]. arXiv preprint arXiv:1706.05098, 2017
[39]Shen Z, Cui C, Huang J, et al. Deep adaptive feature aggregation in multi-task convolutional neural networks[C] //Proc of the 29th ACM Int Conf on Information & Knowledge Management. New York: ACM, 2020: 2213-2216
[40]Elkan C. The foundations of cost-sensitive learning[C] //Proc of the 10th Int Joint Conf on Artificial Intelligence (IJCAI). San Francisco: Morgan Kaufmann, 2001: 973-978
[41]Paszke A, Gross S, Massa F, et al. Pytorch: An imperative style, high-performance deep learning library[C] //Proc of the 33rd Int Conf on Neural Information Processing Systems. La Jolla, California: NIPS, 2019: 8026-8037
[42]Kingma D P, Ba J. Adam: A method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980, 2014
[43]Spearman C. The proof and measurement of association between two things[J]. International Journal of Epidemiology, 2010, 39(5): 1137-1150
[44]Gao Qiang, Zhou Fan, Zhang Kunpeng, et al. Identifying human mobility via trajectory embeddings[C] //Proc of the 26th Int Joint Conf on Artificial Intelligence. San Francisco: Morgan Kaufmann, 2017: 1689-1695
[45]Bai S, Kolter J Z, Koltun V. An empirical evaluation of generic convolutional and recurrent networks for sequence modeling[J]. arXiv preprint arXiv:1803.01271, 2018
[46]Pappas N, Popescu-Belis A. Multilingual hierarchical attention networks for document classification[J]. arXiv preprint arXiv:1707.00896, 2017
[47]Huang Siteng, Wang Donglin, Wu Xuhan, et al. Dsanet: Dual self-attention network for multivariate time series forecasting[C] //Proc of the 28th ACM Int Conf on Information and Knowledge Management. New York: ACM, 2019: 2129-2132