Processing math: 7%
  • 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

MOOCDR-VSI:一种融合视频字幕信息的MOOC资源动态推荐模型

吴水秀, 罗贤增, 钟茂生, 吴如萍, 罗玮

吴水秀, 罗贤增, 钟茂生, 吴如萍, 罗玮. MOOCDR-VSI:一种融合视频字幕信息的MOOC资源动态推荐模型[J]. 计算机研究与发展, 2024, 61(2): 470-480. DOI: 10.7544/issn1000-1239.202220652
引用本文: 吴水秀, 罗贤增, 钟茂生, 吴如萍, 罗玮. MOOCDR-VSI:一种融合视频字幕信息的MOOC资源动态推荐模型[J]. 计算机研究与发展, 2024, 61(2): 470-480. DOI: 10.7544/issn1000-1239.202220652
Wu Shuixiu, Luo Xianzeng, Zhong Maosheng, Wu Ruping, Luo Wei. MOOCDR-VSI: A MOOC Resource Dynamic Recommendation Model Fusing Video Subtitle Information[J]. Journal of Computer Research and Development, 2024, 61(2): 470-480. DOI: 10.7544/issn1000-1239.202220652
Citation: Wu Shuixiu, Luo Xianzeng, Zhong Maosheng, Wu Ruping, Luo Wei. MOOCDR-VSI: A MOOC Resource Dynamic Recommendation Model Fusing Video Subtitle Information[J]. Journal of Computer Research and Development, 2024, 61(2): 470-480. DOI: 10.7544/issn1000-1239.202220652
吴水秀, 罗贤增, 钟茂生, 吴如萍, 罗玮. MOOCDR-VSI:一种融合视频字幕信息的MOOC资源动态推荐模型[J]. 计算机研究与发展, 2024, 61(2): 470-480. CSTR: 32373.14.issn1000-1239.202220652
引用本文: 吴水秀, 罗贤增, 钟茂生, 吴如萍, 罗玮. MOOCDR-VSI:一种融合视频字幕信息的MOOC资源动态推荐模型[J]. 计算机研究与发展, 2024, 61(2): 470-480. CSTR: 32373.14.issn1000-1239.202220652
Wu Shuixiu, Luo Xianzeng, Zhong Maosheng, Wu Ruping, Luo Wei. MOOCDR-VSI: A MOOC Resource Dynamic Recommendation Model Fusing Video Subtitle Information[J]. Journal of Computer Research and Development, 2024, 61(2): 470-480. CSTR: 32373.14.issn1000-1239.202220652
Citation: Wu Shuixiu, Luo Xianzeng, Zhong Maosheng, Wu Ruping, Luo Wei. MOOCDR-VSI: A MOOC Resource Dynamic Recommendation Model Fusing Video Subtitle Information[J]. Journal of Computer Research and Development, 2024, 61(2): 470-480. CSTR: 32373.14.issn1000-1239.202220652

MOOCDR-VSI:一种融合视频字幕信息的MOOC资源动态推荐模型

基金项目: 国家自然科学基金项目(61877031);江西省教育厅科技计划项目(GJJ210324)
详细信息
    作者简介:

    吴水秀: 1975年生,硕士,副教授. 主要研究方向为在线教育、信息检索、机器学习

    罗贤增: 1996年生. 硕士研究生. 主要研究方向为机器学习、自然语言处理、知识追踪

    钟茂生: 1974年生. 博士,教授. CCF高级会员. 主要研究方向为机器学习与数据挖掘、自然语言处理、智能教育与软件

    吴如萍: 1998年生. 硕士研究生. 主要研究方向为机器学习、自然语言处理

    罗玮: 1979年生. 硕士,讲师. 主要研究方向为在线教育、智能教育

    通讯作者:

    钟茂生(zhongmaosheng@sina.com

  • 中图分类号: TP393

MOOCDR-VSI: A MOOC Resource Dynamic Recommendation Model Fusing Video Subtitle Information

Funds: This work was supported by the National Natural Science Foundation of China (61877031) and the Science and Technology Projects in Jiangxi Provincial Department of Education(GJJ210324).
More Information
    Author Bio:

    Wu Shuixiu: born in 1975. Master,associate professor. Her current research interests include online education, information retrieval, and machine learning

    Luo Xianzeng: born in 1996. Master candidate. His main research interests include machine learning, natural language processing, and knowledge tracking

    Zhong Maosheng: born in 1974. PhD, professor. Senior member of CCF. His main research interests include machine learning and data mining, natural language processing, and intelligent education and software

    Wu Ruping: born in 1998. Master candidate. Her main research interests include machine learning and natural language processing

    Luo Wei: born in 1979. Master,lecturer. Her main research interests include online education and intelligent education

  • 摘要:

    学习者在面对浩如烟海的在线学习课程资源时往往存在“信息过载”和“信息迷航”等问题,基于学习者的学习记录,向学习者推荐与其知识偏好和学习需求相符的MOOC资源变得愈加重要. 针对现有MOOC推荐方法没有充分利用MOOC视频中所蕴含的隐式信息,容易形成“蚕茧效应”以及难以捕获学习者动态变化的学习需求和兴趣等问题,提出了一种融合视频字幕信息的动态MOOC推荐模型MOOCDR-VSI,模型以BERT为编码器,通过融入多头注意力机制深度挖掘MOOC视频字幕文本的语义信息,采用基于LSTM架构的网络动态捕捉学习者随着学习不断变化的知识偏好状态,引入注意力机制挖掘MOOC视频之间的个性信息和共性信息,最后结合学习者的知识偏好状态推荐出召回概率Top N的MOOC视频. 实验在真实学习场景下收集的数据集MOOCCube分析了MOOCDR-VSI的性能,结果表明,提出的模型在HR@5,HR@10,NDCG@5,NDCG@10,NDCG@20评价指标上比目前最优方法分别提高了2.35%,2.79%,0.69%,2.2%,3.32%.

    Abstract:

    Learners often have problems such as “information overload” and “information trek” when facing the vast online learning course resources. Based on learners’ learning records, it is increasingly important to recommend MOOC courses to learners that are consistent with their knowledge preferences and learning needs. Aiming at the problems that the existing MOOC recommendation methods do not make full use of the implicit information contained in MOOC videos, which are easy to form a “cocoon effect”, and it is difficult to capture the dynamic learning needs and interests of learners, a dynamic MOOC recommendation model integrating video subtitle information MOOCDR-VSI is proposed, which uses BERT as the encoder to deeply mine the semantic information of MOOC video subtitle text by integrating the multi-head attention mechanism. The network based on LSTM architecture is used to dynamically capture the changing knowledge preference state of learners with learning, introduce the attention mechanism to mine the personality information and common information between MOOC videos, and finally recommend MOOC videos with Top N recall probability combined with the knowledge preference status of learners. The performance of MOOCDR-VSI is analyzed by MOOCCube in the experimental dataset collected in the real learning scenario, and the results show that the proposed model improves the HR@5, HR@10, NDCG@5, NDCG@10 , NDCG@20 evaluation indexes by 2.35%, 2.79%, 0.69%, 2.2% and 3.32%, respectively, compared with the current most optimal method.

  • 作为一种算力和网络融合的新型网络技术和架构,算力网络(computing-first network)已成为学术界和工业界的热门话题和研究方向. 算力度量(computing resource metric)是算力网络中的关键性工作,它作为算力网络底层的技术基石,是有效标识和衡量算力资源的重要方法,在算力网络中扮演着不可或缺的角色.算力网络得以发展的重要前提是对算力资源有精准的评估和管控,这需要对算力资源进行准确地标识和表征,以配合前端的用户意图感知和后端的算力资源调度决策.

    然而,现在业界对于算力度量的研究尚处于起步阶段.目前的研究中对算力度量标准的设计较为单一,大部分单独使用静态指标或动态指标来衡量算力资源[1-3],这样容易造成算力资源利用率低、匹配算力资源准确性较差等问题.

    例如,文献[1]中所提到的指标均为静态指标,没有考虑实时变化的网络状态和算力节点的工作状态,导致算力资源匹配准确率较低.因为当2个算力节点的基础性能相近时,由于无法得知算力节点的实时工作状态,难以区分哪一个节点更适合用户任务,可能会分配到资源不匹配的算力节点.

    与文献[1]不同,文献[2-3]中的算力度量指标均为动态指标,文献[2-3]中提到了使用计算资源大小、CPU使用率、存储情况和网络状态等动态指标来度量算力资源,但缺少对静态指标的考虑.如果不考虑静态指标,将难以区分算力节点的基础性能,可能会出现“高分低就”现象,导致算力资源利用率较低.

    可以看出,单方面考虑静态指标或动态指标,可能会影响算力度量的有效性.由于静态指标代表算力节点的基础性能,动态指标代表算力节点的动态性能,结合目前业界对于算力度量研究存在的问题,为更有效地进行算力度量,提出了一种先静后动的混合式度量方法(hybrid metric method, HMM),并提出了更为全面的指标.

    本文利用熵权法[4]去分析静态指标,包括TOPS/W(tera operations per second per watt),GOPS(giga operations per second),MIPS(million instructions per second),RAM和硬盘存储大小.对每个算力节点的基础性能进行评分,然后利用基于决策树的CART算法[5]将排好序的分数进行分段;最后在分完段的每一段内,分析CPU空闲率、GPU空闲率、剩余硬盘存储和吞吐率等指标,利用n维欧氏距离的方法[6]计算算力节点与用户任务所需性能之间的“距离”,找到最短的“距离”,即找到了更可能满足用户任务需求的算力节点.

    本文的主要贡献有2点:

    1)为解决目前业界对于算力度量的指标单一化、片面化等问题,提出了更为综合性的指标;

    2)提出了一种结合静态指标和动态指标的混合式算力度量方法HMM验和,经实验和数据分析,在算力节点的选择上,HMM在算力资源利用率和匹配准确率上表现得更优.

    关于算力度量的设计问题,目前已经存在相关研究工作,主要从不同的算力服务场景出发,包括基础算力、智能算力和超算算力.基础算力表示以中央处理器(central processing unit,CPU)为计算单元的计算能力;智能算力是指以图形处理器(graphics processing unit,GPU)、现场可编程逻辑门阵列(field programmable gate array,FPGA)、专用集成电路 (application specific integrated circuit,ASIC)等为代表的具有人工智能(artificialintelligence,AI)训练和推理学习的加速计算单元的计算能力;超算算力则是反映普遍用于科学计算场景的高性能计算集群的计算能力[1].为更深入的研究,总结了传统资源度量技术和现有算力资源度量技术.

    文献[7]提出了一种衡量CPU性能的方法,其主流思想一直延续至今.该文提出将CPI(clock per instruction)作为衡量CPU性能的指标.由于CPI是2个可测量的东西的乘积:CPI=每条指令的周期×每条指令的事件,CPI被认为是表示处理器性能的最自然的度量.文献[7]在度量CPU性能时所涉及到的指令数、时钟周期、操作数等指标,为本文提出采用TOPS/W和MIPS作为衡量CPU静态指标参数提供了启发.文献[8]提到GPU的性能与周期指令数、浮点运算能力和寄存器有关,如IPC(instructions per cycle)、缓存命中率(cache hit rate)、DRAM利用率、L2利用率等.文献[9]针对GPU集群中多项性能指标实时优化的问题,综合考虑计算速度、能耗和可靠性3项指标,利用极大熵函数法把3项指标转化为一个综合性能评价指标,并构造了控制稳定性和鲁棒性良好的模型.其中,在状态信息中只有计算频率为计算速度指标提供依据,由于本文不涉及GPU集群,因此不考虑能耗和控制问题,但文献[9]为本文采用GOPS和RAM作为静态指标参数提供了思路.文献[10]基于泊松假设的数学模型定义了从活动模式到空闲模式的转换概率,通过不同磁盘模式之间的转换概率来研究I/O 系统的能耗和性能指标,并评估了能耗和性能指标,包括存储器、队列长度、吞吐率、响应时间等,为本文采用RAM、硬盘存储量和吞吐率作为静动态指标参数提供了启发.

    表1中主要展示了目前3类算力度量的设计,即静态指标、动态指标和静动态结合的混合指标.

    表  1  算力度量方法的对比
    Table  1.  Comparison of Computing Resource Metric Methods
    相关工作方法静态指标动态指标
    CPUGPU存储CPUGPU吞吐率存储
    文献[1]方法
    文献[23]方法
    HMM
    注:√表示考虑了该指标.
    下载: 导出CSV 
    | 显示表格

    文献[1]考虑的均为静态指标,如逻辑运算能力、并行计算能力、神经计算能力、存力、算法能力、路由协议和算效等指标,虽涵盖了目前主流的处理器CPU和GPU,以及存储和网络因素,但其均为静态值,没有考虑实时变化的网络状态和算力节点的工作状态,容易导致算力资源匹配准确率低.因为当2个算力节点的基础性能相近时,由于无法得知算力节点的实时工作状态,难以辨别哪一个节点更适合用户任务,会出现分配到不合适的算力节点的情况.

    文献[2]提出了一种基于Floyd算法的算力感知路由调度策略来解决智能任务调度问题,其在多任务、多路由节点、多边缘服务器的边缘算力网络场景下做了仿真和模型.但在算力度量的工作上,文献[2]仅提出了2项算力节点的动态性能指标—— CPU转数和存储剩余量,没有考虑静态性能指标,可能会出现“高分低就”等问题,导致算力资源利用率较低. 文献[3]研究了算力感知网络中效用优化的资源分配问题,但在算力度量工作中只提到了CPU利用率和存储剩余量,同样缺乏静态指标的考虑,也可能会造成算力资源利用率低等问题.

    静态指标和动态指标均反映算力节点的性能,全面分析算力资源是有效度量算力的方式.通过对现有的算力度量技术的研究与总结,可以看出HMM在静动态设计和指标综合性的表现更优.

    目前算力度量在业界缺乏统一标识,缺少全面性、综合性和可操作性的设计方案,难以开展算力度量工作.

    全面性指算力度量需考虑静态指标和动态指标,不仅要衡量算力节点的基础性能,还要考虑算力节点当前的工作状态,确保全面地评估算力资源.综合性指度量指标需涵盖目前主流算力和网络性能指标,综合度量各类计算资源、存储资源和网络资源等.可操作性指算力度量工作需符合实际且理论和实验均具有可行性,是可实施且有效的度量方案.

    1)全面性

    考虑全面性工作,本文提出先静后动的混合式度量的设计方案.先计算算力节点基础性能分数,将分数合理分段,最后在段内找到合适的算力节点.

    算力节点能否满足用户任务的需求,首先要看它的基础性能高低,其次看它当前的工作状态能否满足用户任务的需求.假设当一个用户任务需要一个高性能且CPU空闲率为30%的算力节点,这时如果要找到匹配其需求的算力节点,需要从基础性能为高性能的算力节点中选择CPU空闲率达到、但不远超30%的算力节点.

    但有2种情况是不可取的,第1种情况是不能在所有基础性能未知的节点中选择CPU空闲率大于30%的算力节点,这样可能会出现当动态指标相同时,本是低性能节点就已满足用户需求,却选择了高性能节点,造成资源浪费和算力节点利用率低的问题;或者动态指标相同时,应选择高性能节点却选择了低性能节点,影响用户利益.第2种情况是不能在高性能算力节点中随意选择工作状态无法确定的算力节点,这样容易造成节点匹配准确率低的问题.

    区分算力节点基础性能高低,并考虑当前节点工作状态满足业务需求的设计,是一种更有效的度量方式,是用户意图感知和调度算力资源的基础.

    2)综合性

    指标的综合性在算力度量工作中同样重要.在静态指标选取上,本研究采用CPU、GPU、存储等因素.在动态指标上,采用CPU空闲率、GPU空闲率、吞吐率和硬盘剩余存储量.综上,本文考虑了基础算力、智能算力、存储能力、网络能力四大指标,并衍生出9个具体指标.

    ① 基础算力.当处理普通业务时,CPU可以确定其运行速度[11].本文将处理器运算能力的性能指标TOPS/W和衡量CPU速度指标——每秒执行百万级指令数MIPS作为静态指标的其中2个因素研究.将CPU空闲率作为动态指标的其中1要素.

    ② 智能算力.当用于深度学习应用程序、大规模并行处理或其他要求严苛的工作负载时,GPU就显得尤为重要[12].本文采用常规神经网络算力指标GOPS和存储性能指标RAM作为静态指标中的因素,将GPU空闲率作为动态指标的其中1要素.

    ③ 存储能力.考虑到算力节点的工作不止有计算,还有存储等功能[13].本文将存储指标RAM和硬盘存储大小考虑为静态指标的因素.将硬盘剩余存储量作为动态指标的其中1要素.

    ④ 网络能力.本文将吞吐率作为动态指标的其中1要素,其单位为req/s.吞吐率,特指Web服务器单位时间内处理的请求数,是服务器并发处理能力的量化描述,是衡量网络服务能力的重要指标[14].在衡量网络转发性能时,它能直观地反映网络处理事务能力的好坏.

    3)可操作性

    为验证本方案的可操作性,图1展示了3种场景下的案例分析,即对静态指标或动态指标及先静后动的混合式度量方法做了假设和理论分析对比.这3种度量方式均存在所有条件都满足的情况.但不同的是,当只考虑静态指标时,其动态指标不一定都能满足用户任务需求,如CPU空闲率不足或GPU空闲率不足等;当只考虑动态指标时,又存在基础性能不达标或远超标的问题.而HMM可以在满足基础性能的同时又能适配算力节点目前的工作状态,可以有效地提高算力资源利用率和匹配准确率.

    图  1  HMM与只有静态和只有动态指标的场景案例分析
    Figure  1.  Case study of HMM, static only and dynamic only indicators

    图1中所示,从用户任务端向左看,每个用户任务都分别引出3根不同颜色的线,橘色代表HMM,绿色代表只有静态指标的方法,紫色代表只有动态指标的方法.而实线和虚线分别代表匹配效果理想和不理想.对于只考虑静态指标的场景,可以看到,用户任务2、用户任务3匹配到了理想的算力节点.但对用户任务1来说,其基础性能的需求为要达到待选算力节点群中基础性能的45%,CPU空闲率达到60%,GPU空闲率达到40%,存储空间需要50 GB,吞吐率要达到1700 req/s.在选择算力节点时,其匹配到了基础性能为46%的节点1,但其CPU空闲率、GPU空闲率和吞吐率均不满足要求.

    对于只考虑动态指标的场景,可以看到,用户任务1、用户任务2匹配到了理想的算力节点,但对用户任务3来说,虽然其匹配到的节点5其动态指标均已满足需求,但其40%的基础性能不满足需求,也是一个失败的案例.

    对于先静后动的混合式度量方法,用户任务1、用户任务2和用户任务3分别匹配到了每一项条件都符合的算力节点2、节点1和节点3,可以看到,HMM可以精确地匹配到理想的算力节点.

    HMM的工作流程如图2所示,共分为4步.首先利用熵权法计算出算力节点的基础性能分数,然后利用基于决策树的CART算法对分数进行合理的分段,其次在符合业务需求的段内,利用n维欧式距离算出算力节点性能与用户任务所需性能的距离,最后找到最短距离,即找到最符合用户任务需求的算力节点.下面介绍具体的算法.

    图  2  HMM的工作流程
    Figure  2.  The workflow of HMM

    首先利用熵权法[4]对静态指标进行分析,得到计算节点静态性能的得分.采用熵权法的目的是由于熵权法是一种客观赋权方法,其与指标本身无关,根本在于指标选择是否具有逻辑性、科学性.它借鉴了信息熵思想,通过计算指标的信息熵,根据指标的相对变化程度对系统整体的影响来决定指标的权重,即根据各个指标标志值的差异程度来进行赋权,从而得出各个指标相应的权重以及综合评价分数.

    假设有m个算力节点和n个评估指标,形成原始指标数据矩阵:

    (x11x1nxm1xmn) (1)

    其中xij表示第i个算力节点第j项评价指标的数值.对于某项指标Xj,样本的离散程度越大,则该指标在综合评价中所起的作用就越大;如果该指标的数值全部相等,则表示该指标在综合评价中不起作用.

    由于本研究中所涉及到的数值是越大越好,为正向指标,可不用对各指标进行标准化处理.

    计算第j个指标中,第i个算力节点的权重:

    pij=xijni=1xij, (2)

    其中,(0. 建立数据的比重矩阵:

    \left( {\begin{array}{*{20}{c}} {{{{p}}_{11}}}& \ldots &{{{{p}}_{1n}}} \\ \vdots & \ddots & \vdots \\ {{{{p}}_{m1}}}& \cdots &{{{{p}}_{mn}}} \end{array}} \right). (3)

    然后计算第j个指标的熵值:

    {{{e}}_j} = - k\sum\limits_{i=1}^n {{{{p}}_{ij}}} \ln {{{p}}_{ij}} \;, (4)

    其中,常数k > 0,k = \dfrac{1}{{\ln m}}.

    又因为要保证0 \leqslant {{{e}}_j} \leqslant 1,即最大为1.所以,第j个指标的熵值为:

    {{{e}}_j} = - \frac{1}{{\ln m}}\sum\limits_{i=1}^n {{{{p}}_{ij}}} \ln {{{p}}_{ij}}, (5)

    其中,(i = 1,2,…,n,j = 1,2,…,m.) ,然后需要定义第j个指标的差异程度,熵权法根据各个指标数值的差异程度来进行赋权,从而得出各个指标相应的权重:

    {{{d}}_j} = 1 - {{{e}}_j}\text{,} (6)

    其中,(j = 1,2,…,m.) ,定义权重wj

    {{{w}}_j} = \frac{{{{{d}}_j}}}{{ \displaystyle \sum\limits_{j = 1}^m {{{{d}}_j}} }} \;. (7)

    最后得到综合评价Fi

    {{{F}}_i} = \sum\limits_{j = 1}^m {{{{p}}_{ij}}} {{{w}}_j} \;. (8)

    将TOPS/W、GOPS、MIPS、RAM、硬盘存储大小这5个静态因素定义为一个五元组I,则{I} = ( {I_1}, {I_2},{I_3},{I_4},{I_5}).通过熵权法,取得较为客观的指标权重,用w表示权重,则 {w_i} = \{ {w_1},{w_2},{w_3},{w_4},{w_5}\} 分别对应5个因素的权重.从而得到一个多因素静态联合指标M

    M = {w_1} \times {I_1} + {w_2} \times {I_2} + {w_3} \times {I_3} + {w_4} \times {I_4} + {w_5} \times {I_5} \;. (9)

    当用户只对单个算力资源(如存储)有需求时,则直接对收集到的算力节点的单个资源进行排序.高性能者享有更高的优先级.如果是仅对存储有要求,此时的指标应变成RAM和硬盘存储剩余量.由于硬盘存储剩余量是动态变化的参数,且它的数值和数值之间在时间上无相关性,可直接将RAM进行优劣排序,再在此基础上对硬盘存储剩余量进行优劣排序.

    分段可以更为精确地提供算力节点的可选择范围,是算力度量中的关键性工作.

    在第1步得到算力节点基础性能得分后,第2步利用基于决策树的CART算法[5]来给排好序的算力节点的分数进行分段.CART可以根据数值本身找到合适的阈值进行分割,从而达到分段效果.

    假设有K个类,算力节点属于第k类的概率为pk k=1,2,\cdots ,K,则概率分布的基尼指数定义为:

    {Gini} (D) = \sum\limits_{k = 1}^K {{p_k}} \left( {1 - {p_k}} \right) = 1 - \sum\limits_{k = 1}^K {p_k^2}\;. (10)

    给定算力节点的序号为集合D,其基尼指数为:

    {Gini} = 1 - \sum\limits_{k = 1}^K {{{\left( {\frac{{\left| {{C_k}} \right|}}{{|D|}}} \right)}^2}} \;, (11)

    其中,CkD中属于第k类的样本子集,K是类的个数.

    算力节点的序号集合D根据特征值A是否取某一可能值a被分割成D1D2 2部分,特征值A为算力节点的性能得分.

    \begin{split} &{D_1} = \{ (x,y) \in D\mid A(x) = a\} ,\\ &({D_2} = D - {D_1}) \end{split} (12)

    则在特征A的条件下,集合D的基尼指数为:

    {Gini} (D,A) = \frac{{\left| {{D_1}} \right|}}{{|D|}}{Gini} \left( {{D_1}} \right) + \frac{{\left| {{D_2}} \right|}}{{|D|}}{Gini} \left( {{D_2}} \right) \;. (13)

    根据基尼指数,选择最优特征和最优切分点,然后得到分类Di,并得到Di中算力节点的数量Ci.

    考虑到动态因素数值不断变化的特殊性,在选择评价模型上,若将用户任务比作A,算力节点比作B,需求量化为数值时,需求种类越多,维数越多.但AB之间的距离越小,代表差异越小,即B越满足A的条件.基于此思想,本研究采用n维欧氏距离法[6]对动态因素进行联合分析来选择合适用户任务的算力节点.

    假设用户任务需求为si,实际算力节点的性能为ti,则两者的距离为:

    d(S,T) = \sqrt {\sum\limits_{i = 1}^n {{{\left( {{s_i} - {t_i}} \right)}^2}} } \;. (14)

    本文将CPU空闲率、GPU空闲率、吞吐率和硬盘剩余量作为动态因素考虑,式(14)中的n=4.d(S,T)越小,说明两者的差异越小,越符合用户任务的需求.由于这4个因素的量纲不同,需要做归一化处理,使结果落到[0,1]区间,转换函数为:

    {t^*} = \frac{{t - \min }}{{\max - \min }} \;. (15)

    归一化后,此时的距离为:

    d\left( {{S^*},{T^*}} \right) = \sqrt {\sum\limits_{i = 1}^n {{{\left( {s_i^* - t_i^*} \right)}^2}} } \;. (16)

    得到段内的每个距离值后,最小的距离dmin意味着算力性能和用户任务需求更接近,代表此算力节点是更符合用户任务需求的算力节点.

    根据2.2节中的工作流程,本节实验将分3步进行,分别对算力节点的基础性能、性能分段和节点选择做出分析.本研究收集整理了实验室及学校内的1000台服务器的算力性能信息TOPS/W、GOPS、MIPS、RAM、硬盘存储大小,将其组成了一个数据集.

    图3为利用熵权法得到的1000个算力节点基础性能分数的结果.为了便于展示,已利用基于决策树的CART算法将所得分数分为3类.图3中可以直观地看到其分数情况呈高中低分布.算力节点的等级越高,算力节点的静态性能分数越高.

    图  3  算力节点的静态性能分数对比
    Figure  3.  Comparison of static performance scores of computing nodes

    在得到的1000个算力节点的静态性能分数的基础上,利用基于决策树的CART算法得到每一类算力节点的数量,如图4所示.此步的目的是为了合理划定基础性能的范围,以便更精准地匹配算力节点.

    图  4  每类算力节点的数量
    Figure  4.  The number of each type of computing nodes

    最后根据用户任务的需求确定算力节点基础性能等级,在该等级内利用n维欧氏距离,结合CPU空闲率、GPU空闲率、吞吐率和存储剩余量这4个动态因素,判断算力节点的性能与用户任务所需性能的距离,距离最短的节点更符合用户任务的需求.

    假设用户任务的需求为:静态性能达到45%,CPU空闲率为60%,GPU空闲率为40%,吞吐率为1700 req/s,存储剩余量需求为50 GB.为了保证展示效果,在静态性能为45%~46%中找到10组算力节点的数据进行演示,得到如图5所示的结果.柱体表示算力节点性能与用户任务需求之间的距离. 由于4个动态指标每一个都需要满足用户任务的需求,本研究去掉了距离为“负”的(没达到用户任务需求)的算力节点.在留下的算力节点中比较距离大小,最小的距离为最符合用户任务需求的算力节点.如图6所示,节点3为匹配该用户任务的最佳算力节点.

    图  5  用户任务需求与算力节点性能的距离
    Figure  5.  The distance between the user's task requirements and the performance of the computing nodes
    图  6  最终选出的算力节点
    Figure  6.  The final selected computing nodes

    本节对提出的3种情况,即静态指标、动态指标和HMM进行算力节点利用率和匹配准确率的评估对比.

    式(17)中算力节点利用率U定义为所选算力节点数量与算力节点总量之比,结果如图7所示.实验采用了3.1节中的实验,在这个模拟实验中设置了1000个算力节点的静动态算力信息,然后更改用户任务的数量(100,200,\cdots,1000)和需求.可以看到,3种方法的利用率随着节点数的增加均呈上升趋势,采用HMM后,算力节点的利用率明显高于其他2种情况.这是由于既考虑静态指标又考虑动态指标,使得算力资源衡量得愈加精准,用户任务和算力节点能更有效地匹配,进而提升了节点利用率.

    图  7  HMM与静态和动态指标算力节点利用率的评估
    Figure  7.  The evaluation of HMM, static and dynamic metrics for computing nodes utilization
    U = \frac{{所选算力节点数量}}{{算力节点总量}}\;. (17)

    图8展示了3种方案下算力节点匹配准确率的对比.式(18)中匹配准确率P定义为符合用户任务所有条件的算力节点数量与所选算力节点数量之比.可以观察到,采用HMM后,由于考虑了度量的全面性、综合性和可操作性,以及实验最后一步n维欧式距离去负值找最短的方法,算力节点匹配准确率达到了100%,即实现利用及精确的程度.但只考虑静态指标得到的匹配准确率达到了30%~40%,只考虑动态指标得到的匹配准确率为35%~50%,可见这2种情况均不理想.相比之下,HMM的匹配度更优.

    图  8  HMM与静态和动态指标算力节点匹配准确率的评估
    Figure  8.  The evaluation of the matching precision of computing nodes for HMM, static and dynamic indicators
    {P^*} = \frac{{{\text{符合用户任务所有条件的算力节点数量}}}}{{{\text{所选算力节点数量}}}} \;. (18)

    本文设计了先静后动的混合式度量方法HMM.该方法既考虑算力节点的基础性能,又考虑算力节点当前的工作状态,并涵盖了目前主流的算力和网络性能指标,其理论和实验均具有可行性,满足了算力度量的全面性、综合性及可操作性.通过实验数据分析,HMM在提高算力资源利用率和匹配准确率中有良好的表现.后续工作将围绕算力与网络融合开展.未来也将在用户意图感知和算力调度的路由和寻址工作进行更深入的研究.

    作者贡献声明: 柴若楠负责实验设计、数据分析,以及论文初稿的撰写;郜帅指导实验设计、数据分析、论文写作,以及论文修改;兰江雨参与实验设计和试验结果分析;刘宁春参与论文的构思及整理.

  • 图  1   MOOCDR-VSI框架

    Figure  1.   MOOCDR-VSI framework

    图  2   MOOCDR-VSI的损失曲线

    Figure  2.   Loss curve of MOOCDR-VSI

    图  3   HR@KNDCG@K随迭代次数的变化曲线

    Figure  3.   HR@K and NDCG@K curves vary with the number of epoches

    图  4   不同注意力头数对MOOCDR-VSI性能影响

    Figure  4.   Effect of different attention heads on MOOCDR-VSI performance

    图  5   学习者随着学习变化的知识偏好状态可视化

    Figure  5.   Visualization of learners’ knowledge preference state changing with learning

    图  6   MOOC视频推荐结果及其相关性分析

    Figure  6.   MOOC video recommendation results and their correlation analysis

    表  1   实验结果与性能对比

    Table  1   Experimental Results and Performance Comparison

    方法 HR@1 HR@5 HR@10 HR@20 NDCG@5 NDCG@10 NDCG@20
    MLP 0.0660 0.3680 0.5899 0.7270 0.2231 0.2926 0.3441
    FM 0.2272 0.4057 0.5867 0.7644 0.3655 0.3968 0.3930
    FISM 0.1410 0.5849 0.7489 0.7610 0.3760 0.4203 0.4279
    NAIS 0.078 0.4112 0.6624 0.8649 0.2392 0.3201 0.3793
    NARM 0.1382 0.4437 0.6215 0.7475 0.2364 0.3172 0.3821
    metapath2vec 0.2476 0.5983 0.7598 0.8689 0.4194 0.4422 0.4602
    HRL 0.1638 0.6203 0.7670 0.8802 0.4564 0.5127 0.5405
    文献[25] 0.2012 0.6585 0.7884 0.9008 0.5116 0.5536 0.5821
    ACKRec 0.2645 0.6470 0.8122 0.9255 0.4635 0.5170 0.5459
    DARL 0.1968 0.6715 0.8261 0.9406 0.4948 0.5451 0.5785
    MOOCDR-VSI(本文) 0.2486 0.6948 0.8540 0.9397 0.5185 0.5671 0.6153
    注: 加粗数字为在对应指标上获得的最优值.
    下载: 导出CSV
  • [1] 教育部. 中共中央国务院印发《 中国教育现代化 2035》[J]. 新教育,2019(7):27−27

    Ministry of Education. Central Committee of the Communist Party of China, The State Council Printed and Distributed China’s Educational Modernization 2035[J]. New Education, 2019(7): 27−27 (in Chinese)

    [2] 雷朝滋. 教育信息化:从 1.0 走向 2.0——新时代我国教育信息化发展的走向与思路[J]. 华东师范大学学报:教育科学版,2018,36(1):98−103

    Lei Chaozi. Educational informatization: From 1.0 to 2.0–The trend and thinking of China’s educational informatization development in the new era[J]. Journal of East China Normal University: Educational Science Edition, 2018, 36(1): 98−103 (in Chinese)

    [3]

    Adamopoulos P. What makes a great MOOC? An interdisciplinary analysis of student retention in online courses[C/OL]// Proc of the 4th Int Conf on Information Systems. Milan: Association for Information Systems, 2013[2022-07-15]. https://xueshu.baidu.com/usercenter/paper/show? paperid=2aa8f571007f3c1d5d13776fc0495fe8&site=xueshu_se&hitarticle=1

    [4]

    Schafer J B, Frankowski D, Herlocker J, et al. Collaborative Filtering Recommender Systems[M]. Berlin: Springer, 2007: 291−324

    [5]

    Najafabadi M K, Mahrin M N. A systematic literature review on the state of research and practice of collaborative filtering technique and implicit feedback[J]. Artificial Intelligence Review, 2016, 45(2): 167−201 doi: 10.1007/s10462-015-9443-9

    [6]

    Devlin J, Chang Mingwei, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint, arXiv:1810. 04805, 2018

    [7]

    Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735−1780 doi: 10.1162/neco.1997.9.8.1735

    [8]

    Zhou Xiuze, Wu Shunxiang. Rating LDA model for collaborative filtering[J]. Knowledge-Based Systems, 2016, 110: 135−143 doi: 10.1016/j.knosys.2016.07.020

    [9]

    Kabbur S, Ning Xia, Karypis G. FISM: Factored item similarity models for top-n recommender systems[C] //Proc of the 19th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2013: 659−667

    [10]

    Zhang Jian, Sheng Jianan, Lu Jiawei, et al. UCPSO: A uniform initialized particle swarm optimization algorithm with cosine inertia weight[J/OL]. Computational Intelligence and Neuroscience, 2021[2022-07-16]. https://xueshu.baidu.com/usercenter/paper/show?paperid=1h100xp0pc5d0ag0hf1c0m20k0577642&site=xueshu_se&hitarticle=1

    [11]

    Jian Meng, Jia Ting, Wu Lifa, et al. Content-based bipartite user-image correlation for image recommendation[J]. Neural Processing Letters, 2020, 52(2): 1445−1459 doi: 10.1007/s11063-020-10317-5

    [12]

    Chang Peichan, Lin Chenghui, Chen Menghui. A hybrid course recommendation system by integrating collaborative filtering and artificial immune systems[J/OL]. Algorithms, 2016[2022-07-16].https://www.mdpi.com/1999-4893/9/3/47

    [13]

    Zhang Jing, Hao Bowen, Chen Bo, et al. Hierarchical reinforcement learning for course recommendation in MOOCs[C] //Proc of the 33rd AAAI Conf on Artificial Intelligence. Palo Alto, CA: AAAI, 2019, 33(1): 435−442

    [14]

    Wan Shanshan, Niu Zhendong. A hybrid e-learning recommendation approach based on learners’ influence propagation[J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 32(5): 827−840

    [15]

    Wang Xuebin, Zhu Zhengzhou, Yu Jiaqi, et al. A learning resource recommendation algorithm based on online learning sequential behavior[J]. International Journal of Wavelets, Multiresolution and Information Processing, 2018, 17(2): 1940001

    [16]

    Jamali M, Ester M. A matrix factorization technique with trust propagation for recommendation in social networks[C] //Proc of the 4th ACM Conf on Recommender Systems. New York: ACM, 2010: 135−142

    [17]

    Wang Hongwei, Zhang Fuzheng, Hou Min, et al. Shine: Signed heterogeneous information network embedding for sentiment link prediction[C]//Proc of the 18th ACM Int Conf on Web Search and Data Mining. New York: ACM, 2018: 592−600

    [18]

    Sun Yu, Yuan Nijing, Xie Xing, et al. Collaborative intent prediction with real-time contextual data[J]. ACM Transactions on Information Systems, 2017, 35(4): 1−33

    [19]

    Chen Wei, Niu Zhendong, Zhao Xiangyu, et al. A hybrid recommendation algorithm adapted in e-learning environments[J]. World Wide Web, 2014, 17(2): 271−284 doi: 10.1007/s11280-012-0187-z

    [20]

    Li Hui, Li Haining, Zhang Shu, et al. Intelligent learning system based on personalized recommendation technology[J]. Neural Computing and Applications, 2019, 31(9): 4455−4462 doi: 10.1007/s00521-018-3510-5

    [21]

    Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C] // Proc of the 14th IEEE Int Conf on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2013: 6645−6649

    [22]

    Hu Ze, Zhang Zhan, Yang Haiqing, et al. A deep learning approach for predicting the quality of online health expert question-answering services[J]. Journal of Biomedical Informatics, 2017, 71: 241−253 doi: 10.1016/j.jbi.2017.06.012

    [23]

    Zhou Yuwen, Huang Changqin, Hu Qintai, et al. Personalized learning full-path recommendation model based on LSTM neural networks[J]. Information Sciences, 2018, 444: 135−152 doi: 10.1016/j.ins.2018.02.053

    [24]

    Li Haojun, Zhang Zhen, Guo Haidong, et al. Personalized learning resource recommendation from the perspective of deep learning [J]. Modern Distance Education Research, 2019[2022-07-16].https://www.sciencedirect.com/science/article/abs/pii/S0020025518301397

    [25]

    Fan Ju, Jiang Yuanchun, Liu Yezheng, et al. Interpretable MOOC recommendation: A multi-attention network for personalized learning behavior analysis[J]. Internet Research, 2021, 34(5): 1934−1947

    [26]

    Wang Jingjing, Xie Haoran, Wang Fu, et al. Top-N personalized recommendation with graph neural networks in MOOCs[J/OL]. Computers and Education: Artificial Intelligence, 2021[2022-07-16]. https://www.sciencedirect.com/science/article/pii/S2666920X21000047

    [27]

    Xu Wei, Zhou Yuhan. Course video recommendation with multimodal information in online learning platforms: A deep learning framework[J]. British Journal of Educational Technology, 2020, 51(5): 1734−1747 doi: 10.1111/bjet.12951

    [28]

    Gong Jibing, Wang Shen, Wang Jinlong, et al. Attentional graph convolutional networks for knowledge concept recommendation in MOOCs in a heterogeneous view[C] //Proc of the 43rd Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2020: 79−88

    [29]

    Sun Yizhou, Han Jiawei, Zhao Peixaing, et al. Rankclus: Integrating clustering with ranking for heterogeneous information network analysis[C] //Proc of the 12th Int Conf on Extending Database Technology: Advances in Database Technology. New York: ACM, 2009: 565−57

    [30]

    Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C] //Proc of the 31st Advances in Neural Information Processing Systems. Cambridge, MA: MIT, 2017: 5998−6008

    [31]

    Mikolov T, Chen Kai, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint, arXiv: 1301. 3781, 2013

    [32]

    MOOCData. MOOCCube[DB/OL]. 2020 [2022-03-18]. http://moocddata.cn/data/MOOCCube

    [33]

    He Xiangnan, Liao Lizi, Zhang Hanwang, et al. Neural collaborative filtering[C] //Proc of the 26th Int Conf on World Wide Web. New York: ACM, 2017: 173−182

    [34]

    He Xiangnan, He Zhankui, Song Jingkuan, et al. NAIS: Neural attentive item similarity model for recommendation[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(12): 2354−2366 doi: 10.1109/TKDE.2018.2831682

    [35]

    Li Jing, Ren Pengjie, Chen Zhumin, et al. Neural attentive session-based recommendation[C] //Proc of the 17th ACM on Conf on Information and Knowledge Management. New York: ACM, 2017: 1419−1428

    [36]

    Dong Yuxiao, Chawla N V, Swami A. metapath2vec: Scalable representation learning for heterogeneous networks[C] //Proc of the 23rd ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2017: 135−144

    [37]

    Lin Yuanguo, Feng Shibo, Lin Fan, et al. Adaptive course recommendation in MOOCs[J]. Knowledge-Based Systems, 2021, 224: 107085 doi: 10.1016/j.knosys.2021.107085

  • 期刊类型引用(1)

    1. 周洋涛,褚华,朱非非,李祥铭,韩子涵,张帅. 基于深度学习的个性化学习资源推荐综述. 计算机科学. 2024(10): 17-32 . 百度学术

    其他类型引用(2)

图(6)  /  表(1)
计量
  • 文章访问数:  124
  • HTML全文浏览量:  36
  • PDF下载量:  79
  • 被引次数: 3
出版历程
  • 收稿日期:  2022-07-23
  • 修回日期:  2023-04-23
  • 网络出版日期:  2023-11-13
  • 刊出日期:  2024-02-01

目录

/

返回文章
返回