2020年 第57卷 第8期
2020, 57(8): 1569-1570.
DOI: 10.7544/issn1000-1239.2020.qy0801
摘要:
数据挖掘旨在利用机器学习等智能数据分析技术,发掘数据对象蕴含的知识与规律,为任务决策提供有效支撑.国务院印发的《新一代人工智能发展规划》中明确指出,数据挖掘是建立新一代人工智能关键共性技术体系的基础支撑.在大数据时代背景下,数据挖掘技术已广泛应用于金融、医疗、教育、交通、媒体等领域.然而,随着人工智能、移动互联网、云计算等信息技术的快速发展,数据挖掘研究在理论、方法、应用等多个层面均面临新的挑战.
为及时反映国内同行在数据挖掘方面的前沿研究成果,《计算机研究与发展》本次推出“数据挖掘与知识发现”专题,以进一步推动我国数据挖掘及相关领域的创新发展.本专题得到了国内同行的广泛关注,经公开征文共收到投稿74篇.此外,专题组稿与第八届中国数据挖掘会议(CCDM2020)合作,从285篇会议投稿中遴选出5篇高质量论文.特约编辑先后邀请多位数据挖掘及相关领域的专家参与审稿工作,稿件评审历经4个月,最终有18篇论文入选本专题.
数据挖掘旨在利用机器学习等智能数据分析技术,发掘数据对象蕴含的知识与规律,为任务决策提供有效支撑.国务院印发的《新一代人工智能发展规划》中明确指出,数据挖掘是建立新一代人工智能关键共性技术体系的基础支撑.在大数据时代背景下,数据挖掘技术已广泛应用于金融、医疗、教育、交通、媒体等领域.然而,随着人工智能、移动互联网、云计算等信息技术的快速发展,数据挖掘研究在理论、方法、应用等多个层面均面临新的挑战.
为及时反映国内同行在数据挖掘方面的前沿研究成果,《计算机研究与发展》本次推出“数据挖掘与知识发现”专题,以进一步推动我国数据挖掘及相关领域的创新发展.本专题得到了国内同行的广泛关注,经公开征文共收到投稿74篇.此外,专题组稿与第八届中国数据挖掘会议(CCDM2020)合作,从285篇会议投稿中遴选出5篇高质量论文.特约编辑先后邀请多位数据挖掘及相关领域的专家参与审稿工作,稿件评审历经4个月,最终有18篇论文入选本专题.
2020, 57(8): 1571-1580.
DOI: 10.7544/issn1000-1239.2020.20200194
摘要:
动量方法由于能够改善SGD(stochastic gradient descent)的收敛性能而倍受机器学习研究者的关注.随着其在深度学习的成功应用,动量方法出现了众多形式的变体.特别地,产生了SUM(stochastic unified momentum)和QHM(quasi-hyperbolic momentum)两种统一框架.但是,即使是对非光滑凸优化问题,其最优平均收敛性的获得仍然存在着固定迭代步数和无约束等不合理限制.为此,提出了一种更一般的含三参数的统一化动量方法TPUM(triple-parameters unified momentum),能够同时包含SUM和QHM;其次,针对约束的非光滑凸优化问题,在采取时变步长的条件下,证明了所提出的TPUM具有最优的平均收敛速率,并将其推广到随机情况,从而保证了添加动量不会影响标准梯度下降法的收敛性能以及动量方法对机器学习问题的可应用性.典型的L1范数约束hinge损失函数优化问题实验验证了理论分析的正确性.
动量方法由于能够改善SGD(stochastic gradient descent)的收敛性能而倍受机器学习研究者的关注.随着其在深度学习的成功应用,动量方法出现了众多形式的变体.特别地,产生了SUM(stochastic unified momentum)和QHM(quasi-hyperbolic momentum)两种统一框架.但是,即使是对非光滑凸优化问题,其最优平均收敛性的获得仍然存在着固定迭代步数和无约束等不合理限制.为此,提出了一种更一般的含三参数的统一化动量方法TPUM(triple-parameters unified momentum),能够同时包含SUM和QHM;其次,针对约束的非光滑凸优化问题,在采取时变步长的条件下,证明了所提出的TPUM具有最优的平均收敛速率,并将其推广到随机情况,从而保证了添加动量不会影响标准梯度下降法的收敛性能以及动量方法对机器学习问题的可应用性.典型的L1范数约束hinge损失函数优化问题实验验证了理论分析的正确性.
2020, 57(8): 1581-1593.
DOI: 10.7544/issn1000-1239.2020.20200127
摘要:
在人类自身的学习过程中,对学习结果进行科学客观的评价与反馈是关键环节.通常,由于学习者的知识缺陷或证据不足使得学习过程存在随机性,进一步可能导致学习结果与实际情况产生随机一致性.对此结果的直接反馈将严重影响学习性能的提升.同样,机器学习是以数据为驱动、以目标为导向的学习系统.由于经验历史数据有限、不平衡、含噪音等特质导致学习结果具有随机一致性.然而,以准确度为反馈准则的机器学习系统无法辨识随机一致性,这会影响学习系统的泛化能力.首先给出随机准确度和纯准确度的定义,并且进一步分析消除随机准确度的意义及必要性.然后,基于纯准确度指标,提出消除随机一致性的支持向量机分类方法PASVM,并在KEEL数据集的10种不同领域的基准测试集上验证其有效性.实验结果表明:相比于SVM、SVMperf以及其他可用于优化纯准确度指标的学习方法,PASVM泛化性能有明显提高.
在人类自身的学习过程中,对学习结果进行科学客观的评价与反馈是关键环节.通常,由于学习者的知识缺陷或证据不足使得学习过程存在随机性,进一步可能导致学习结果与实际情况产生随机一致性.对此结果的直接反馈将严重影响学习性能的提升.同样,机器学习是以数据为驱动、以目标为导向的学习系统.由于经验历史数据有限、不平衡、含噪音等特质导致学习结果具有随机一致性.然而,以准确度为反馈准则的机器学习系统无法辨识随机一致性,这会影响学习系统的泛化能力.首先给出随机准确度和纯准确度的定义,并且进一步分析消除随机准确度的意义及必要性.然后,基于纯准确度指标,提出消除随机一致性的支持向量机分类方法PASVM,并在KEEL数据集的10种不同领域的基准测试集上验证其有效性.实验结果表明:相比于SVM、SVMperf以及其他可用于优化纯准确度指标的学习方法,PASVM泛化性能有明显提高.
2020, 57(8): 1594-1604.
DOI: 10.7544/issn1000-1239.2020.20200490
摘要:
大多数有关深度学习的研究都基于神经网络,即可通过反向传播训练的多层参数化非线性可微模块.近年来,深度森林作为一种非神经网络深度模型被提出,该模型具有远少于深度神经网络的超参数.在不同的超参数设置下以及在不同的任务下,它都表现出非常鲁棒的性能,并且能够基于数据确定模型的复杂度.以gcForest为代表的深度森林的研究为探索基于不可微模块的深度模型提供了一种可行的方式.然而,深度森林目前是一种批量学习方法,这限制了它在许多实际任务中的应用,如数据流的应用场景.因此探索了在增量场景下搭建深度森林的可能性,并提出了蒙德里安深度森林.它具有级联森林结构,可以进行逐层处理.设计了一种自适应机制,通过调整原始特征和经过前一层变换后的特征的权重,以进一步增强逐层处理能力,更好地克服了蒙德里安森林在处理无关特征方面的不足.实验结果表明:蒙德里安深度森林在继承蒙德里安森林的增量训练能力的同时,显著提升了预测性能,并能够使用相同的超参数设置在多个数据集上取得很好的性能.在增量训练场景下,蒙德里安深度森林取得了与定期重新训练的gcForest接近的预测准确率,且将训练速度提升一个数量级.
大多数有关深度学习的研究都基于神经网络,即可通过反向传播训练的多层参数化非线性可微模块.近年来,深度森林作为一种非神经网络深度模型被提出,该模型具有远少于深度神经网络的超参数.在不同的超参数设置下以及在不同的任务下,它都表现出非常鲁棒的性能,并且能够基于数据确定模型的复杂度.以gcForest为代表的深度森林的研究为探索基于不可微模块的深度模型提供了一种可行的方式.然而,深度森林目前是一种批量学习方法,这限制了它在许多实际任务中的应用,如数据流的应用场景.因此探索了在增量场景下搭建深度森林的可能性,并提出了蒙德里安深度森林.它具有级联森林结构,可以进行逐层处理.设计了一种自适应机制,通过调整原始特征和经过前一层变换后的特征的权重,以进一步增强逐层处理能力,更好地克服了蒙德里安森林在处理无关特征方面的不足.实验结果表明:蒙德里安深度森林在继承蒙德里安森林的增量训练能力的同时,显著提升了预测性能,并能够使用相同的超参数设置在多个数据集上取得很好的性能.在增量训练场景下,蒙德里安深度森林取得了与定期重新训练的gcForest接近的预测准确率,且将训练速度提升一个数量级.
2020, 57(8): 1605-1616.
DOI: 10.7544/issn1000-1239.2020.20200196
摘要:
分类问题是数据挖掘的一个重要研究课题.朴素贝叶斯分类器是分类问题中一种简单高效的分类学习技术.该分类器假定给定类标时属性之间相互条件独立,然而现实中属性之间往往具有一定的依赖关系.“属性-值”序偶构成的模式在分类问题中具有关键作用,许多研究者利用这种特定模式构造分类器,而特定模式所包含的属性与其他属性之间的依赖关系,将对分类结果产生重要影响.通过对属性间的依赖关系进行深入研究,提出基于选择性模式的贝叶斯分类算法,既利用了基于贝叶斯网络分类器的优秀分类能力,又通过进一步分析模式中属性之间的依赖关系,削弱了属性条件独立假设的限制.实验证明:根据数据集特点,深入挖掘高区分能力的模式,合理构建属性之间的依赖关系,有助于提升分类精度.实验分析表明:与基准算法NB,AODE相比,提出的分类算法在10个数据集上的平均精度分别提升了1.65%和4.29%.
分类问题是数据挖掘的一个重要研究课题.朴素贝叶斯分类器是分类问题中一种简单高效的分类学习技术.该分类器假定给定类标时属性之间相互条件独立,然而现实中属性之间往往具有一定的依赖关系.“属性-值”序偶构成的模式在分类问题中具有关键作用,许多研究者利用这种特定模式构造分类器,而特定模式所包含的属性与其他属性之间的依赖关系,将对分类结果产生重要影响.通过对属性间的依赖关系进行深入研究,提出基于选择性模式的贝叶斯分类算法,既利用了基于贝叶斯网络分类器的优秀分类能力,又通过进一步分析模式中属性之间的依赖关系,削弱了属性条件独立假设的限制.实验证明:根据数据集特点,深入挖掘高区分能力的模式,合理构建属性之间的依赖关系,有助于提升分类精度.实验分析表明:与基准算法NB,AODE相比,提出的分类算法在10个数据集上的平均精度分别提升了1.65%和4.29%.
2020, 57(8): 1617-1626.
DOI: 10.7544/issn1000-1239.2020.20200496
摘要:
函数型数据的模式识别问题广泛存在于医学、经济、金融、生物、气象等各个领域,探索更具泛化性能的分类器对准确挖掘函数型数据当中隐藏的知识至关重要.针对经典函数Logistic模型的泛化性能不高的问题,提出了线性正则化函数Logistic模型,该模型的生成通过求解一个优化问题实现.在该优化问题当中,前项是基于函数样例的似然函数构造的,用于控制函数样例的分类性能;后项是正则化项,用于控制模型的复杂性.同时,这2项进行了线性加权组合,这样,限制了正则化子的取值范围,方便给出一个经验最优参数,然后可在这一经验最优参数的指导下选出一个适当的函数主成分基个数下的Logistic模型用于函数型数据的分类.实验结果表明:选出的线性正则化函数Logistic模型的泛化性能优于经典的函数Logistic模型.
函数型数据的模式识别问题广泛存在于医学、经济、金融、生物、气象等各个领域,探索更具泛化性能的分类器对准确挖掘函数型数据当中隐藏的知识至关重要.针对经典函数Logistic模型的泛化性能不高的问题,提出了线性正则化函数Logistic模型,该模型的生成通过求解一个优化问题实现.在该优化问题当中,前项是基于函数样例的似然函数构造的,用于控制函数样例的分类性能;后项是正则化项,用于控制模型的复杂性.同时,这2项进行了线性加权组合,这样,限制了正则化子的取值范围,方便给出一个经验最优参数,然后可在这一经验最优参数的指导下选出一个适当的函数主成分基个数下的Logistic模型用于函数型数据的分类.实验结果表明:选出的线性正则化函数Logistic模型的泛化性能优于经典的函数Logistic模型.
2020, 57(8): 1627-1638.
DOI: 10.7544/issn1000-1239.2020.20200212
摘要:
基于图谱理论的多视图聚类是该领域的代表性方法之一.然而,现有模型尚存在3个问题.1)这类方法大多没有考虑不同视图之间的聚类性能差异,强制要求所有视图共享一个公共相似图;2)部分模型将相似图构建和聚类分步进行,导致所构建的相似图对于聚类任务并非最优;3)虽已有若干模型采用核学习处理数据间的非线性关系,但大多基于全局模型计算数据在核空间中的自表达关系,不利于充分挖掘局部非线性信息,且易带来沉重的计算负荷.为了应对以上问题,提出一种基于邻域多核学习的后融合多视图聚类算法,在类划分空间而不是数据相似图的层次进行信息融合,采用邻域多核学习方案在充分保留局部非线性关系的同时减轻计算负荷,并提出一种交替优化方案将相似图构建、多核组合、类指示矩阵生成等子任务在统一的框架下进行协同优化.多个数据集上的实验表明:该算法具有良好的多视图聚类效果.
基于图谱理论的多视图聚类是该领域的代表性方法之一.然而,现有模型尚存在3个问题.1)这类方法大多没有考虑不同视图之间的聚类性能差异,强制要求所有视图共享一个公共相似图;2)部分模型将相似图构建和聚类分步进行,导致所构建的相似图对于聚类任务并非最优;3)虽已有若干模型采用核学习处理数据间的非线性关系,但大多基于全局模型计算数据在核空间中的自表达关系,不利于充分挖掘局部非线性信息,且易带来沉重的计算负荷.为了应对以上问题,提出一种基于邻域多核学习的后融合多视图聚类算法,在类划分空间而不是数据相似图的层次进行信息融合,采用邻域多核学习方案在充分保留局部非线性关系的同时减轻计算负荷,并提出一种交替优化方案将相似图构建、多核组合、类指示矩阵生成等子任务在统一的框架下进行协同优化.多个数据集上的实验表明:该算法具有良好的多视图聚类效果.
2020, 57(8): 1639-1649.
DOI: 10.7544/issn1000-1239.2020.20200219
摘要:
无监督特征选择算法可以对高维无标记数据进行有效的降维,从而减少数据处理的时间和空间复杂度,避免算法模型出现过拟合现象.然而,现有的无监督特征选择方法大都运用k近邻法捕捉数据样本的局部几何结构,忽略了数据分布不均的问题.为了解决这个问题,提出了一种基于自适应邻域嵌入的无监督特征选择(adaptive neighborhood embedding based unsupervised feature selection, ANEFS)算法,该算法根据数据集自身的分布特点确定每个样本的近邻数,进而构造样本相似矩阵,同时引入从高维空间映射到低维空间的中间矩阵,利用拉普拉斯乘子法优化目标函数进行求解.6个UCI数据集的实验结果表明:所提出的算法能够选出具有更高聚类精度和互信息的特征子集.
无监督特征选择算法可以对高维无标记数据进行有效的降维,从而减少数据处理的时间和空间复杂度,避免算法模型出现过拟合现象.然而,现有的无监督特征选择方法大都运用k近邻法捕捉数据样本的局部几何结构,忽略了数据分布不均的问题.为了解决这个问题,提出了一种基于自适应邻域嵌入的无监督特征选择(adaptive neighborhood embedding based unsupervised feature selection, ANEFS)算法,该算法根据数据集自身的分布特点确定每个样本的近邻数,进而构造样本相似矩阵,同时引入从高维空间映射到低维空间的中间矩阵,利用拉普拉斯乘子法优化目标函数进行求解.6个UCI数据集的实验结果表明:所提出的算法能够选出具有更高聚类精度和互信息的特征子集.
2020, 57(8): 1650-1662.
DOI: 10.7544/issn1000-1239.2020.20200158
摘要:
社区检测是复杂网络分析中的重要任务,现有的社区检测方法多侧重于利用单纯的网络结构,而融合节点属性的方法也主要针对传统的社区结构,不能检测网络中的二部图结构、混合结构等情况.此外,网络中每个节点的度会影响网络中链接的构成,同样会影响社区结构的分布.因此,提出一种基于随机块模型的属性网络社区检测方法DPSB_PG.不同于其他属性网络中的生成式模型,该方法中节点链接和节点属性的产生均服从泊松分布,并基于随机块模型考虑社区间相连接的概率,重点在节点链接的生成过程中融合度修正的思想,最后利用期望最大化EM算法推断模型中的参数,得到网络中节点的社区隶属度.真实网络上的实验结果显示:模型继承了随机块模型的优点,能够检测网络中的广义社区结构,且由于度修正的引入,具有很好的数据拟合能力,因此在属性网络与非属性网络社区检测性能上优于其他现有相关算法.
社区检测是复杂网络分析中的重要任务,现有的社区检测方法多侧重于利用单纯的网络结构,而融合节点属性的方法也主要针对传统的社区结构,不能检测网络中的二部图结构、混合结构等情况.此外,网络中每个节点的度会影响网络中链接的构成,同样会影响社区结构的分布.因此,提出一种基于随机块模型的属性网络社区检测方法DPSB_PG.不同于其他属性网络中的生成式模型,该方法中节点链接和节点属性的产生均服从泊松分布,并基于随机块模型考虑社区间相连接的概率,重点在节点链接的生成过程中融合度修正的思想,最后利用期望最大化EM算法推断模型中的参数,得到网络中节点的社区隶属度.真实网络上的实验结果显示:模型继承了随机块模型的优点,能够检测网络中的广义社区结构,且由于度修正的引入,具有很好的数据拟合能力,因此在属性网络与非属性网络社区检测性能上优于其他现有相关算法.
2020, 57(8): 1663-1673.
DOI: 10.7544/issn1000-1239.2020.20200202
摘要:
网络表示学习(也被称为图嵌入)是链接预测、节点分类、社区发现、图可视化等图任务的基础.现有大多数的图嵌入算法主要是针对静态图开发的,难以捕捉现实世界的网络随时间进化的动态特征.目前,针对动态网络表示学习方法的研究工作仍相对不足.提出了条件变分时序图自编码器(TS-CVGAE),可以同时学习动态网络的局部结构和随时间的演化模式.该方法首先改进了传统图卷积得到时序图卷积,并在条件变分自编码器的框架下使用时序图卷积对网络节点进行编码.训练结束后,条件变分自编码器的中间层就是最终的网络嵌入结果.实验结果表明,该方法在4个现实动态网络数据集上的链接预测表现均优于相关的静、动态网络表示学习方法.
网络表示学习(也被称为图嵌入)是链接预测、节点分类、社区发现、图可视化等图任务的基础.现有大多数的图嵌入算法主要是针对静态图开发的,难以捕捉现实世界的网络随时间进化的动态特征.目前,针对动态网络表示学习方法的研究工作仍相对不足.提出了条件变分时序图自编码器(TS-CVGAE),可以同时学习动态网络的局部结构和随时间的演化模式.该方法首先改进了传统图卷积得到时序图卷积,并在条件变分自编码器的框架下使用时序图卷积对网络节点进行编码.训练结束后,条件变分自编码器的中间层就是最终的网络嵌入结果.实验结果表明,该方法在4个现实动态网络数据集上的链接预测表现均优于相关的静、动态网络表示学习方法.
2020, 57(8): 1674-1682.
DOI: 10.7544/issn1000-1239.2020.20200206
摘要:
网络嵌入的目的是学习网络中每个节点的低维稠密向量,该问题吸引了研究者的广泛关注.现有方法大多侧重于对图结构的建模,而忽略了属性信息.属性化网络嵌入方法虽然考虑了节点属性,但节点与属性之间的信息关系尚未得到充分的利用.提出了一种利用丰富的关系信息进行属性网络嵌入的新框架.为此,我们首先为属性网络构造节点及其属性之间的复合关系,随后提出一个复合关系图卷积网络(composite relation graph convolution network, CRGCN)模型对这2种网络中的复合关系进行编码.在真实世界的数据集上进行了广泛的实验,结果证明了该模型在多种社交网络分析的有效性.
网络嵌入的目的是学习网络中每个节点的低维稠密向量,该问题吸引了研究者的广泛关注.现有方法大多侧重于对图结构的建模,而忽略了属性信息.属性化网络嵌入方法虽然考虑了节点属性,但节点与属性之间的信息关系尚未得到充分的利用.提出了一种利用丰富的关系信息进行属性网络嵌入的新框架.为此,我们首先为属性网络构造节点及其属性之间的复合关系,随后提出一个复合关系图卷积网络(composite relation graph convolution network, CRGCN)模型对这2种网络中的复合关系进行编码.在真实世界的数据集上进行了广泛的实验,结果证明了该模型在多种社交网络分析的有效性.
2020, 57(8): 1683-1696.
DOI: 10.7544/issn1000-1239.2020.20200432
摘要:
高维数据流在许多现实应用中广泛存在,例如网络监控.不同于传统的静态数据聚类问题,数据流聚类面临有限内存、单遍扫描、实时响应和概念漂移等问题.然而现有许多数据流聚类算法在处理高维数据时,常常因产生维数灾难而导致高计算复杂度和较差的性能.为了解决此问题,基于随机投影和自适应谐振理论(adaptive resonance theory, ART)提出了一种针对高维数据流的高效聚类算法RPFART.该算法具有线性计算复杂度,仅包含1个超参数,并对参数设置鲁棒.详细分析了随机投影对ART的主要影响,尽管该算法仅简单地将随机投影与ART方法进行了结合,但在多个数据集上的实验结果表明:即使将原始尺寸压缩到10%,该方法仍可以达到与RPGStream算法相当的性能.对于ACT1数据集,其维数从67500减少到6750.
高维数据流在许多现实应用中广泛存在,例如网络监控.不同于传统的静态数据聚类问题,数据流聚类面临有限内存、单遍扫描、实时响应和概念漂移等问题.然而现有许多数据流聚类算法在处理高维数据时,常常因产生维数灾难而导致高计算复杂度和较差的性能.为了解决此问题,基于随机投影和自适应谐振理论(adaptive resonance theory, ART)提出了一种针对高维数据流的高效聚类算法RPFART.该算法具有线性计算复杂度,仅包含1个超参数,并对参数设置鲁棒.详细分析了随机投影对ART的主要影响,尽管该算法仅简单地将随机投影与ART方法进行了结合,但在多个数据集上的实验结果表明:即使将原始尺寸压缩到10%,该方法仍可以达到与RPGStream算法相当的性能.对于ACT1数据集,其维数从67500减少到6750.
2020, 57(8): 1697-1706.
DOI: 10.7544/issn1000-1239.2020.20200497
摘要:
变分自编码器(variational autoencoder, VAE)近年来在推荐领域有着很成功的应用.这种非线性概率模型的优势在于它可以突破线性模型有限的建模能力,而线性模型目前仍然在协同过滤研究中占主导地位.尽管基于变分自编码器的推荐方法已经取得了优越的表现,但仍存在一些未解决的问题,例如无法针对隐式反馈的推荐数据为用户生成个性化的推荐排序列表.因此,通过借助多项式似然对变分自编码器实施基于列表的排序策略,提出了一种深度生成推荐模型.该模型具有同时生成点级隐式反馈数据并为每个用户创建列表式偏好排序的能力.为了将排序损失与变分自编码器损失结合起来,采取归一化累计损失增益(normalized cumulative loss gain, NDCG)作为排名损失,并通过平滑函数进行近似.在3个真实世界数据集上(MovieLens-100k,XuetangX和Jester)进行了实验.实验结果表明:结合了列表级排序的变分自编码器在推荐个性化列表所有评价指标上,相比于其他基线模型拥有更出色的表现.
变分自编码器(variational autoencoder, VAE)近年来在推荐领域有着很成功的应用.这种非线性概率模型的优势在于它可以突破线性模型有限的建模能力,而线性模型目前仍然在协同过滤研究中占主导地位.尽管基于变分自编码器的推荐方法已经取得了优越的表现,但仍存在一些未解决的问题,例如无法针对隐式反馈的推荐数据为用户生成个性化的推荐排序列表.因此,通过借助多项式似然对变分自编码器实施基于列表的排序策略,提出了一种深度生成推荐模型.该模型具有同时生成点级隐式反馈数据并为每个用户创建列表式偏好排序的能力.为了将排序损失与变分自编码器损失结合起来,采取归一化累计损失增益(normalized cumulative loss gain, NDCG)作为排名损失,并通过平滑函数进行近似.在3个真实世界数据集上(MovieLens-100k,XuetangX和Jester)进行了实验.实验结果表明:结合了列表级排序的变分自编码器在推荐个性化列表所有评价指标上,相比于其他基线模型拥有更出色的表现.
2020, 57(8): 1707-1714.
DOI: 10.7544/issn1000-1239.2020.20200122
摘要:
跨模态散列可以将异构的多模态数据映射为语义相似度保持的紧凑二值码,为跨模态检索提供了极大的便利.现有的跨模态散列方法在利用类别标签时,通常使用2个不同的映射来表示散列码和类别标签之间的关系.为更好地捕捉散列码和语义标签之间的关系,提出一种基于双向线性回归的监督离散型跨模态散列方法.该方法仅使用一个稳定的映射矩阵来描述散列码与相应标签之间线性回归关系,提升了跨模态散列学习精度和稳定性.此外,该方法在学习用于生成新样本散列码的模态特定映射时,充分考虑了异构模态的特征分布与语义相似度的保持.在2个公开数据集上与现有方法的实验结果验证了该方法在各种跨模态检索场景下的优越性.
跨模态散列可以将异构的多模态数据映射为语义相似度保持的紧凑二值码,为跨模态检索提供了极大的便利.现有的跨模态散列方法在利用类别标签时,通常使用2个不同的映射来表示散列码和类别标签之间的关系.为更好地捕捉散列码和语义标签之间的关系,提出一种基于双向线性回归的监督离散型跨模态散列方法.该方法仅使用一个稳定的映射矩阵来描述散列码与相应标签之间线性回归关系,提升了跨模态散列学习精度和稳定性.此外,该方法在学习用于生成新样本散列码的模态特定映射时,充分考虑了异构模态的特征分布与语义相似度的保持.在2个公开数据集上与现有方法的实验结果验证了该方法在各种跨模态检索场景下的优越性.
2020, 57(8): 1715-1728.
DOI: 10.7544/issn1000-1239.2020.20200169
摘要:
城市交通流预测是研究交通时空序列数据的动态演化并预测未来交通情况的关键技术,对于智能交通预警及管理决策来讲至关重要.但是有效的交通流建模非常具有挑战性,因为它受到很多复杂因素的影响,例如交通网络的时空依赖性和序列突变性等问题.一些研究工作将卷积神经网络(convolutional neural networks, CNN)或循环神经网络(recurrent neural networks, RNN)用于交通流量预测建模.但是,直接使用经典的深度学习模型难以有效捕获与交通流相关的多通道多变量序列数据中的隐含时空依赖性特征.针对上述问题,提出了一种新的序列到序列时空注意力深度学习框架(spatial-temporal attention traffic forecasting, STATF)来处理城市交通流建模任务,它是一种基于卷积LSTM编码层和LSTM解码层,并辅助注意力机制的端到端深度学习模型,可以自适应地学习与城市交通流相关的多通道多变量时空序列数据中的时空依赖性和非线性相关性特征.基于3个真实的交通流数据集实验结果表明:不管是单步预测还是多步预测条件下,STATF模型都具有更优的预测性能.
城市交通流预测是研究交通时空序列数据的动态演化并预测未来交通情况的关键技术,对于智能交通预警及管理决策来讲至关重要.但是有效的交通流建模非常具有挑战性,因为它受到很多复杂因素的影响,例如交通网络的时空依赖性和序列突变性等问题.一些研究工作将卷积神经网络(convolutional neural networks, CNN)或循环神经网络(recurrent neural networks, RNN)用于交通流量预测建模.但是,直接使用经典的深度学习模型难以有效捕获与交通流相关的多通道多变量序列数据中的隐含时空依赖性特征.针对上述问题,提出了一种新的序列到序列时空注意力深度学习框架(spatial-temporal attention traffic forecasting, STATF)来处理城市交通流建模任务,它是一种基于卷积LSTM编码层和LSTM解码层,并辅助注意力机制的端到端深度学习模型,可以自适应地学习与城市交通流相关的多通道多变量时空序列数据中的时空依赖性和非线性相关性特征.基于3个真实的交通流数据集实验结果表明:不管是单步预测还是多步预测条件下,STATF模型都具有更优的预测性能.
2020, 57(8): 1729-1740.
DOI: 10.7544/issn1000-1239.2020.20200181
摘要:
学生成绩的预测与分析旨在实现对学生的个性化指导,提升学生成绩及教师的教学成果.学生成绩受家庭环境、学习条件以及个人表现等多种因素的影响.传统的成绩预测方法往往忽视了不同因素对同一学生成绩的影响程度不同,而且不同学生受同一因素的影响程度也不同,所构建的模型无法实现对学生的个性化分析与指导.因此提出一种基于双路注意力机制的学生成绩预测模型(two-way attention, TWA),该方法不仅有区别地对待了这些因素对成绩的影响程度,而且考虑到了学生的个体差异性.该方法通过两次注意力计算分别得到各属性特征在第1阶段成绩和第2阶段成绩上的注意力得分,并考虑了多种特征融合方式,最后基于融合后的特征对期末成绩进行更好地预测.分别在2个公开数据集上对模型进行了验证,并根据各属性特征在期末成绩上的概率分布对预测结果进行可视化分析.结果显示,所构建模型能够更准确地预测出学生成绩,并且具有良好的可解释性.
学生成绩的预测与分析旨在实现对学生的个性化指导,提升学生成绩及教师的教学成果.学生成绩受家庭环境、学习条件以及个人表现等多种因素的影响.传统的成绩预测方法往往忽视了不同因素对同一学生成绩的影响程度不同,而且不同学生受同一因素的影响程度也不同,所构建的模型无法实现对学生的个性化分析与指导.因此提出一种基于双路注意力机制的学生成绩预测模型(two-way attention, TWA),该方法不仅有区别地对待了这些因素对成绩的影响程度,而且考虑到了学生的个体差异性.该方法通过两次注意力计算分别得到各属性特征在第1阶段成绩和第2阶段成绩上的注意力得分,并考虑了多种特征融合方式,最后基于融合后的特征对期末成绩进行更好地预测.分别在2个公开数据集上对模型进行了验证,并根据各属性特征在期末成绩上的概率分布对预测结果进行可视化分析.结果显示,所构建模型能够更准确地预测出学生成绩,并且具有良好的可解释性.
2020, 57(8): 1741-1754.
DOI: 10.7544/issn1000-1239.2020.20200149
摘要:
电子医疗记录的快速积累与数据分析技术的日益成熟,为实现包含智能诊断与药品推荐等功能的智慧医疗服务奠定了基础.然而,电子病历的精简性与患者症状描述的模糊性,导致诊断模型容易受到高发疾病与常见症状的干扰,从而无法支撑细粒度的诊断与处方,在药品推荐上缺乏针对性.与此同时,病情描述以外的许多情境信息,如患者的性别、年龄等个人信息,诊疗过程、检查结果等记录信息,以及所在地的天气、温差等外部信息等,也对于细化对于患者的诊断和处方有着重要的辅助作用.然而,这些多源异构信息往往难以被现有技术所有效提取与整合,从而限制了病情诊断与药品推荐的有效性.针对这一问题,提出了一种基于多源情境协同感知的药品推荐方法,在有效整合多源异构情境信息的基础上,为实现病情诊断与药品推荐提供了具有可解释性的依据.具体而言,首先使用词袋模型对病历和相应的情境数据进行处理,然后设计了一种基于LDA模型的情境主题模型Medicine-LDA,在融合患者病情描述与相应情境信息的同时,有效缓解了情境信息组合爆炸的问题.基于某大型三甲医院的电子病历数据集上的对比实验证明了该方法的有效性与鲁棒性.
电子医疗记录的快速积累与数据分析技术的日益成熟,为实现包含智能诊断与药品推荐等功能的智慧医疗服务奠定了基础.然而,电子病历的精简性与患者症状描述的模糊性,导致诊断模型容易受到高发疾病与常见症状的干扰,从而无法支撑细粒度的诊断与处方,在药品推荐上缺乏针对性.与此同时,病情描述以外的许多情境信息,如患者的性别、年龄等个人信息,诊疗过程、检查结果等记录信息,以及所在地的天气、温差等外部信息等,也对于细化对于患者的诊断和处方有着重要的辅助作用.然而,这些多源异构信息往往难以被现有技术所有效提取与整合,从而限制了病情诊断与药品推荐的有效性.针对这一问题,提出了一种基于多源情境协同感知的药品推荐方法,在有效整合多源异构情境信息的基础上,为实现病情诊断与药品推荐提供了具有可解释性的依据.具体而言,首先使用词袋模型对病历和相应的情境数据进行处理,然后设计了一种基于LDA模型的情境主题模型Medicine-LDA,在融合患者病情描述与相应情境信息的同时,有效缓解了情境信息组合爆炸的问题.基于某大型三甲医院的电子病历数据集上的对比实验证明了该方法的有效性与鲁棒性.
2020, 57(8): 1755-1768.
DOI: 10.7544/issn1000-1239.2020.20200217
摘要:
随着互联网的发展,基于用户信用的在线服务产品也越来越多地应用到各个领域.在这些信用数据中,除了传统的信贷数据,还包含用户网上消费数据等,因此如何利用这些数据来评估用户的信用等级是一个亟待解决的重要问题.之前的方法主要是基于信贷领域属性的研究,缺乏在互联网领域的研究,并且这些方法很少考虑用户的不同属性对其信用的不同的重要程度.因此,为了解决这些问题,提出一个基于层级注意力机制用户信用评估模型框架(HAM-UCE),模型首先构建用户信用画像,然后利用层级注意力机制在多个注意力层逐步获取更重要的用户属性特征,实现对用户信用等级的评估.实验结果表明该方法能够有效地实现对用户信用进行等级评估,能够比基准算法取得更好的性能.
随着互联网的发展,基于用户信用的在线服务产品也越来越多地应用到各个领域.在这些信用数据中,除了传统的信贷数据,还包含用户网上消费数据等,因此如何利用这些数据来评估用户的信用等级是一个亟待解决的重要问题.之前的方法主要是基于信贷领域属性的研究,缺乏在互联网领域的研究,并且这些方法很少考虑用户的不同属性对其信用的不同的重要程度.因此,为了解决这些问题,提出一个基于层级注意力机制用户信用评估模型框架(HAM-UCE),模型首先构建用户信用画像,然后利用层级注意力机制在多个注意力层逐步获取更重要的用户属性特征,实现对用户信用等级的评估.实验结果表明该方法能够有效地实现对用户信用进行等级评估,能够比基准算法取得更好的性能.
2020, 57(8): 1769-1778.
DOI: 10.7544/issn1000-1239.2020.20200494
摘要:
股票市场是国家经济发展的重要组成部分,也是与我们日常生活息息相关的一个市场,股民的情绪一定程度上可以作为影响股票价格的因素之一.提出一种基于ConvLstm(convolutional long short term memory)的股票情感分析价格预测的深度学习模型SCONV(semantic convolutional).该模型通过爬取股民评价,使用LSTM(long short term memory)模型并通过word2vec,进行情感分析,提取情感向量,并得出每一日的情感权重.随后将每日股价分别与对应前1日、前3日均值、前一周均值的情感权重与股票价格一起放入ConvLstm中进行训练,再使用叠加的一层LSTM来增加准确率,并在ConvLstm与增加的LSTM之间增加dropout层,来避免过拟合.实验数据采用了3年左右阿里巴巴(BABA.us)、1.5年左右平安银行(000001.sh)、5个月左右格力电器(000651.sz),实验结果表明:相比一些传统模型,SCONV在较小的样本集上依旧可以更好地预测股票价格的走势.
股票市场是国家经济发展的重要组成部分,也是与我们日常生活息息相关的一个市场,股民的情绪一定程度上可以作为影响股票价格的因素之一.提出一种基于ConvLstm(convolutional long short term memory)的股票情感分析价格预测的深度学习模型SCONV(semantic convolutional).该模型通过爬取股民评价,使用LSTM(long short term memory)模型并通过word2vec,进行情感分析,提取情感向量,并得出每一日的情感权重.随后将每日股价分别与对应前1日、前3日均值、前一周均值的情感权重与股票价格一起放入ConvLstm中进行训练,再使用叠加的一层LSTM来增加准确率,并在ConvLstm与增加的LSTM之间增加dropout层,来避免过拟合.实验数据采用了3年左右阿里巴巴(BABA.us)、1.5年左右平安银行(000001.sh)、5个月左右格力电器(000651.sz),实验结果表明:相比一些传统模型,SCONV在较小的样本集上依旧可以更好地预测股票价格的走势.