前 言

数据挖掘旨在利用机器学习等智能数据分析技术,发掘数据对象蕴含的知识与规律,为任务决策提供有效支撑.国务院印发的《新一代人工智能发展规划》中明确指出,数据挖掘是建立新一代人工智能关键共性技术体系的基础支撑.在大数据时代背景下,数据挖掘技术已广泛应用于金融、医疗、教育、交通、媒体等领域.然而,随着人工智能、移动互联网、云计算等信息技术的快速发展,数据挖掘研究在理论、方法、应用等多个层面均面临新的挑战.

为及时反映国内同行在数据挖掘方面的前沿研究成果,《计算机研究与发展》本次推出“数据挖掘与知识发现”专题,以进一步推动我国数据挖掘及相关领域的创新发展.本专题得到了国内同行的广泛关注,经公开征文共收到投稿74篇.此外,专题组稿与第八届中国数据挖掘会议(CCDM 2020)合作,从285篇会议投稿中遴选出5篇高质量论文.特约编辑先后邀请多位数据挖掘及相关领域的专家参与审稿工作,稿件评审历经4个月,最终有18篇论文入选本专题.

首先,发展适于大数据特性的数据挖掘理论与方法,是大数据时代数据挖掘与知识发现研究的基础.

丁成诚等人的论文“一种三参数统一化动量方法及其最优收敛速率”针对现有动量方法存在的需固定迭代步数和无约束等限制,提出了一种含三参数的统一化动量方法TPUM,证明了该方法在求解有约束非光滑凸优化问题时具有最优的平均收敛速率,并推广至随机情况.王婕婷等人的论文“消除随机一致性的支持向量机分类方法”针对传统支持向量机学习过程存在的随机一致性问题,给出了从准确度中消除随机一致部分的纯准确度指标,并提出了基于纯准确度指标的支持向量机模型PASVM.贺一笑等人的论文“蒙德里安深度森林”针对增量场景下构建基于不可微模块的深度模型问题,提出了具有逐层处理能力的蒙德里安深度森林,通过级联森林结构和自适应机制逐层提升预测性能.鞠卓亚等人的论文“基于选择性模式的贝叶斯分类算法”针对如何减弱朴素贝叶斯网络中的属性条件独立假设限制问题,将选择性模式区分能力引入贝叶斯分类算法,结合特定模式与聚合单层依赖分类器从而平衡模式内外属性间的依赖关系.孟银凤等人的论文“线性正则化函数Logistic模型”面向函数型数据的二分类问题,通过对基于函数样例的似然函数与控制模型复杂度的正则化项进行线性加权组合,提出了一种线性正则化函数Logistic模型.夏冬雪等人的论文“基于邻域多核学习的后融合多视图聚类算法”面向基于图谱理论的多视图聚类问题,提出了一种基于邻域多核学习的后融合多视图聚类算法,并给出了相似图构建、多核组合、类指示生成矩阵生成的协同优化方案.刘艳芳等人的论文“基于自适应邻域嵌入的无监督特征选择算法”针对基于k近邻的无监督特征选择方法忽略数据分布不均的问题,通过考察样本的分布稠密程度构造样本相似矩阵,提出了自适应邻域嵌入无监督特征选择算法ANEFS.

其次,数据驱动是数据挖掘与知识发现的基本特性,研究特定类型数据挖掘与分析技术具有重要意义.

郑忆美等人的论文“一种度修正的属性网络随机块模型”面向属性网络社区检测任务,提出了一种基于随机块模型的属性网络社区检测方法,在节点链接生成过程中引入度修正提升属性网络社区检测性能.陈可佳等人的论文“条件变分时序图自编码器”面向动态网络表示学习问题,提出了一种基于时序图卷积和条件变分自编码器的动态网络表示学习方法TS-CVGAE,实现动态网络局部结构与时间演化模式的同步学习.陈亦琦等人的论文“基于复合关系图卷积的属性网络嵌入方法”针对无监督属性网络嵌入问题,提出了一种考虑属性网络构造节点与其属性间复合关系的图卷积网络模型,从而保留网络中丰富的属性信息.朱颖雯等人的论文“基于随机投影的高维数据流聚类”面向高维数据流聚类问题,通过结合随机投影与自适应谐振理论,提出了一种仅具有线性复杂度且仅包含单个鲁棒超参数的高效聚类算法RPFART.孙肖依等人的论文“基于列表级排序的深度生成推荐方法”针对基于变分自编码器的推荐方法,在隐式反馈数据上为用户生成个性化排序推荐列表,提出了一种应用列表级排序学习方法的深度生成推荐模型.刘兴波等人的论文“基于双向线性回归的监督离散跨模态散列方法”针对跨模态检索问题,通过采用双向映射矩阵描述散列矩阵与标签矩阵关系,提出了一种保持散列码与标签语义相关性的有监督离散跨模态散列方法SDCH.

此外,数据挖掘技术在交通、教育、医疗、金融等诸多领域具有广泛的应用价值.

杜圣东等人的论文“一种基于序列到序列时空注意力学习的交通流预测模型”针对城市交通流预测问题,通过集成序列到序列深度学习结构、卷积LSTM网络以及时空注意力机制,提出了一种面向多通道多变量序列数据的交通流预测模型.李梦莹等人的论文“基于双路注意力机制的学生成绩预测模型”通过分析学生个体差异性以及不同因素对学生成绩的影响程度,提出双路注意力机制充分学习各属性特征与成绩间的关系信息,在提升预测性能的同时具有良好的可解释性.郑值等人的论文“基于多源情境协同感知的药品推荐”采用主题模型将患者的情境信息表示为情境主题分布,提出了一种整合多源异构情境信息的药品推荐方法,并在真实电子病历数据集上验证了方法的有效性与鲁棒性.陈彦敏等人的论文“基于层级注意力机制的互联网用户信用评估框架”针对互联网用户信用评估问题,提出了一种基于互联网用户画像的层级注意力机制信用评估模型,体现用户属性层次结构关系并挖掘不同粒度属性的重要程度.林培光等人的论文“SCONV:一种基于情感分析的金融市场趋势预测方法”通过融合语义分析与带卷积的LSTM模型,将原始金融交易数据与股民评价作为模型输入,提出了一种基于情感分析的价格预测深度学习模型.

本专题主要面向数据挖掘及相关领域的研究人员,反映了我国学者在数据挖掘等领域研究的前沿进展.在此,特别感谢《计算机研究与发展》编委会对专题工作的指导和帮助,感谢编辑部各位老师在征稿启示发布、论文评审与意见汇总、论文定稿、修改及出版各个阶段付出的辛勤工作,感谢专题评审专家及时、耐心、细致的评审工作.此外,我们还要感谢向本专题踊跃投稿的作者对《计算机研究与发展》的信任.

最后,希望本专题能够对相关领域的研究工作有所裨益.

陈恩红(中国科学技术大学)

梁吉业(山西大学)

张敏灵(东南大学)

2020年7月