在当前大数据时代,海量数据的挖掘和分析尤为重要,数据挖掘技术在媒体、金融、医疗、交通、电商等领域都取得了广泛的应用.但是,大数据的复杂多样性以及数据挖掘技术在各行业应用的特殊性也为数据挖掘领域提出了新的理论和技术挑战.为及时反映国内同行在数据挖掘领域的最新研究成果,《计算机研究与发展》本次推出“数据挖掘前沿进展”专题征文,以进一步推动我国数据挖掘领域的创新发展.

本专题得到了国内同行的广泛关注,经公开征文共收到稿件55篇.特约编委邀请多位数据挖掘及相关领域的专家参与审稿工作,每篇稿件都由2位专家进行初审,2位特邀编委参考初审意见进行了复审,从中选择出了11篇优秀稿件.此外,专题与第7届中国数据挖掘会议(CCDM 2018)合作,从333篇会议投稿中遴选出了6篇高质量稿件纳入本专题.最终共有17篇稿件入选本专题.

首先,在大数据时代背景下,研究面向特定应用领域的数据挖掘方法与技术具有重要意义.

史玉良等人的论文“基于用电特征分析的窃电行为识别方法”对获取的用户窃电行为数据进行分析、处理,提出一种基于用电特征分析的窃电行为识别方法,实现对窃电嫌疑用户的筛查;谢娟英等人的论文“蝴蝶种类自动识别研究”发布了一个同时包含标本照片和生态照片的蝴蝶图像数据集,并提出基于深度学习技术的蝴蝶种类自动识别系统,包含对蝴蝶的位置自动检测和物种鉴定;杜航原等人的论文“基于网络节点中心性度量的重叠社区发现算法”基于搜索密度峰值的聚类思想,设计了一种网络节点的中心性度量模型,并提出了一种重叠社区发现算法;梁吉业等人的论文“面向短文本分析的分布式表示模型”提出了一种词对主题句向量模型(BTPV),该模型将词对主题模型(BTM)得出的主题信息融入Paragraph Vector中;崔婉秋等人的论文“面向微博短文本的社交与概念化语义扩展搜索方法”融合文本语义和标签等社交结构信息,用社交语义对文本做进一步扩充,在此之下挖掘微博文本之间更多的潜在语义关系,提高微博短文本搜索的准确性;朝鲁等人的论文“变熵画像:一种数量级压缩物端数据的多粒度信息模型”提出了一种数量级压缩物端数据的多粒度信息模型——变熵画像(VEP),并设计实现了一种基于时间序列分解原理,且满足VEP理论的物端数据存储原型——TSR-VEP;钟志权等人的论文“基于卷积神经网络的左右眼识别”利用一个深度卷积神经网络提出并验证了一种能够自动判别左右眼的新方法;吴建盛等人的论文“基于快速多示例多标记学习的G蛋白偶联受体生物学功能预测”利用快速多示例多标记学习方法,基于新的混合特征,对G蛋白偶联受体的基因本体学分子功能和生物学过程进行了预测;郭颖婕等人的论文“基于U统计量和集成学习的基因互作检测方法”提出了一种基于U统计值与集成学习器的假设检验框架GBUtrees,通过构造统计量用于表征疾病性状与2个基因之间关系偏离加性模型的程度,检测以基因为单位的基因-基因相互作用.

此外,作为实现智能化的核心技术,基于机器学习的智能数据分析是数据挖掘领域研究的热点.

朱斐等人的论文“一种最大置信上界经验采样的深度Q网络方法”在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高所采样本的多样性;王倩等人的论文“密集异构网络中基于强化学习的流量卸载算法”将强化学习的思想引入流量卸载算法中,提出了一种异构网络中基于强化学习的流量卸载算法;綦小龙等人的论文“一种可度量的贝叶斯网络结构学习方法”提出了一种通过互信息排序的贝叶斯网络结构学习方法,该方法包括度量信息矩阵学习和“偷懒”启发式策略2部分;邹丽等人的论文“语言值直觉模糊概念格及其应用”定义了语言值直觉模糊形式背景,构造了语言值直觉模糊概念格,研究了语言值直觉模糊概念之间以及语言值直觉模糊概念格之间的贴近度,并提出了语言值直觉模糊概念格的模式识别方法,将其应用于中医疾病诊断识别中;王博等人的论文“布尔Game的核求解算法”研究了以布尔Game为输入的核求解问题;宋攀等人的论文“基于神经网络探究标签依赖关系的多标签分类”基于神经网络结构提出了一种探究标签之间依赖关系的算法,用以提升多标签分类算法的性能;田泽等人的论文“稀疏约束下快速低秩共享的字典学习方法及其人脸识别”在字典学习中采用降维和字典联合进行学习的方式,同时施加低秩约束获得共享字典,并将其应用于人脸识别中;杨晓慧等人的论文“基于符号语义映射的知识图谱表示学习算法”提出了一个基于符号语义映射的神经网络模型用于学习图分布式表示,并且通过为图中的每个关系类型引入一个逆关系镜像,使得模型能够适应多种不同类型的(同构或异构)网络的关系推理任务.

本专题主要面向数据挖掘及其相关领域的研究人员,在一定程度上反映了我国学者在数据挖掘等领域研究的前沿进展.在此,我们要特别感谢《计算机研究与发展》编辑部对专题工作的指导与帮助,感谢编辑部在征文发布、论文评审与意见汇总、论文定稿、修改及出版工作中所付出的辛勤努力和汗水,感谢所有稿件评审专家及时、认真的评审工作.此外,我们还要感谢诸多踊跃投稿的作者,感谢他们对专题工作的支持和对《计算机研究与发展》的信任.

最后,感谢专题的读者们,希望本专题能够对相关领域的研究工作有所促进.