ISSN 1000-1239 CN 11-1777/TP

    2018数据挖掘前沿进展专题

    默认 最新文章 浏览次数
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 2018数据挖掘前沿进展专题前言
    尹义龙,钱宇华
    计算机研究与发展    2018, 55 (8): 1597-1598.  
    摘要1103)   HTML24)    PDF (407KB)(738)   
    在当前大数据时代,海量数据的挖掘和分析尤为重要,数据挖掘技术在媒体、金融、医疗、交通、电商等领域都取得了广泛的应用。但是,大数据的复杂多样性以及数据挖掘技术在各行业应用的特殊性也为数据挖掘领域提出了新的理论和技术挑战。为及时反映国内同行在数据挖掘领域的最新研究成果,《计算机研究与发展》本次推出“数据挖掘前沿进展2018”专题征文,以进一步推动我国数据挖掘领域的创新发展。本专题得到了国内同行的广泛关注,经公开征文共收到稿件55篇,从中选择出了11篇优秀稿件。此外,专题与第七届中国数据挖掘会议(CCDM 2018)合作,从333篇会议投稿中遴选出了6篇高质量稿件纳入本专题。最终共有17篇稿件入选本专题。
    相关文章 | 计量指标
    2. 基于用电特征分析的窃电行为识别方法
    史玉良,荣以平,朱伟义
    计算机研究与发展    2018, 55 (8): 1599-1608.   doi: 10.7544/issn1000-1239.2018.20180216
    摘要1143)   HTML6)    PDF (2681KB)(680)   
    反窃电工作是实现电力企业用电管理不可或缺的环节.针对山东省用电用户数量多、分布面积广、窃电现象逐年上升、检测人员不足等特点,对获取的用户窃电行为数据进行合理的分析、处理,提出一种基于用电特征分析的窃电行为识别方法,实现对窃电嫌疑用户的筛查.该方法首先基于采集样本,以过滤式算法和规则阈值设定的方式,实现采集样本数据的特征提取,从而提高采集数据的有效性;随后以逻辑回归算法构建用户窃电行为诊断模型,实现对窃电嫌疑用户的判定;此外,采用推送、排查、处理和反馈的闭环工作机制不断优化模型,并以国网山东省电力公司用电信息采集系统、营销业务应用系统提供数据进行算例分析,验证了所述方法的可行性与适用性.
    相关文章 | 计量指标
    3. 蝴蝶种类自动识别研究
    谢娟英,侯琦,史颖欢,吕鹏,景丽萍,庄福振,张军平,谭晓阳,许升全
    计算机研究与发展    2018, 55 (8): 1609-1618.   doi: 10.7544/issn1000-1239.2018.20180181
    摘要1331)   HTML15)    PDF (4187KB)(529)   
    针对现有蝴蝶识别研究中所用数据集蝴蝶种类偏少,且只含有蝴蝶标本照片、不含生态环境中蝴蝶照片的问题,发布了一个同时包含标本照片和生态照片的蝴蝶图像数据集,其中标本照片包含全部中国蝶类志蝴蝶种类,共计4270张照片、1176种,蝴蝶生态环境下照片1425张、111种.提出基于深度学习技术Faster R-CNN的蝴蝶种类自动识别系统,包括生态照片中蝴蝶位置的自动检测和物种鉴定.实验去除只含有单张生态照片的蝴蝶种类,对剩余的蝴蝶生态照片进行5-5划分,构造2种不同训练数据集:一半生态照片+全部模式照片、一半生态照片+对应种类模式照片;训练3种不同网络结构的蝴蝶自动识别系统,以平均精度均值(mean average precision, mAP)为评价指标,采用上下、左右翻转、不同角度旋转、加噪、不同程度模糊、对比度升降等9种方式扩充训练集.实验结果表明,基于Faster R-CNN深度学习框架的蝴蝶自动识别系统对生态环境中的蝴蝶照片能实现其中蝴蝶位置的自动检测和物种识别,模型的mAP最低值接近60%,并能同时检测出生态照中的多只蝴蝶和完成物种识别.
    相关文章 | 计量指标
    4. 基于网络节点中心性度量的重叠社区发现算法
    杜航原,王文剑,白亮
    计算机研究与发展    2018, 55 (8): 1619-1630.   doi: 10.7544/issn1000-1239.2018.20180187
    摘要762)   HTML1)    PDF (2359KB)(990)   
    基于搜索密度峰值的聚类思想,设计了一种网络节点的中心性度量模型,并提出了一种重叠社区发现算法.首先,定义了网络节点的内聚度和分离度,分别用于描述网络社区内部连接稠密和外部连接稀疏的结构特征,在此基础上计算节点的中心性度量表达节点对社区结构的影响力.接着,利用3δ法则选择中心度异常大的节点作为社区中心.以隶属度表达社区间的重叠特性,并给出了非中心节点的隶属度迭代计算方法,将各节点分配到其可能隶属的网络社区,以实现重叠社区划分.最后,利用人工网络和真实网络对提出的重叠社区发现算法进行验证,实验结果表明:该算法在社区发现质量和计算效率方面都优于许多已有重叠社区发现算法.
    相关文章 | 计量指标
    5. 面向短文本分析的分布式表示模型
    梁吉业,乔洁,曹付元,刘晓琳
    计算机研究与发展    2018, 55 (8): 1631-1640.   doi: 10.7544/issn1000-1239.2018.20180233
    摘要894)   HTML6)    PDF (2015KB)(501)   
    短文本的分布式表示已经成为文本数据挖掘的一项重要任务.然而,直接应用分布式表示模型Paragraph Vector尚有不足,其根本原因是其在训练过程中并没有利用到语料库级别的信息,从而不能有效改善短文本中语境信息不足的情况.鉴于此,提出了一种面向短文本分析的分布式表示模型——词对主题句向量模型(biterm topic paragraph vector, BTPV),该模型通过将词对主题模型(biterm topic model, BTM)得出的主题信息融入Paragraph Vector中,不仅使得模型训练过程中利用到了全局语料库的信息,而且还利用BTM显性的主题表示完善了Paragraph Vector隐性的空间向量.实验采用爬取到的热门新闻评论作为数据集,并选用K-Means聚类算法对各模型的短文本表示效果进行比较.实验结果表明,基于BTPV模型的分布式表示较常见的分布式向量化模型word2vec和Paragraph Vector来说能取得更好的短文本聚类效果,从而显现出该模型面向短文本分析的优势.
    相关文章 | 计量指标
    6. 面向微博短文本的社交与概念化语义扩展搜索方法
    崔婉秋,杜军平,寇菲菲,李志坚,LeeJangMyung
    计算机研究与发展    2018, 55 (8): 1641-1652.   doi: 10.7544/issn1000-1239.2018.20180363
    摘要546)   HTML1)    PDF (3817KB)(499)   
    充分挖掘微博短文本的语义以实现精准搜索是一项重要任务.由于微博文本内容具有稀疏性和语义局限性的特点,使得仅通过分析字面语义来进行短文本理解和相似性匹配的传统搜索方法受到了一定的限制.因此提出了一种社交与概念化语义结合的扩展搜索方法,通过挖掘社交网络独特的社交属性如#标签#、“@”和链接信息URL,对微博短文本实现进一步的社交语义扩展.该方法将文本字面分析获取的概念词语和社交关系中潜在的关联标签信息相结合,对短文本进行2种角度下的语义特征表示,实现了基于微博短文本语义充分理解的精准搜索.在微博数据集上的对比实验表明,与已有的扩展搜索方法相比所提方法能捕捉更多的语义特征,微博搜索的性能也得到了显著的提升.
    相关文章 | 计量指标
    7. 变熵画像:一种数量级压缩物端数据的多粒度信息模型
    朝鲁,彭晓晖,徐志伟
    计算机研究与发展    2018, 55 (8): 1653-1666.   doi: 10.7544/issn1000-1239.2018.20180219
    摘要788)   HTML3)    PDF (4139KB)(417)   
    近年来由物联网边缘和物端设备产生的数据呈现出爆发式的增长,催生了边缘计算、物端计算等新型物联网计算模式,利用“计算向数据源靠近”这一理念从架构上显著地改善了整体系统性能和能耗.然而,大量资源相对受限的物端设备暴露了现有计算模式的2个缺陷:1)由于不能存储海量数据导致部分计算无法下沉至末端;2)由于无法针对多样化的应用需求提供多粒度信息支持导致冗余计算和存储开销.围绕这2个问题,提出了一种数量级压缩物端数据的多粒度信息模型——变熵画像(variant entropy profile, VEP),及其TSR-VEP数据存储原型.基于真实的智能电表数据集和基准测试实验结果表明:VEP能在较低应用观测误差的前提下,实现物端数据的数量级压缩和多粒度信息存储查询.结合测试结果的讨论显示了VEP具备应用于物端设备的可行性与进一步优化边缘计算和物端计算的潜力.
    相关文章 | 计量指标
    8. 基于卷积神经网络的左右眼识别
    钟志权,袁进,唐晓颖
    计算机研究与发展    2018, 55 (8): 1667-1673.   doi: 10.7544/issn1000-1239.2018.20180215
    摘要1094)   HTML11)    PDF (1407KB)(755)   
    利用一个深度卷积神经网络提出并验证了一种能自动判别左右眼的新方法.根据左眼和右眼图像的特征差异性,所设计的网络能够自动估计网络的所有参数.在Alexnet网络的基础之上进行修改,设计的卷积神经网络由4个卷积池化层和2个全连接层组成,其次是作为最后一层的分类器.基于针对42541张眼底图像的实验结果,所提出的网络的训练精度约为100%,测试精度高达99%.此外,所提出的网络具有高度的鲁棒性,它可以成功地识别大量具有多变性的眼底图像.据所知,这是第1个基于深度学习用于左右眼识别的高精准度网络.
    相关文章 | 计量指标
    9. 基于快速多示例多标记学习的G蛋白偶联受体生物学功能预测
    吴建盛,冯巧遇,袁京洲,胡海峰,周家特,高昊
    计算机研究与发展    2018, 55 (8): 1674-1682.   doi: 10.7544/issn1000-1239.2018.20180361
    摘要557)   HTML0)    PDF (925KB)(330)   
    G蛋白偶联受体(G protein-coupled receptors, GPCRs)是人类中最庞大的膜蛋白家族,也是很多药物的重要靶点,准确了解GPCRs生物学功能是理解它们参与的生物学过程及其药物作用机制的关键.以前的研究表明,蛋白质功能预测可抽象为多示例多标记学习(multi-instance multi-label learning, MIML)问题.设计了一种基于快速多示例多标记学习方法MIMLfast的GPCRs生物学功能预测模型.该模型采用了一种新的混合特征,它考虑了GPCRs结构域的三联氨基酸、氨基酸关联、进化、二级结构关联、信号肽及无序残基等多种信息.实验结果证明,该模型获得了很好的性能,优于目前最优的多示例多标记学习、多标记学习的预测方法和CAFA蛋白质功能预测方法.
    相关文章 | 计量指标
    10. 基于U统计量和集成学习的基因互作检测方法
    郭颖婕,刘晓燕,吴辰熙,郭茂祖,李傲
    计算机研究与发展    2018, 55 (8): 1683-1693.   doi: 10.7544/issn1000-1239.2018.20180365
    摘要528)   HTML2)    PDF (3366KB)(402)   
    在全基因组关联研究GWAS中,多数方法对疾病与单核苷酸多态性位点之间的互作关系形式给出了强假设,这降低了相关方法的挖掘能力.近几年,以基因作为研究单位的基因-基因相互作用检测方法,因其在统计效力与生物可解释性方面的优势受到重视.针对已有方法检测相互作用类型时存在的局限性,提出一种基于U统计值与集成学习器的假设检验方法GBUtrees,通过构造统计量用于表征疾病性状与2个基因之间关系偏离加性模型的程度,检测以基因为单位的基因-基因相互作用.该统计量在不同子样例集下结果的平均值满足U统计量理论,从而可以利用U统计量的渐进正态分布性质获得所构造统计量的分布信息.GBUtrees对相互作用的形式不作假设,增强该方法对不同形式相互作用的挖掘能力.仿真与真实实验结果表明:该方法能够有效地进行不同类型相互作用的挖掘,可以应用于全基因组关联研究.
    相关文章 | 计量指标
    11. 一种最大置信上界经验采样的深度Q网络方法
    朱斐,吴文,刘全,伏玉琛
    计算机研究与发展    2018, 55 (8): 1694-1705.   doi: 10.7544/issn1000-1239.2018.20180148
    摘要835)   HTML5)    PDF (3221KB)(382)   
    由深度学习(deep learning, DL)和强化学习(reinforcement learning, RL)结合形成的深度强化学习(deep reinforcement learning, DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性.
    相关文章 | 计量指标
    12. 密集异构网络中基于强化学习的流量卸载算法
    王倩,聂秀山,尹义龙
    计算机研究与发展    2018, 55 (8): 1706-1716.   doi: 10.7544/issn1000-1239.2018.20180310
    摘要651)   HTML3)    PDF (2327KB)(524)   
    近年来互联网用户规模和网络流量呈现爆炸式的增长,不断逼近蜂窝移动通信网络的容量极限.流量卸载技术可充分利用现有网络,将蜂窝网络的部分流量卸载到空闲网络中,进行跨网协作实现对蜂窝网络容量的极大提升,可有效解决有限的无线带宽资源与海量高速业务需求的矛盾.将强化学习的思想引入流量卸载算法中,提出了一种异构网络中基于强化学习的流量卸载算法.该算法把流量卸载问题映射为一个强化学习问题.基于前一状态完成的动作,以WiFi网络吞吐量作为回报函数,准确地预测需卸载的流量,并计算当前网络的最大卸载量,寻找最佳的WiFi网络接入点(access point, AP),并推导出最优的流量卸载判决规则,达到异构网络整体吞吐量最大化.仿真结果表明:基于Q学习的流量卸载算法可有效地实现自适应流量卸载控制规则,有效地避免过度卸载引起的碰撞冲突和系统性能急剧恶化,达到跨网协作的负载均衡点,在保证WiFi用户服务质量的条件下,最大限度地提高LTE系统吞吐量,保证密集异构网络的整体性能.
    相关文章 | 计量指标
    13. 一种可度量的贝叶斯网络结构学习方法
    綦小龙,高阳,王皓,宋蓓,周春蕾,张友卫
    计算机研究与发展    2018, 55 (8): 1717-1725.   doi: 10.7544/issn1000-1239.2018.20180197
    摘要681)   HTML5)    PDF (1062KB)(2235)   
    针对基于约束的方法存在的序依赖、高阶检验等问题,提出了一种通过互信息排序的贝叶斯网络结构学习方法,该方法包括度量信息矩阵学习和“偷懒”启发式策略2部分.其中度量信息矩阵刻画了变量间的依赖程度而且暗含了程度强弱的比较,有效地解决了检验过程中由于变量序导致的误判问题;“偷懒”启发式策略在度量信息矩阵的指导下有选择地将变量加入到条件集中,有效地降低了高阶检验而且减少了检验次数.从理论上证明了新方法的可靠性,从实验上展示了在不丢失学习结构质量的条件下,新方法的搜索比其他搜索过程显著快而且易扩展到样本量小且稀疏的数据集上.
    相关文章 | 计量指标
    14. 语言值直觉模糊概念格及其应用
    邹丽,冯凯华,刘新
    计算机研究与发展    2018, 55 (8): 1726-1734.   doi: 10.7544/issn1000-1239.2018.20180240
    摘要456)   HTML2)    PDF (1169KB)(303)   
    人们经常用自然语言进行推理判断和决策,针对具有语言值信息的不确定问题,基于语言值直觉模糊代数和直觉模糊形式背景,提出了语言值直觉模糊形式背景并讨论了其相关性质,建立了语言值直觉模糊概念格.研究了语言值直觉模糊形式概念之间的贴近度,进一步给出语言值直觉模糊形式概念格之间的贴近度,进而提出了语言值直觉模糊概念格的模式识别方法,并将其应用到中医疾病诊断识别中,说明所提出方法的有效性和实用性.
    相关文章 | 计量指标
    15. 布尔Game的核求解算法
    王博,刘惊雷
    计算机研究与发展    2018, 55 (8): 1735-1750.   doi: 10.7544/issn1000-1239.2018.20180360
    摘要566)   HTML2)    PDF (2644KB)(359)   
    布尔Game是一种重要的多Agent合作求解框架,它利用命题逻辑来表达静态的Agent博弈场景.其中每个Agent的目标采用命题公式来表示,其目标是否满足取决于命题公式的赋值.目前布尔Game多从知识表示角度和纳什均衡计算的角度来研究,从联盟角度研究核的求解却不多.布尔Game求核是生成策略组合然后在策略组合内对比的过程.首先,通过以布尔Game的决策变量为顶点、以目标为超边,构成布尔Game上的超图结构来求满足核的约束满足的解.其次,以Agent为顶点、以Agent间的依赖关系为边构成的有向依赖图,可以将布尔Game根据稳定集分解为规模上更小的布尔Game.这2种结构简化了求核的生成过程和比较过程,进而在一定程度上提高了布尔Game求核效率.然后基于超图的超树分解和依赖图的稳定集分解,给出了不同的布尔Game的求核算法.最后实验验证了算法的有效性.
    相关文章 | 计量指标
    16. 基于神经网络探究标签依赖关系的多标签分类
    宋攀,景丽萍
    计算机研究与发展    2018, 55 (8): 1751-1759.   doi: 10.7544/issn1000-1239.2018.20180362
    摘要990)   HTML7)    PDF (2022KB)(653)   
    多标签学习广泛应用于文本分类、图像标注、视频语义注释、基因功能分析等问题.最近,多标签学习受到大量的关注,成为机器学习领域中的研究热点.然而,已有的算法并不能充分地探究标签之间的依赖关系和解决标签缺失问题,为此提出一种基于神经网络探究标签依赖关系的算法NN_AD_Omega,它能够有效地处理这2个挑战.NN_AD_Omega算法在神经网络顶层加入Ω矩阵刻画标签之间的依赖关系,标签之间的依赖关系可通过充分挖掘数据内在特点得到.当实例部分标签缺失时,学到的标签之间依赖关系能够有效提高预测效果.为了高效地求解模型,采用最小批梯度下降方法(Mini-batch-GD),其中学习率的自适应计算采用AdaGrad技术.在4个标准多标签数据集上的实验结果表明,提出的算法能够探究标签之间的依赖关系和处理标签缺失问题,且其性能优于当前基于神经网络的多标签学习算法.
    相关文章 | 计量指标
    17. 稀疏约束下快速低秩共享的字典学习方法及其人脸识别
    田泽,杨明,李爱师
    计算机研究与发展    2018, 55 (8): 1760-1772.   doi: 10.7544/issn1000-1239.2018.20180364
    摘要612)   HTML4)    PDF (2672KB)(416)   
    字典学习是重要的特征表示方法之一,在人脸识别等方面有广泛的应用,特别适合解决姿态变化下的人脸识别问题,因而倍受研究者的关注.为有效增强字典的判别能力,研究者结合领域知识和抗噪等策略提出大量的字典学习模型,其中包括最近提出的同时进行降维和字典学习的方法,但这些方法侧重考虑样本中特定类的信息,未能有效考虑训练样本间的共享信息.因此,提出了一种稀疏约束下快速低秩共享的字典学习方法.该方法采用降维和字典联合进行学习的方式,并嵌入Fisher判别准则获得特定类字典和编码系数,同时施加低秩约束获得低秩共享字典,以此增强字典和编码系数的判别能力.此外,运用Cayley变换保护投影矩阵的正交性来获得紧凑的特征集合.在AR,Extended Yale B,CMU PIE和FERET四个数据集上的人脸识别实验验证所提方法的优越性.实验结果表明所提方法在表情变化下的人脸识别具有很强的鲁棒性,并对光照起到了抑制作用,尤其适合解决光照、表情变化下的小样本问题.
    相关文章 | 计量指标
    18. 基于符号语义映射的知识图谱表示学习算法
    杨晓慧,万睿,张海滨,曾义夫,刘峤
    计算机研究与发展    2018, 55 (8): 1773-1784.   doi: 10.7544/issn1000-1239.2018.20180248
    摘要1190)   HTML12)    PDF (2451KB)(657)   
    图的分布式表示对于知识图谱的构建与应用任务至关重要.通过对当前流行的图表示学习模型进行比较,分析了现有模型存在的不合理之处,据此提出了一个基于符号语义映射的神经网络模型用于学习图的分布式表示,基本思想是依据知识图谱中已有的实体关系数据,采用循环神经网络对符号组合(实体-关系组合)进行语义编码,并将其映射到目标符号(实体)上.此外,通过为图中的每个关系类型引入一个逆关系镜像,解决了关系的非对称性问题,使模型能够适应多种不同类型的(同构或异构)网络的关系推理任务.该模型适用于大规模知识图谱的表示学习任务.在公开数据集上的实验结果表明,该模型在知识图谱扩容任务和基于图的多标签分类任务上的性能表现优于相关工作.
    相关文章 | 计量指标