ISSN 1000-1239 CN 11-1777/TP

    2016数据挖掘前沿技术专题

    默认 最新文章 浏览次数
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 2016数据挖掘前沿技术专题
    封举富,于剑
    计算机研究与发展    2016, 53 (8): 1649-1650.  
    摘要1518)   HTML7)    PDF (385KB)(1007)   
    大数据时代为数据挖掘技术带来了更多机遇与问题,如大数据的海量性要求更高效的数据挖掘算法,大数据积累的快速性要求实时性更强的数据挖掘算法,大数据的复杂多样性要求适应性更强的数据挖掘算法,大数据的在各行各业的普遍性导致对数据挖掘算法的领域特殊性等,?这也对数据挖掘提出了新的诉求。《计算机研究与发展》本次推出的数据挖掘前沿技术专题共收录15篇论文,反映了我国学者在数据挖掘前沿技术领域近期的部分研究成果.
    相关文章 | 计量指标
    2. 基于Ranking的泊松矩阵分解兴趣点推荐算法
    余永红,高阳,王皓
    计算机研究与发展    2016, 53 (8): 1651-1663.   doi: 10.7544/issn1000-1239.2016.20160202
    摘要1271)   HTML3)    PDF (3051KB)(864)   
    随着基于位置社交网络(location-based social network, LBSN)的发展,兴趣点推荐成为满足用户个性化需求、减轻信息过载问题的重要手段.然而,已有的兴趣点推荐算法存在如下的问题:1)多数已有的兴趣点推荐算法简化用户签到频率数据,仅使用二进制值来表示用户是否访问一个兴趣点;2)基于矩阵分解的兴趣点推荐算法把签到频率数据和传统推荐系统中的评分数据等同看待,使用高斯分布模型建模用户的签到行为;3)忽视用户签到数据的隐式反馈属性.为解决以上问题,提出一个基于Ranking的泊松矩阵分解兴趣点推荐算法.首先,根据LBSN中用户的签到行为特点,利用泊松分布模型替代高斯分布模型建模用户在兴趣点上签到行为;然后采用BPR(Bayesian personalized ranking)标准优化泊松矩阵分解的损失函数,拟合用户在兴趣点对上的偏序关系;最后,利用包含地域影响力的正则化因子约束泊松矩阵分解的过程.在真实数据集上的实验结果表明:基于Ranking的泊松矩阵分解兴趣点推荐算法的性能优于传统的兴趣点推荐算法.
    相关文章 | 计量指标
    3. 融合社区结构和兴趣聚类的协同过滤推荐算法
    郭弘毅,刘功申,苏波,孟魁
    计算机研究与发展    2016, 53 (8): 1664-1672.   doi: 10.7544/issn1000-1239.2016.20160175
    摘要935)   HTML0)    PDF (2068KB)(837)   
    传统的协同过滤推荐算法受限于数据稀疏性问题,导致推荐结果较差.用户的社交关系信息能够体现用户之间的相互影响,将其用于推荐算法能够提高推荐结果的准确度,目前的社交化推荐算法大多只考虑了用户的直接社交关系,没有利用到潜在的用户兴趣偏好信息以及群体聚类信息.针对上述情况,提出一种融合社区结构和兴趣聚类的协同过滤推荐算法.首先通过重叠社区发现算法挖掘用户社交网络中存在的社区结构,同时利用项目所属类别信息,设计模糊聚类算法挖掘用户兴趣偏好层面的聚类信息.然后将2种聚类信息融合到矩阵分解模型的优化分解过程中.在Yelp数据集上进行了新算法与其他算法的对比实验,结果表明,该算法能够有效提高推荐结果的准确度.
    相关文章 | 计量指标
    被引次数: Baidu(32)
    4. 用户在线购买预测:一种基于用户操作序列和选择模型的方法
    曾宪宇,刘淇,赵洪科,徐童,王怡君,陈恩红
    计算机研究与发展    2016, 53 (8): 1673-1683.   doi: 10.7544/issn1000-1239.2016.20160103
    摘要1289)   HTML4)    PDF (2515KB)(867)   
    电商网站的兴起与用户在线购物习惯的形成,带来了海量的在线消费行为数据.如何从这些行为数据(如点击数据)中建模用户对相似产品的比较和选择过程,进而准确预测用户的兴趣偏好和购买行为,对于提高产品的购买转化率具有重要意义.针对这一问题,提出了基于用户行为序列数据和选择模型的在线购买预测解决方案.具体而言,1)使用行为序列效用函数估计用户在购买周期(session)中的最佳替代商品,然后对购买商品和最佳替代商品建立基于潜在因子的选择模型(latent factor based choice model, LF-CM),从而得到用户的购买偏好,实现对用户购买行为的预测.更进一步,为了充分地利用用户在每个购买周期的所有选择和比较信息,提高预测精度;2)提出了一种可以作用于购买周期内所有商品的排序学习模型(latent factor and sequence based choice model, LFS-CM),它通过融合潜在因子和行为序列的效用函数,提高了购买预测的精度;3)使用大规模真实数据集在分布式环境下进行了实验,并与参照算法进行了对比,证实了所提出的2个方法在用户在线购买预测上的有效性.
    相关文章 | 计量指标
    5. 一种基于关联信息熵度量的特征选择方法
    董红斌,滕旭阳,杨雪
    计算机研究与发展    2016, 53 (8): 1684-1695.   doi: 10.7544/issn1000-1239.2016.20160172
    摘要1134)   HTML7)    PDF (2019KB)(899)   
    特征选择旨在从原始集合中选择一个规模较小的特征子集,该子集能够在数据挖掘和机器学习任务中提供与原集合近似或者更好的表现.在不改变特征物理意义的基础上,较少特征为数据提供了更强的可解读性.传统信息论方法往往将特征相关性和冗余性分割判断,无法判断整个特征子集的组合效应.将数据融合领域中的关联信息熵理论应用到特征选择中,基于该方法度量特征间的独立和冗余程度.利用特征与类别的互信息与特征对组合构建特征相关矩阵,在计算矩阵特征值时充分考虑了特征子集中不同特征间的多变量关系.提出了特征排序方法,并结合参数分析提出一种自适应的特征子集选择方法.实验结果表明所提方法在分类任务中的有效性和高效性.
    相关文章 | 计量指标
    被引次数: Baidu(30)
    6. 基于语义一致性的集成实体链接算法
    刘峤,钟云,刘瑶,吴祖峰,秦志光
    计算机研究与发展    2016, 53 (8): 1696-1708.   doi: 10.7544/issn1000-1239.2016.20160192
    摘要968)   HTML1)    PDF (2387KB)(463)   
    实体链接任务的目标是将从文本中抽取得到的实体指称项正确地链接到知识库中的对应实体对象上.当前主流的实体链接算法大致可分为2类:基于上下文相似度的实体链接算法和基于图的集成实体链接算法.这2类算法各自存在一些优点和不足.前者有利于从上下文语义的角度对实体进行区分,但难以充分利用知识库中已有的知识体系辅助决策;后者能够更好地利用知识库中实体间的语义关联关系,但在上下文信息不充分的情况下,较难区分概念相近的实体.提出一种基于语义一致性的集成实体链接算法,该算法能够更好地利用知识库中实体间的结构化语义关系,帮助提高算法对概念相似实体的区分度,实验结果表明:该算法能够有效提高实体链接结果的准确率和召回率,性能显著优于当前的主流算法,在对长、短文本的实体链接任务中性能表现稳定,具有良好的适应性和可推广性.
    相关文章 | 计量指标
    7. 社交网络中多渠道影响最大化方法
    李小康,张茜,孙昊,孙广中
    计算机研究与发展    2016, 53 (8): 1709-1718.   doi: 10.7544/issn1000-1239.2016.20160211
    摘要907)   HTML1)    PDF (2635KB)(561)   
    社交网络因为其流行性,近些年得到学术界的广泛关注,社交网络影响最大化是社交网络领域中最流行的问题之一.经典的影响最大化问题是从网络中选取k个初始用户,作为种子用户,让其在网络中传播影响,使得最终受影响的用户数最大化.以往的绝大部分工作针对于单个网络的传播,真实情况下信息是借助多个网络传播的.考虑到信息在多个网络中的传播,提出社交网络中多渠道影响最大化问题,从多个网络中选取k个种子用户,让其同时在多个网络中传播影响,使最终受种子用户影响的用户量最大化.将该问题规约为社交网络影响最大化问题,证明其在独立级联模型下是NP难的.根据问题的特性,提出3种有效的近似解决方法,并在4个真实的社交网络数据中进行实验.实验表明3种的方法能够有效地解决多渠道下的影响力最大化问题.
    相关文章 | 计量指标
    8. 基于局部密度下降搜索的自适应聚类方法
    徐正国,郑辉,贺亮,姚佳奇
    计算机研究与发展    2016, 53 (8): 1719-1728.   doi: 10.7544/issn1000-1239.2016.20160136
    摘要898)   HTML0)    PDF (4102KB)(589)   
    聚类分析是数据挖掘中一个重要的研究领域,用于在无监督条件下,从混合类别的数据集中分离各样本的自然分组.根据不同的先验条件,现已提出了多种不同的聚类算法.但复杂数据集中存在的聚类个数未知、聚类形态混杂、样本分布不均匀以及类间样本数不均衡等问题,仍然是当前聚类分析研究中的重难点问题.针对这些问题,通过定义样本分布的局部密度,提出了一种利用类内密度有序性搜索聚类边界的新的聚类方法,能够实现在未知聚类个数条件下,对任意分布形态的数据样本集进行聚类.同时,通过自适应调节聚类参数来处理数据分布疏密度不一、类间样本数不均衡以及局部密度异常等特殊情况,避免样本类别被误划分和噪声数据干扰.实验结果表明,在6类典型测试集上,提出的新聚类算法均有较好的适用性,而在与典型聚类算法和最近发表的一种聚类算法的性能指标对比上,新算法也表现更优.
    相关文章 | 计量指标
    被引次数: Baidu(7)
    9. 异质网中基于张量表示的动态离群点检测方法
    刘露,左万利,彭涛
    计算机研究与发展    2016, 53 (8): 1729-1739.   doi: 10.7544/issn1000-1239.2016.20160178
    摘要883)   HTML4)    PDF (3961KB)(1116)   
    挖掘隐藏在异质信息网络中丰富的语义信息是数据挖掘的重要任务之一.离群点在值、数据分布、和产生机制上都明显不同于正常数据对象.检测离群点并分析其不同的产生机制,最终消除离群点具有重要的现实意义.目前,针对异质信息网络动态离群点检测的研究工作相对较少,还有很多问题有待解决.由于异质信息网络的动态性,随着时间的变化,正常数据对象也可能转变为离群点.针对异质网络提出一种基于张量表示的动态离群点检测方法(TRBOutlier),并根据张量表示的高阶数据构建张量索引树.通过搜索张量索引树,将特征加入到直接项集和间接项集中.同时,根据基于短文本相关性的聚类方法来判断数据集中的数据对象是否偏离其原聚簇来动态检测网络中的离群点.该模型能够在充分降低时间和空间复杂度的条件下保留异质网络中的语义信息.实验结果表明:该方法能够快速有效地进行异质网络环境下的动态离群点检测.
    相关文章 | 计量指标
    10. 挖掘专利知识实现关键词自动抽取
    陈忆群,周如旗,朱蔚恒,李梦婷,印鉴
    计算机研究与发展    2016, 53 (8): 1740-1752.   doi: 10.7544/issn1000-1239.2016.20160195
    摘要1357)   HTML5)    PDF (2962KB)(783)   
    关键词是人们快速判断是否要详细阅读文件内容的重要线索,关键词自动抽取在信息检索、自然语言处理等研究领域均有重要应用.设计了一种新的关键词自动抽取方法,使计算机能够像人类专家一样,利用知识库对目标文本进行学习和理解,最终自动抽取出关键词.专利数据因其数据量庞大、内容丰富、表达准确、专业权威而被选中作为知识库来源.详细讨论了专利数据的特性,挖掘不同专利间的知识关联,针对某一知识领域构造背景知识库,在此基础上进行目标文本的关键词自动抽取.与目标文本相关的专利文集中每个专利的专利发明人、权利人、专利引用和分类信息都被用于在不同的专利文档之间发现关联性,利用关联信息扩充背景知识库,获得目标文档在各个相关知识领域的背景知识库.基于背景知识库设计了词知识特征值,以反映词在目标文本背景知识中的重要程度.最后,把关键词抽取问题转化为分类问题,利用支持向量机(support vector machine, SVM)抽取出目标文本的关键词.在专利数据集和开放数据集的实验结果证明明显优于现有算法.
    相关文章 | 计量指标
    被引次数: Baidu(5)
    11. 基于正负样例的蛋白质功能预测
    傅广垣,余国先,王峻,郭茂祖
    计算机研究与发展    2016, 53 (8): 1753-1765.   doi: 10.7544/issn1000-1239.2016.20160196
    摘要884)   HTML4)    PDF (1417KB)(565)   
    蛋白质功能预测是后基因组时代生物信息学的核心问题之一.蛋白质功能标记数据库通常仅提供蛋白质具有某个功能(正样例)的信息,极少提供蛋白质不具有某个功能(负样例)的信息.当前的蛋白质功能预测方法通常仅利用蛋白质正样例,极少关注量少但富含信息的蛋白质负样例.为此,提出一种基于正负样例的蛋白质功能预测方法(protein function prediction using positive and negative examples, ProPN).ProPN首先通过构造一个有向符号混合图描述已知的蛋白质与功能标记的正负关联信息、蛋白质之间的互作信息和功能标记间的关联关系,再通过符号混合图上的标签传播算法预测蛋白质功能.在酵母菌、老鼠和人类蛋白质数据集上的实验表明,ProPN不仅在预测已知部分功能标记蛋白质的负样例任务上优于现有算法,在预测功能标记完全未知蛋白质的功能任务上也获得了较其他相关方法更高的精度.
    相关文章 | 计量指标
    被引次数: Baidu(8)
    12. 基于Petri网的模型偏差域识别与模型修正
    杜玉越,孙亚男,刘伟
    计算机研究与发展    2016, 53 (8): 1766-1780.   doi: 10.7544/issn1000-1239.2016.20160099
    摘要664)   HTML0)    PDF (3172KB)(384)   
    过程挖掘技术能够通过事件日志建立过程模型,一致性检测技术能够发现过程模型和观察行为间的偏差.然而,现有的过程挖掘技术着重于发现偏差,不易于修正偏差.因此,利用一致性检测技术和工作流网模型的动态特性,提出一种基于Petri网的模型偏差域识别方法和模型修正技术(静态模型修正和动态模型修正).通过跟踪token流向,有效地识别模型偏差域,并对其进行修正,特别是能够正确修正具有循环结构、选择结构的复杂实际流程.最后,通过与其他方法的对比实验和分析,验证了本文方法的有效性和正确性.
    相关文章 | 计量指标
    被引次数: Baidu(4)
    13. 基于在线迁移学习的重现概念漂移数据流分类
    文益民,唐诗淇,冯超,高凯
    计算机研究与发展    2016, 53 (8): 1781-1791.   doi: 10.7544/issn1000-1239.2016.20160223
    摘要1517)   HTML9)    PDF (3187KB)(768)   
    随着大数据时代的到来,数据流分类被应用于诸多领域,如:垃圾邮件过滤、市场预测及天气预报等.重现概念是这些应用领域的重要特点之一.针对重现概念的学习与分类问题中的“负迁移”和概念漂移检测的滞后性,提出了一种基于在线迁移学习的重现概念漂移数据流分类算法——RC-OTL.RC-OTL在检测到概念漂移时存储刚学习的一个基分类器,然后计算最近的样本与存储的各历史分类器之间的领域相似度,以选择最适合对后续样本进行学习的源分类器,从而改善从源领域到目标领域的知识迁移.另外,RC-OTL还在概念漂移检测之前根据分类准确率选择合适的分类器对后续样本分类.初步的理论分析解释了RC-OTL为什么能有效克服“负迁移”,实验结果进一步表明:RC-OTL的确能有效提高分类准确率,并且在遭遇概念漂移后能更快地适应后续样本.
    相关文章 | 计量指标
    14. HSSM:一种流数据分层次模最大化方法
    张奋翔,陈华辉,钱江波,董一鸿
    计算机研究与发展    2016, 53 (8): 1792-1805.   doi: 10.7544/issn1000-1239.2016.20160140
    摘要622)   HTML2)    PDF (3551KB)(433)   
    从大规模数据中“摘要”出最能满足效用函数收益的有限个数据对象,可以被归纳为次模函数最大化问题.并行过滤算法在满足流数据访问次数限制与实时响应的条件下,通过分布式筛选的方式实现次规模最大化,但在提升摘要速率时效用函数收益损失较大.提出一种流数据分层次模最大化算法HSSM,在仅访问一次数据集的条件下,采用流水并行的分布式处理框架得到接近于标准贪心算法的次模函数收益,同时改进HSSM通过累积摘要的压缩存储、分层过滤低增益对象提升摘要速率.该方法在数据摘要问题的相关领域具有广泛的应用性,如文档集中代表性文章的选取、数据集中心点选取等.实验结果显示,分布式算法Spark-HSSM+对比于传统的算法在运行速率上达到与摘要规模k成k\+2正比例关系的提升.而相对于其他分布式算法,其实验效用收益与理论最差收益都更接近于贪心算法.
    相关文章 | 计量指标
    15. IncPR:一种基于增量计算的并行PageRank算法
    姜双双,廖群,杨愚鲁,李涛
    计算机研究与发展    2016, 53 (8): 1806-1818.   doi: 10.7544/issn1000-1239.2016.20160210
    摘要1039)   HTML8)    PDF (3278KB)(494)   
    广泛的互联网的商业应用使PageRank算法有重要地位.网络规模不断地增大,同时网络变化带来的时效性要求,也使PageRank计算对计算资源的要求不断地提高.为降低该问题对计算资源的消耗水平,降低计算成本,一种基于增量计算思想的PageRank算法:IncPR被提出.IncPR通过重用已有的结果,增量地获得数据变化后的结果.该算法在并行计算环境中,能够有效地降低计算量,缩短计算时间.理论分析表明,该算法计算结果的误差范围与蒙特卡罗PageRank算法相当,其时间复杂度优于其他已有的相关算法,且不引入额外的存储开销.在分布式集群Hama上进行的实验验证了理论分析的结果,IncPR在得到与蒙特卡罗PageRank算法同等(甚至更高)结果精度的情况下,显著地降低了计算量.
    相关文章 | 计量指标
    16. SparkCRF:一种基于Spark的并行CRFs算法实现
    朱继召,贾岩涛,徐君,乔建忠,王元卓,程学旗
    计算机研究与发展    2016, 53 (8): 1819-1828.   doi: 10.7544/issn1000-1239.2016.20160197
    摘要1310)   HTML2)    PDF (3386KB)(669)   
    条件随机场(condition random fields, CRFs)可用于解决各种文本分析问题,如自然语言处理(natural language processing, NLP)中的序列标记、中文分词、命名实体识别、实体间关系抽取等.传统的运行在单节点上的条件随机场在处理大规模文本时,面临一系列挑战.一方面,个人计算机遇到处理的瓶颈从而难以胜任;另一方面,服务器执行效率较低.而通过升级服务器的硬件配置来提高其计算能力的方法,在处理大规模的文本分析任务时,终究不能从根本上解决问题.为此,采用“分而治之”的思想,基于Apache Spark的大数据处理框架设计并实现了运行在集群环境下的分布式CRFs——SparkCRF.实验表明,SparkCRF在文本分析任务中,具有高效的计算能力和较好的扩展性,并且具有与传统的单节点CRF++相同水平的准确率.
    相关文章 | 计量指标