ISSN 1000-1239 CN 11-1777/TP

    2015面向大数据的人工智能技术

    默认 最新文章 浏览次数
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 面向大数据的人工智能技术专题前言
    王文剑, 于剑, 高阳
    计算机研究与发展    2015, 52 (8): 1705-1706.  
    摘要2297)   HTML18)    PDF (397KB)(1288)   
    随着传感器技术、存储技术、计算机技术和网络技术的迅猛发展以及人们管理与知识水平的提高,使得数据的膨胀趋势日益加剧,信息技术发展的瓶颈已不仅仅存在于数据的获取、存储与传输,而更受限于数据的加工、分析和利用。采用有效的人工智能技术从大数据中获得抽象信息并转化为有用知识,是目前大数据分析所面临的核心问题之一。 “面向大数据的人工智能技术”专题在多个研究方向上阐述了人工智能技术在大数据分析领域的最新研究成果,展示了近年来面向大数据的人工智能技术的研究热点及现状。专题包含1篇综述、8篇研究性论文,内容分别涵盖了面向大数据的人工智能理论发展、基于人工智能理论的大数据处理优化建模、采用人工智能方法的大数据处理方法设计以及人工智能技术在大数据处理问题中的应用等重要研究方向,在一定程度上反映了当前国内学者在大数据分析领域的主要研究工作。
    相关文章 | 计量指标
    2. 面向大数据分析的在线学习算法综述
    李志杰,李元香,王峰,何国良,匡立
    计算机研究与发展    2015, 52 (8): 1707-1721.   doi: 10.7544/issn1000-1239.2015.20150185
    摘要4883)   HTML106)    PDF (1700KB)(3871)   
    大数据时代,越来越多的领域出现了对海量、高速数据进行实时处理的需求.如何对大数据流进行抽取转化成有用的信息并应用于各行各业变得越来越重要.传统的批量机器学习技术在大数据分析的应用中存在许多限制.在线学习技术采用流式计算模式,在内存中直接进行数据的实时计算,为流数据的学习提供了有利的工具.介绍了大数据分析的动机与背景,集中展示经典和最新的在线学习方法与算法,这种在线学习体系很有希望解决各种大数据挖掘任务面临的困难与挑战.主要技术内容包括3方面: 1) 线性模型在线学习;2) 基于核的非线性模型在线学习;3) 非传统的在线学习方法.各类方法尽量给出详细的模型和伪代码,讨论面向大数据分析的大规模机器学习研究与应用中的关键问题;给出大数据在线学习的3种典型应用场景,并探讨现今或将来在线学习领域进一步的研究方向.
    相关文章 | 计量指标
    被引次数: Baidu(19)
    3. 高斯核函数选择的广义核极化准则
    田萌,王文剑
    计算机研究与发展    2015, 52 (8): 1722-1734.   doi: 10.7544/issn1000-1239.2015.20150110
    摘要1360)   HTML0)    PDF (3966KB)(702)   
    核函数及其参数的选择是核方法研究中的一个基本却很困难的问题,高斯核是目前各类核方法中最常使用的一种核函数.关于高斯核参数的优化已有很多研究,然而这些方法大多存在时间复杂度高,或是算法实现困难,或是样本数据需服从多元正态分布的前提假设等不足.提出的广义核极化准则可用来解决分类问题中的高斯核参数优化,该准则通过保持类内局部结构信息及中心化核矩阵以更准确地刻画特征空间中类别间的分离度,进而获得更好的高斯核参数来提高分类性能.给出了广义核极化准则对应目标函数的近似最优解的存在唯一性证明,且由于该准则独立于学习算法,因此可用许多成熟的优化算法来寻找最优参数.此外,还补充了已有文献提出的局部核极化准则对应目标函数近似最优解的存在唯一性证明,并且指出该准则是所提出的广义核极化准则的一个特例.针对多分类问题,分别给出广义核极化准则及局部核极化准则的多分类拓展形式.在标准数据集上的实验结果表明所提准则的有效性.
    相关文章 | 计量指标
    被引次数: Baidu(1)
    4. 基于动态异构信息网络的时序关系预测
    赵泽亚,贾岩涛,王元卓,靳小龙,程学旗
    计算机研究与发展    2015, 52 (8): 1735-1741.   doi: 10.7544/issn1000-1239.2015.20150183
    摘要1514)   HTML8)    PDF (1251KB)(1069)   
    动态异构信息网络中的时序关系预测问题近些年被广泛研究,时序关系预测旨在预测关系产生时间的同时预测关系的类型.动态异构信息网络是包含不同类型的点和边且边上带有时间信息的网络.现有的方法主要考虑了网络中拓扑结构对于关系预测的影响,而并未将时间和结构信息整合到一个统一的模型中进行研究.针对以上问题,提出了一个时间差关系路径法(time-difference-labeled path, TDLP)用于实现时序关系预测,该方法将网络中边上的时间信息融入到结构路径中从而得到更好的预测效果.在一个学术网络上的实验证明,提出的TDLP方法相比当前流行的方法具有更高预测准确率.
    相关文章 | 计量指标
    被引次数: Baidu(8)
    5. 基于多群体公平模型的特征选择算法
    杨昙,冯翔,虞慧群
    计算机研究与发展    2015, 52 (8): 1742-1756.   doi: 10.7544/issn1000-1239.2015.20150245
    摘要1345)   HTML11)    PDF (3509KB)(859)   
    随着当今世界逐渐从信息化转型为数据化,模式识别和数据挖掘等领域面临越来越大的挑战.爆炸式增大的数据量使得特征选择过程成为大数据模式识别等领域必不可少的环节.受动物界资源争夺行为启发,在由特征选择模型转变为资源分配问题模型中加入个体的资源争夺行为,提出多群体公平算法(multi-colony fairness algorithm, MCFA)对该行为进行评判和处理,用以取得更优的分配方案(即更优特征子集),其有机融合随机搜索和启发式搜索,且将filter方法和wrapper方法相结合,降低计算量的同时获得更高的分类准确率.对提出的多群体公平算法进行了分析,从理论上证明了算法的收敛性和有效性;UCI机器学习数据库数据集与4种经典特征选择算法:顺序前向搜索算法(sequential forward selection, SFS)、顺序后向搜索算法(sequential backward selection, SBS)、顺序前向浮动搜索算法(sequential floating forward selection, SFFS)、顺序后向浮动搜索算法(sequential floating backward selection, SBFS)和3种主流特征选择算法:相关性-冗余度特征选择算法(relevance-redundancy feature selection, RRFS)、最大相关最小冗余算法(minimal-redundancy-maximal-relevance, mRMR)、ReliefF算法的对比实验表明,提出的多群体公平算法能够有效选择规模和性能都比较好的特征子集.
    相关文章 | 计量指标
    被引次数: Baidu(11)
    6. 基于通勤时间距离的流形聚类与可视化
    邵超,张啸剑
    计算机研究与发展    2015, 52 (8): 1757-1767.   doi: 10.7544/issn1000-1239.2015.20150247
    摘要1260)   HTML1)    PDF (5430KB)(915)   
    现有流形学习算法能比较好地学习和可视化高维数据的低维非线性流形结构,但对难以高效选取的邻域大小参数还比较敏感,且要求数据良好采样于单一流形.为了降低流形学习算法对邻域大小参数的敏感程度,并实现对多流形数据的良好聚类与可视化,提出了1种新的基于通勤时间距离的流形学习算法——CTD-ISOMAP(commute time distance isometric mapping).和欧氏距离相比,通勤时间距离以概率的形式综合考虑了邻域图上2点间的所有连接路径,不但更加鲁棒,而且还能表达数据的内在几何结构.因此,CTD-ISOMAP算法采用通勤时间距离能比较好地识别并删除邻域图中可能存在的“短路”边以及不同流形之间的连接边,从而能在更大的邻域大小参数范围内实现对流形数据的良好可视化,并提高对多流形数据的聚类效果.最后的实验结果证实了该算法的有效性.
    相关文章 | 计量指标
    被引次数: Baidu(1)
    7. FSMBUS:一种基于Spark的大规模频繁子图挖掘算法
    严玉良,董一鸿,何贤芒,汪卫
    计算机研究与发展    2015, 52 (8): 1768-1783.   doi: 10.7544/issn1000-1239.2015.20150256
    摘要2506)   HTML10)    PDF (6675KB)(1359)   
    随着社交网络用户数的快速增加,大规模单图上频繁子图挖掘的需求越来越强烈.单机算法对大规模图的运行效率较低,难以支撑支持度较低的频繁子图的挖掘;现有的分布式环境下单图的频繁子图挖掘算法不支持子图增长模式的挖掘,它们所使用的Hadoop框架也不适合运行迭代式算法.提出了一种基于Spark的大规模单图频繁子图挖掘算法FSMBUS,通过次优树构建并行计算的候选子图,在给定最小支持度时挖掘出所有的频繁子图,并利用非频繁检测和搜索顺序选择实现优化,还设计了一种名为Sorted-Greedy的轻量级数据划分方法.实验结果表明,FSMBUS的效率要比现有单图上最新的算法快一个数量级,并支持更低最小支持度阈值以及更大规模图数据的挖掘,同时FSMBUS比其Hadoop的移植版要快2~4倍.
    相关文章 | 计量指标
    8. 一种面向蛋白质复合体检测的图聚类方法
    王杰,梁吉业,郑文萍
    计算机研究与发展    2015, 52 (8): 1784-1793.   doi: 10.7544/issn1000-1239.2015.20150180
    摘要1202)   HTML4)    PDF (1457KB)(778)   
    蛋白质互作用(protein-protein interaction, PPI)网络是广泛存在的一类复杂生物网络,其网络拓扑特征与功能模块分析密切相关.图聚类是对复杂网络进行分析和处理的一种重要计算方法.传统的PPI网络中蛋白质复合体检测算法通常对网络图中的对象进行硬划分,而寻找网络中的重叠簇的软聚类算法已成为当前研究热点之一.现有的软聚类算法较少关注寻找网络中具有重要生物意义的小规模非稠密簇.对此,基于网络中结点邻域给出了边关联强度的度量方法,并在此基础上提出了一种基于流模拟的PPI网络中复合体检测的图聚类(flow-simulation graph clustering, F-GCL)算法,该算法可以在快速发现PPI网络中的重叠簇的同时找到小规模非稠密簇;同时,与MCODE(molecular complex detection),MCL(Markov clustering),RNSC(restricted neighborhood search clustering)和CPM(clique percolation method)算法在6个酿酒酵母PPI网络上进行比较,该算法在F-measure,Accuracy,Separation方面表现了较好的性能.
    相关文章 | 计量指标
    被引次数: Baidu(5)
    9. 大数据环境下的电子商务商品实体同一性识别
    胡亚慧,李石君,余伟,杨莎,甘琳,王凯,方其庆
    计算机研究与发展    2015, 52 (8): 1794-1805.   doi: 10.7544/issn1000-1239.2015.20150252
    摘要1536)   HTML2)    PDF (1811KB)(1154)   
    怎样从多源异构的、自治独立的、多样化的、不一致的电子商务数据中找出同一商品实体是当前面临的主要挑战.通过分析不同平台的数据特征,首先建立基于商品属性/值的索引模型,构造商品属性-值的全局模式图并进行模式集成,形成模式统一、质量高效的商品信息数据;而后基于层次概率模型对商品的同一性进行多层相似度量;最终完成商品实体识别,并归一化输出满足同一性的商品集和关联属性并进行排序.基于Hadoop平台对3个B2C电子商务数据源中的商品进行了实验,并与传统方法和产品进行了比较,实验结果证明了本框架的可行性、精确性和高效性.
    相关文章 | 计量指标
    被引次数: Baidu(9)
    10. 否定句的情感不确定性度量及分类
    张志飞,苗夺谦,聂建云,岳晓冬
    计算机研究与发展    2015, 52 (8): 1806-1816.   doi: 10.7544/issn1000-1239.2015.20150253
    摘要1450)   HTML1)    PDF (3554KB)(731)   
    情感分类是社交媒体大数据分析的有力手段之一.否定句作为一种普遍且特殊的句子现象,其情感分类的研究具有重要的意义.否定词语和情感词语在否定句情感分类中同样重要,已有方法仅仅考虑否定词语修饰情感词语的情况,忽视否定词语本身反映情感的作用.为了统一解决否定词语修饰和不修饰情感词语情况下的分类问题,提出了基于决策粗糙集的否定句情感分类模型.构造词典并结合句际关系计算子句情感值,根据子句情感值提出基于KL散度的句子情感不确定性度量方法;然后融合多个特征,特别是与否定相关的独立否定特征和显著副词特征,用于否定句的特征表示;最后提出基于决策相关程度的决策正域约简算法,生成否定句情感分类决策规则.实验结果验证了该模型的有效性以及情感不确定性度量对于情感分类的作用.
    相关文章 | 计量指标
    被引次数: Baidu(4)