Please wait a minute...
ISSN 1000-1239 CN 11-1777/TP

当期目录

2015年 第52卷 第8期    出版日期:2015-08-01
人工智能
面向大数据的人工智能技术专题前言
王文剑, 于剑, 高阳
2015, 52(8):  1705-1706. 
摘要 ( 2039 )   HTML ( 11)   PDF (397KB) ( 1264 )  
相关文章 | 计量指标
随着传感器技术、存储技术、计算机技术和网络技术的迅猛发展以及人们管理与知识水平的提高,使得数据的膨胀趋势日益加剧,信息技术发展的瓶颈已不仅仅存在于数据的获取、存储与传输,而更受限于数据的加工、分析和利用。采用有效的人工智能技术从大数据中获得抽象信息并转化为有用知识,是目前大数据分析所面临的核心问题之一。 “面向大数据的人工智能技术”专题在多个研究方向上阐述了人工智能技术在大数据分析领域的最新研究成果,展示了近年来面向大数据的人工智能技术的研究热点及现状。专题包含1篇综述、8篇研究性论文,内容分别涵盖了面向大数据的人工智能理论发展、基于人工智能理论的大数据处理优化建模、采用人工智能方法的大数据处理方法设计以及人工智能技术在大数据处理问题中的应用等重要研究方向,在一定程度上反映了当前国内学者在大数据分析领域的主要研究工作。
综述
面向大数据分析的在线学习算法综述
李志杰,李元香,王峰,何国良,匡立
2015, 52(8):  1707-1721.  doi:10.7544/issn1000-1239.2015.20150185
摘要 ( 4177 )   HTML ( 40)   PDF (1700KB) ( 3464 )  
相关文章 | 计量指标
大数据时代,越来越多的领域出现了对海量、高速数据进行实时处理的需求.如何对大数据流进行抽取转化成有用的信息并应用于各行各业变得越来越重要.传统的批量机器学习技术在大数据分析的应用中存在许多限制.在线学习技术采用流式计算模式,在内存中直接进行数据的实时计算,为流数据的学习提供了有利的工具.介绍了大数据分析的动机与背景,集中展示经典和最新的在线学习方法与算法,这种在线学习体系很有希望解决各种大数据挖掘任务面临的困难与挑战.主要技术内容包括3方面: 1) 线性模型在线学习;2) 基于核的非线性模型在线学习;3) 非传统的在线学习方法.各类方法尽量给出详细的模型和伪代码,讨论面向大数据分析的大规模机器学习研究与应用中的关键问题;给出大数据在线学习的3种典型应用场景,并探讨现今或将来在线学习领域进一步的研究方向.
人工智能
高斯核函数选择的广义核极化准则
田萌,王文剑
2015, 52(8):  1722-1734.  doi:10.7544/issn1000-1239.2015.20150110
摘要 ( 1040 )   HTML ( 0)   PDF (3966KB) ( 689 )  
相关文章 | 计量指标
核函数及其参数的选择是核方法研究中的一个基本却很困难的问题,高斯核是目前各类核方法中最常使用的一种核函数.关于高斯核参数的优化已有很多研究,然而这些方法大多存在时间复杂度高,或是算法实现困难,或是样本数据需服从多元正态分布的前提假设等不足.提出的广义核极化准则可用来解决分类问题中的高斯核参数优化,该准则通过保持类内局部结构信息及中心化核矩阵以更准确地刻画特征空间中类别间的分离度,进而获得更好的高斯核参数来提高分类性能.给出了广义核极化准则对应目标函数的近似最优解的存在唯一性证明,且由于该准则独立于学习算法,因此可用许多成熟的优化算法来寻找最优参数.此外,还补充了已有文献提出的局部核极化准则对应目标函数近似最优解的存在唯一性证明,并且指出该准则是所提出的广义核极化准则的一个特例.针对多分类问题,分别给出广义核极化准则及局部核极化准则的多分类拓展形式.在标准数据集上的实验结果表明所提准则的有效性.
基于动态异构信息网络的时序关系预测
赵泽亚,贾岩涛,王元卓,靳小龙,程学旗
2015, 52(8):  1735-1741.  doi:10.7544/issn1000-1239.2015.20150183
摘要 ( 1060 )   HTML ( 5)   PDF (1251KB) ( 995 )  
相关文章 | 计量指标
动态异构信息网络中的时序关系预测问题近些年被广泛研究,时序关系预测旨在预测关系产生时间的同时预测关系的类型.动态异构信息网络是包含不同类型的点和边且边上带有时间信息的网络.现有的方法主要考虑了网络中拓扑结构对于关系预测的影响,而并未将时间和结构信息整合到一个统一的模型中进行研究.针对以上问题,提出了一个时间差关系路径法(time-difference-labeled path, TDLP)用于实现时序关系预测,该方法将网络中边上的时间信息融入到结构路径中从而得到更好的预测效果.在一个学术网络上的实验证明,提出的TDLP方法相比当前流行的方法具有更高预测准确率.
基于多群体公平模型的特征选择算法
杨昙,冯翔,虞慧群
2015, 52(8):  1742-1756.  doi:10.7544/issn1000-1239.2015.20150245
摘要 ( 970 )   HTML ( 2)   PDF (3509KB) ( 697 )  
相关文章 | 计量指标
随着当今世界逐渐从信息化转型为数据化,模式识别和数据挖掘等领域面临越来越大的挑战.爆炸式增大的数据量使得特征选择过程成为大数据模式识别等领域必不可少的环节.受动物界资源争夺行为启发,在由特征选择模型转变为资源分配问题模型中加入个体的资源争夺行为,提出多群体公平算法(multi-colony fairness algorithm, MCFA)对该行为进行评判和处理,用以取得更优的分配方案(即更优特征子集),其有机融合随机搜索和启发式搜索,且将filter方法和wrapper方法相结合,降低计算量的同时获得更高的分类准确率.对提出的多群体公平算法进行了分析,从理论上证明了算法的收敛性和有效性;UCI机器学习数据库数据集与4种经典特征选择算法:顺序前向搜索算法(sequential forward selection, SFS)、顺序后向搜索算法(sequential backward selection, SBS)、顺序前向浮动搜索算法(sequential floating forward selection, SFFS)、顺序后向浮动搜索算法(sequential floating backward selection, SBFS)和3种主流特征选择算法:相关性-冗余度特征选择算法(relevance-redundancy feature selection, RRFS)、最大相关最小冗余算法(minimal-redundancy-maximal-relevance, mRMR)、ReliefF算法的对比实验表明,提出的多群体公平算法能够有效选择规模和性能都比较好的特征子集.
基于通勤时间距离的流形聚类与可视化
邵超,张啸剑
2015, 52(8):  1757-1767.  doi:10.7544/issn1000-1239.2015.20150247
摘要 ( 942 )   HTML ( 1)   PDF (5430KB) ( 832 )  
相关文章 | 计量指标
现有流形学习算法能比较好地学习和可视化高维数据的低维非线性流形结构,但对难以高效选取的邻域大小参数还比较敏感,且要求数据良好采样于单一流形.为了降低流形学习算法对邻域大小参数的敏感程度,并实现对多流形数据的良好聚类与可视化,提出了1种新的基于通勤时间距离的流形学习算法——CTD-ISOMAP(commute time distance isometric mapping).和欧氏距离相比,通勤时间距离以概率的形式综合考虑了邻域图上2点间的所有连接路径,不但更加鲁棒,而且还能表达数据的内在几何结构.因此,CTD-ISOMAP算法采用通勤时间距离能比较好地识别并删除邻域图中可能存在的“短路”边以及不同流形之间的连接边,从而能在更大的邻域大小参数范围内实现对流形数据的良好可视化,并提高对多流形数据的聚类效果.最后的实验结果证实了该算法的有效性.
FSMBUS:一种基于Spark的大规模频繁子图挖掘算法
严玉良,董一鸿,何贤芒,汪卫
2015, 52(8):  1768-1783.  doi:10.7544/issn1000-1239.2015.20150256
摘要 ( 2086 )   HTML ( 6)   PDF (6675KB) ( 1310 )  
相关文章 | 计量指标
随着社交网络用户数的快速增加,大规模单图上频繁子图挖掘的需求越来越强烈.单机算法对大规模图的运行效率较低,难以支撑支持度较低的频繁子图的挖掘;现有的分布式环境下单图的频繁子图挖掘算法不支持子图增长模式的挖掘,它们所使用的Hadoop框架也不适合运行迭代式算法.提出了一种基于Spark的大规模单图频繁子图挖掘算法FSMBUS,通过次优树构建并行计算的候选子图,在给定最小支持度时挖掘出所有的频繁子图,并利用非频繁检测和搜索顺序选择实现优化,还设计了一种名为Sorted-Greedy的轻量级数据划分方法.实验结果表明,FSMBUS的效率要比现有单图上最新的算法快一个数量级,并支持更低最小支持度阈值以及更大规模图数据的挖掘,同时FSMBUS比其Hadoop的移植版要快2~4倍.
一种面向蛋白质复合体检测的图聚类方法
王杰,梁吉业,郑文萍
2015, 52(8):  1784-1793.  doi:10.7544/issn1000-1239.2015.20150180
摘要 ( 919 )   HTML ( 1)   PDF (1457KB) ( 690 )  
相关文章 | 计量指标
蛋白质互作用(protein-protein interaction, PPI)网络是广泛存在的一类复杂生物网络,其网络拓扑特征与功能模块分析密切相关.图聚类是对复杂网络进行分析和处理的一种重要计算方法.传统的PPI网络中蛋白质复合体检测算法通常对网络图中的对象进行硬划分,而寻找网络中的重叠簇的软聚类算法已成为当前研究热点之一.现有的软聚类算法较少关注寻找网络中具有重要生物意义的小规模非稠密簇.对此,基于网络中结点邻域给出了边关联强度的度量方法,并在此基础上提出了一种基于流模拟的PPI网络中复合体检测的图聚类(flow-simulation graph clustering, F-GCL)算法,该算法可以在快速发现PPI网络中的重叠簇的同时找到小规模非稠密簇;同时,与MCODE(molecular complex detection),MCL(Markov clustering),RNSC(restricted neighborhood search clustering)和CPM(clique percolation method)算法在6个酿酒酵母PPI网络上进行比较,该算法在F-measure,Accuracy,Separation方面表现了较好的性能.
大数据环境下的电子商务商品实体同一性识别
胡亚慧,李石君,余伟,杨莎,甘琳,王凯,方其庆
2015, 52(8):  1794-1805.  doi:10.7544/issn1000-1239.2015.20150252
摘要 ( 1140 )   HTML ( 2)   PDF (1811KB) ( 1063 )  
相关文章 | 计量指标
怎样从多源异构的、自治独立的、多样化的、不一致的电子商务数据中找出同一商品实体是当前面临的主要挑战.通过分析不同平台的数据特征,首先建立基于商品属性/值的索引模型,构造商品属性-值的全局模式图并进行模式集成,形成模式统一、质量高效的商品信息数据;而后基于层次概率模型对商品的同一性进行多层相似度量;最终完成商品实体识别,并归一化输出满足同一性的商品集和关联属性并进行排序.基于Hadoop平台对3个B2C电子商务数据源中的商品进行了实验,并与传统方法和产品进行了比较,实验结果证明了本框架的可行性、精确性和高效性.
否定句的情感不确定性度量及分类
张志飞,苗夺谦,聂建云,岳晓冬
2015, 52(8):  1806-1816.  doi:10.7544/issn1000-1239.2015.20150253
摘要 ( 1076 )   HTML ( 0)   PDF (3554KB) ( 667 )  
相关文章 | 计量指标
情感分类是社交媒体大数据分析的有力手段之一.否定句作为一种普遍且特殊的句子现象,其情感分类的研究具有重要的意义.否定词语和情感词语在否定句情感分类中同样重要,已有方法仅仅考虑否定词语修饰情感词语的情况,忽视否定词语本身反映情感的作用.为了统一解决否定词语修饰和不修饰情感词语情况下的分类问题,提出了基于决策粗糙集的否定句情感分类模型.构造词典并结合句际关系计算子句情感值,根据子句情感值提出基于KL散度的句子情感不确定性度量方法;然后融合多个特征,特别是与否定相关的独立否定特征和显著副词特征,用于否定句的特征表示;最后提出基于决策相关程度的决策正域约简算法,生成否定句情感分类决策规则.实验结果验证了该模型的有效性以及情感不确定性度量对于情感分类的作用.
网络技术
认知无线Mesh网络中权重感知的组播路由算法
杨艺清,陈志刚,邝祝芳,刘蕙
2015, 52(8):  1817-1830.  doi:10.7544/issn1000-1239.2015.20148255
摘要 ( 761 )   HTML ( 2)   PDF (4094KB) ( 560 )  
相关文章 | 计量指标
提出了一种无线组播业务权重感知的无线链路权值计算算法(links weights computing, LWC),在此基础上,提出了一种基于动态规划的满足QoS约束的分布式组播路由与频谱分配算法(weight-aware multicast routing algorithm, WMRA).WMRA算法的目标是最小化总的信道冲突值,同时考虑已接受组播业务的权重,高权重的组播业务相比低权重的组播业务具有较低的信道冲突值.WMRA算法首先采用LWC算法计算无线链路权值;然后,基于动态规划分布式地计算最小信道冲突值;最后,进行组播路由路径的构造,并进行频谱分配.仿真结果表明WMRA能达到预定目标,获得较低的信道冲突值.
融合信道分配的无线Mesh网络多目标网关部署
赵传信,陈付龙,王汝传,赵诚,罗永龙
2015, 52(8):  1831-1841.  doi:10.7544/issn1000-1239.2015.20140675
摘要 ( 758 )   HTML ( 2)   PDF (3240KB) ( 769 )  
相关文章 | 计量指标
信道分配和网关部署是无线Mesh网络规划面临的重要挑战,作为影响网络性能的关键问题,传统上针对它们的研究都是独立的.为了有效结合二者规划网络,提升网络性能,提出了一种无线Mesh网络联合信道分配和网关部署策略,综合考虑了最小化链路冲突量和网关部署代价,在部署网关过程中有效地分配信道以消减无线链路间干扰.利用链路冲突量衡量网关附近节点流量聚集的特征,使用基于多目标粒子群算法来优化信道分配和选择部署网关,在信道分配和网关选择已定的情况下构建了负载均衡的转发树.仿真结果表明,相对于基于平面网络的均衡信道分配网关部署算法,该算法可以有效降低网络干扰、优化网络性能、减少节点路径长度,实现了网关间的负载均衡.
基于模糊支持向量回归机的WSNs链路质量预测
舒坚,汤津,刘琳岚,胡刚,刘松
2015, 52(8):  1842-1851.  doi:10.7544/issn1000-1239.2015.20140670
摘要 ( 733 )   HTML ( 2)   PDF (2796KB) ( 570 )  
相关文章 | 计量指标
在无线传感器网络中,链路是实现节点互连和多跳通信的基本元素,链路质量是拓扑控制、路由协议和移动管理的基础,准确的链路质量预测不仅可以提高整个网络的数据吞吐率,降低节点能耗,还可延长整个网络的工作时间.在分析现有链路质量预测方法的基础上,提出一种基于模糊支持向量回归机(fuzzy support vector regression, FSVR)的链路质量预测模型,以降低噪声与孤立点对预测性能的影响.通过收集不同场景下的链路质量样本,考虑不稳定链路中数据分布的特点,该模型采用无监督模糊核聚类算法(kernel fuzzy c-means, KFCM)自动划分样本集,并获得样本隶属度;采用混沌粒子群优化算法(chaos particle swam optimization, CPSO)选择子模型参数.实验结果表明,与基于经验风险的BP神经网络相比,基于模糊支持向量回归机的链路质量预测模型具有更好的预测精度和泛化能力.
一种基于休眠调度的数据源拥塞控制方法
黄骏杰,陈晓江,刘晨,房鼎益,王薇,尹小燕,武岳山
2015, 52(8):  1852-1861.  doi:10.7544/issn1000-1239.2015.20140668
摘要 ( 825 )   HTML ( 1)   PDF (3330KB) ( 451 )  
相关文章 | 计量指标
为了能够长期对监测区域进行持续的数据采集,无线传感网通常运行在休眠调度模式,这种模式使得网络的通信连通性处在动态变化之中,造成一种新的网络拥塞现象——数据源拥塞.这种拥塞问题会造成节点缓存区溢出,从而导致数据丢失,甚至造成节点不响应任何数据转发请求,该问题在传感器异构的无线传感网中表现得更为严重.许多典型的拥塞控制方法是令网络中的数据绕过拥塞节点进行传输,也有一些方法是对拥塞节点的通信速率进行控制,但是以上这些方法无法缓解数据源拥塞的影响.分析影响数据源拥塞的因素,建立了描述节点数据源拥塞概率的传送带模型,提出了一种以降低数据源拥塞概率为目的的节点休眠调度机制(district cooperation schedule, DCS).通过理论推导和实验分析,证明该模型可以较准确地预测数据源拥塞概率,同时DCS可以有效降低数据源拥塞现象的发生.
信息安全
云存储中一种基于格的数据完整性验证方法
谭霜,何力,陈志坤,贾焰
2015, 52(8):  1862-1872.  doi:10.7544/issn1000-1239.2015.20140610
摘要 ( 810 )   HTML ( 1)   PDF (1629KB) ( 880 )  
相关文章 | 计量指标
随着云存储技术的发展,用户可以从远程云中按需获取高质量的应用和服务,而不用担心本地的数据管理存储.由于用户在本地不再保留任何数据副本,故无法确保云中数据的完整性.为了解决这一问题,提出了一种面向于云存储环境的、基于格的数据完有性验证机制,该机制能有效地识别云存储中侵犯用户数据完整性的违规行为,且在随机预言机模型下被证明是安全的.另外,设计的协议还具有其他3种好的属性,即支持数据块级的动态操作、支持签名数据上的同态计算及支持多用户验证.最后,给出了现有的多种完整性验证机制之间的对比,以及基于格的数据完整性验证方法存在的一些问题及发展方向.
面向云环境内部DDoS攻击检测的博弈论优化
王一川,马建峰,卢笛,张留美,孟宪佳
2015, 52(8):  1873-1882.  doi:10.7544/issn1000-1239.2015.20140608
摘要 ( 1098 )   HTML ( 1)   PDF (2790KB) ( 683 )  
相关文章 | 计量指标
结合传统基于虚拟机内省(virtual machine introspection-based, VMI)和基于网络(network-based)入侵检测系统(intrusion detection system, IDS)的特点,提出一种部署在云服务器集群内部的协同入侵检测系统(virtual machine introspection & network-based IDS, VMI-N-IDS)来抵御云环境内部分布式拒绝服务攻击(distributed denial of service, DDoS)攻击威胁,比如“云滴冻结”攻击.将入侵检测系统和攻击者看作是博弈的双方,提出一种针对云服务器集群内部DDoS攻击与检测的博弈论模型;分别给出博弈双方的效用函数,并证明了该模型子博弈精炼纳什均衡;给出了权衡误报率和恶意软件规模控制的最佳防御策略,解决了动态调整云环境内部入侵检测策略的问题.实验表明,VMI-N-IDS能够有效抵御云环境内部DDoS攻击威胁.
HWMN中一种新的隐私感知安全路由协议
林晖,田有亮,许力,胡嘉
2015, 52(8):  1883-1892.  doi:10.7544/issn1000-1239.2015.20140606
摘要 ( 754 )   HTML ( 1)   PDF (3146KB) ( 555 )  
相关文章 | 计量指标
混合无线Mesh网络(hybrid wireless mesh network, HWMN)是最具实际应用前景的无线Mesh网(wireless mesh networks, WMNs)结构.然而,HWMN也面临着各种安全威胁,尤其是针对路由和隐私安全的内部攻击的威胁.针对这一问题,结合HWMN的特点,提出了基于动态信誉机制的隐私感知安全路由协议(dynamic reputation based privacy-aware secure routing protocol, RPASRP).RPASRP实现了动态信誉机制、分级密钥管理协议与路由协议的有机结合,并充分考虑了路由过程中的能量损耗.仿真结果表明,RPASRP能有效抵御内部攻击、实现隐私保护和减少路由能量损耗.
标准模型下全安全的密钥策略属性基加密方案
张敏情,杜卫东,杨晓元,韩益亮
2015, 52(8):  1893-1901.  doi:10.7544/issn1000-1239.2015.20140605
摘要 ( 775 )   HTML ( 0)   PDF (987KB) ( 526 )  
相关文章 | 计量指标
随着社交网络、云存储等新事物的出现,属性基加密以其强灵活性、强高效性、强安全性等优点得到了广泛的应用,但是目前的属性基加密方案大都是选择性安全的,不能很好地满足现实的应用需求,所以如何构造全安全的属性基加密方案成为密码学界研究的热点.针对以上问题,首先利用对偶系统加密构造了一个高效的密钥策略属性基加密方案;然后结合Lewko-Waters最新提出的证明思想证明了方案在标准模型下的全安全性;最后经分析比较,该方案的公私钥和密文长度与选择性安全的GPSW方案相当,但是安全性更高.同Lewko-Okamoto方案相比,该方案的安全性与之相同,但是具有较短的公钥长度和密文长度,方案的效率更高;而且,与Lekwo-Waters的密文策略的属性基加密方案相对应,该方案在全安全证明中应用了选择性安全模型中的证明方法,对进一步研究选择性安全模型与全安全模型之间的关系具有重要意义.
基于代码移动的二进制程序控制流混淆方法
陈喆,王志,王晓初,贾春福
2015, 52(8):  1902-1909.  doi:10.7544/issn1000-1239.2015.20140607
摘要 ( 1113 )   HTML ( 4)   PDF (1519KB) ( 714 )  
相关文章 | 计量指标
代码混淆技术常被用于软件保护领域和恶意代码对抗分析.传统的代码混淆技术会使逆向分析者获得程序的全部二进制代码,因此存在一定的安全性问题.为缓解这一问题,提出了一种基于代码移动的二进制程序控制流混淆方法,将程序的重要控制逻辑代码移动至逆向分析者不可控的可信实体,以使本地代码控制流信息部分缺失,从而使得程序的关键行为无法通过推理获知;利用包含无初始意义操作数的非条件跳转指令替代条件跳转指令隐藏路径分支的分支条件和目标地址,以增大收集程序路径信息的难度.对该控制流混淆方法从强度、弹性和开销3个指标进行了技术评价.将所提混淆方法用于6个恶意软件触发条件的混淆并对混淆之后的恶意代码进行逆向分析实验,结果表明该混淆方法能够较好地抵抗基于静态分析和符号执行的逆向分析方法.
图形图像
基于纹理的多分辨率流场可视化算法
鲁大营,朱登明,王兆其
2015, 52(8):  1910-1920.  doi:10.7544/issn1000-1239.2015.20140417
摘要 ( 959 )   HTML ( 2)   PDF (5700KB) ( 789 )  
相关文章 | 计量指标
当流场分辨率与屏幕分辨率不一致时,传统的多分辨率纹理绘制算法容易产生纹理走样与细节缺乏问题,为此提出一种基于纹理的自适应多分辨率流场可视化算法.通过定义平流体作为流场的中介表示,准确地跟踪粒子路径.考虑到纹理特征的稳定性,利用纹理空间到平流体空间的映射来执行纹理卷积计算.最后,基于mip-mapping技术自适应地选择合适分辨率的平流体,并对噪声纹理频率进行缩放控制.算法的精确度根据粒子平流位置的累积误差进行客观评价,结合人的视觉感知来测试主观选择与客观评价的一致性.实验结果表明,所提出的算法既能保持较高的精确性,又能完成更高质量的绘制.
基于车牌识别系统车辆轨迹的行为异常检测
孙玉砚,孙利民,朱红松,周新运
2015, 52(8):  1921-1929.  doi:10.7544/issn1000-1239.2015.20140673
摘要 ( 1456 )   HTML ( 9)   PDF (3694KB) ( 980 )  
相关文章 | 计量指标
目前已有很多面向智能交通管理的车辆异常行为检测方法,但是在公共安全领域的异常行为检测研究不足.为此提出了一种基于车牌识别系统车辆轨迹的行为异常检测机制,通过车牌识别系统获取抓拍记录,分析各个车辆在系统卡口的历史通行记录,提取车辆轨迹的时间空间特征,通过空间特征发现异常路线并计算路线的围绕质心累积转动角度值检测徘徊行为,用聚类算法获得时间特征的聚类中心并计算离群点检测特殊时间活跃行为.利用实际部署的车牌识别系统收集的数据测试了所提出的异常检测方法,实验结果表明该检测方法能够很好地检测面向公共安全领域的车辆异常行为,在卡口设备识别率不理想的情况下有效地提高了异常检测率.