Please wait a minute...
ISSN 1000-1239 CN 11-1777/TP

当期目录

2018年 第55卷 第1期    出版日期:2018-01-01
综述
纠删码存储系统单磁盘错误重构优化方法综述
傅颖勋,文士林,马礼,舒继武
2018, 55(1):  1-13.  doi:10.7544/issn1000-1239.2018.20160506
摘要 ( 1114 )   HTML ( 9)   PDF (3359KB) ( 708 )  
相关文章 | 计量指标
随着云存储的迅猛发展与大数据时代的来临,越来越多的存储系统开始采用纠删码技术,以保障数据的可靠性.在基于纠删码的存储系统中,一旦有磁盘出错,系统需根据其他磁盘里存储的冗余信息,重构所有失效数据.由于当前存储系统中绝大部分磁盘错误都是单磁盘错误,因此,如何快速地在单磁盘错误的情况下重构失效数据,已成为存储系统的研究热点.首先介绍了存储系统中基于纠删码的单磁盘错误重构优化方法的研究背景与研究意义,给出了纠删码的基本概念与定义,并分析了单磁盘错误重构优化的基本原理;接着归纳了现有的一些主流单磁盘错误重构方法的构造算法及其优缺点与适用范围,并分类介绍了一些用于优化单磁盘错误重构效率的新型纠删码技术;最后指出了存储系统中基于纠删码的磁盘错误重构方法的进一步研究方向.
面向可穿戴设备的数据安全隐私保护技术综述
刘强,李桐,于洋,蔡志平,周桐庆
2018, 55(1):  14-29.  doi:10.7544/issn1000-1239.2018.20160765
摘要 ( 1472 )   HTML ( 9)   PDF (3987KB) ( 1055 )  
相关文章 | 计量指标
基于可穿戴设备的移动计算被视为支撑泛在感知型应用的重要技术,它使用大范围部署的传感器持续不断地感知环境信息,利用短距通信和数据挖掘/机器学习技术传递和处理感知数据.现有的可穿戴设备相关工作主要关注新型移动应用、信息采集、产品形态和人性化用户接口等方面的设计与实现.然而,面向可穿戴设备的数据安全隐私保护技术研究尚处于起步阶段.从数据分析者的视角来看,研究者分析可穿戴设备的数据源特点与隐私安全隐患,重点研究基于多源感知数据的个体活动识别方法和数据挖掘机制;从隐私安全保护者的视角来看,面向可穿戴设备的隐私保护技术亟需解决云辅助的隐私保护机制、隐私感知的个人信息发布和基于策略的访问控制等方面的问题.以可穿戴健康跟踪设备Fitbit为对象展开了可穿戴设备安全与隐私实例分析.最后,总结了面向可穿戴设备的隐私保护的8条技术途径,并展望了需要进一步研究的热点问题.
文本情绪分析综述
李然,林政,林海伦,王伟平,孟丹
2018, 55(1):  30-52.  doi:10.7544/issn1000-1239.2018.20170055
摘要 ( 3431 )   HTML ( 63)   PDF (4177KB) ( 3280 )  
相关文章 | 计量指标
随着社交网络、电子商务、移动互联网等技术的发展,各种网络数据迅速膨胀.互联网上蕴含着大量带有情绪色彩的文本数据,对其充分挖掘可以更好地理解网民的观点和立场.首先介绍了情绪分析的相关背景知识,包括不同情绪分类体系和文本情绪分析在舆情管控、商业决策、观点搜索、信息预测、情绪管理等场景的应用;然后从情绪分类的角度整理归纳了文本情绪分析的主流方法,并对其进行了细致的介绍和分析对比;最后,阐述了文本情绪分析存在的数据稀缺性、类别不平衡、领域依赖性、语言不平衡等问题,并结合大数据处理、多媒体融合、深度学习发展、特定主题挖掘和多语言协同等研究热点对文本情绪分析的前沿进展进行了概括和展望.
大数据背景下集群调度结构与研究进展
郝春亮,沈捷,张珩,武延军,王青,李明树
2018, 55(1):  53-70.  doi:10.7544/issn1000-1239.2018.20170051
摘要 ( 1822 )   HTML ( 17)   PDF (3254KB) ( 1442 )  
相关文章 | 计量指标
集群调度一直以来是集群计算方向的热点研究问题.集群调度研究主要关注在固定的集群资源条件下,数据处理作业如何快速、精确地获得所需运行资源,从而达到预先设定的执行目标.随着大数据计算的发展,集群环境在过去10年内持续且快速地发展变化,集群调度场景和目标也日趋复杂.尤其是在大数据背景下,传统集中调度结构的性能瓶颈被放大,研究者开始向全新的调度结构进行探索,应运而生了众多新思路、新结构.从大数据背景下集群调度研究的主要研究问题出发,分别介绍了大数据背景下的4种集群调度结构:集中结构、双层结构、分布式结构以及混合结构,并对各结构的产生原因、适用场景、优劣、典型研究工作、研究进展进行分析,并尝试对各结构的未来发展进行展望.
软件技术
大数据流式计算框架Storm的任务迁移策略
鲁亮,于炯,卞琛,刘月超,廖彬,李慧娟
2018, 55(1):  71-92.  doi:10.7544/issn1000-1239.2018.20160812
摘要 ( 1442 )   HTML ( 4)   PDF (5671KB) ( 932 )  
相关文章 | 计量指标
Storm作为流式计算模式下最具代表性的平台之一,其默认轮询的调度机制未考虑到异构环境下不同工作节点的自身性能和负载差异,以及工作节点之间的网络传输开销和节点内部的进程与线程通信开销,无法充分发挥集群的性能.为了在各类资源约束的前提下最小化通信开销,在建立并论证Storm资源约束模型、最优通信开销模型和任务迁移模型的基础上,提出一种异构Storm环境下的任务迁移策略(task migration strategy for heterogeneous Storm cluster, TMSH-Storm),包括源节点选择算法和任务迁移算法.其中,源节点选择算法根据集群中各工作节点CPU、内存和网络带宽的负载情况以及各类资源的优先级顺序,将超出阈值的节点加入源节点集;任务迁移算法综合迁移开销、通信开销、节点资源约束以及节点和任务负载等因素,依次将源节点中的待迁移任务异步迁移至目的节点上.实验表明:相对于现有研究而言,TMSH-Storm能有效降低延迟和节点间通信开销,且执行开销较小.
人工智能
一种只利用序列信息预测RNA结合蛋白的深度学习模型
李洪顺,于华,宫秀军
2018, 55(1):  93-101.  doi:10.7544/issn1000-1239.2018.20160508
摘要 ( 1834 )   HTML ( 12)   PDF (1900KB) ( 1303 )  
相关文章 | 计量指标
RNA结合蛋白在选择性剪贴、RNA编辑及甲基化等多种生物功能中发挥非常重要的作用,从氨基酸序列预测这些蛋白的功能成为基因组功能注释领域的重要挑战之一. 传统的预测方法往往从序列中提取氨基酸的理化特性作为初始特征,忽略了motif及motif之间的位置信息,同时由于训练数据规模小、噪声大,导致预测的精度及可信度降低. 在此提出了一种从序列预测RNA结合蛋白的深度学习模型. 该模型利用2阶段卷积神经网络探测蛋白质序列的功能域,利用长短期记忆网络获得序列的定长特征表示并且能够学习到功能域之间的长短期依赖关系.预测算法中所用到的特征均是通过“学习”自动获得,克服了传统机器学习中特征选择过程过多的人工干预. 实验结果表明:模型在处理大规模序列数据时具有明显的优势.
一种基于频繁词集表示的新文本聚类方法
张雪松,贾彩燕
2018, 55(1):  102-112.  doi:10.7544/issn1000-1239.2018.20160662
摘要 ( 1160 )   HTML ( 1)   PDF (1544KB) ( 849 )  
相关文章 | 计量指标
传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提出一种基于频繁词集的文本聚类方法(frequent itemsets based document clustering method, FIC).该方法从文档集中运用FP-Growth算法挖掘出频繁词集,运用频繁词集来表示每个文本从而大大降低了文本维度,根据文本间相似度建立文本网络,运用社区划分的算法对网络进行划分,从而达到文本聚类的目的.FIC算法不仅能降低文本表示的维度,还可以构建文本集中文本间的关联关系,使文本与文本间不再是独立的两两关系.实验中运用2个英文语料库Reuters-21578,20NewsGroup和1个中文语料库——搜狗新闻数据集来测试算法精度.实验表明:较传统的利用文本空间向量模型的聚类方法,该方法能够有效地降低文本表示的维度,并且,相比于常见的基于频繁词集的聚类方法能获得更好的聚类效果.
融合用户社会地位和矩阵分解的推荐算法
余永红,高阳,王皓,孙栓柱
2018, 55(1):  113-124.  doi:10.7544/issn1000-1239.2018.20160704
摘要 ( 1109 )   HTML ( 3)   PDF (2424KB) ( 1023 )  
相关文章 | 计量指标
随着社交网络服务的日益流行,社交网络平台为推荐算法提供了丰富的额外信息.假设朋友之间共享更多的共同偏好并且用户往往易于接受来自朋友的推荐,越来越多的推荐系统利用社交网络中用户之间的信任关系来改进传统推荐算法的性能.然而,现有基于社交网络推荐算法忽略了2个问题:1)在不同的领域中,用户信任不同的朋友;2)由于用户在不同的领域内具有不同的社会地位,因此,用户在不同的领域内受朋友的影响程度是不同的.首先利用整体的社交网络结构信息和用户的评分信息推导特定领域社交网络结构,然后利用PageRank算法计算用户在特定领域的社会地位,最后提出了一种融合用户社会地位信息的矩阵分解推荐算法.在真实数据集上的实验结果表明:融合用户地位信息的矩阵分解推荐算法的性能优于传统的基于社交网络推荐算法.
基于建构主义学习理论的个性化知识推荐模型
谢振平,金晨,刘渊
2018, 55(1):  125-138.  doi:10.7544/issn1000-1239.2018.20160547
摘要 ( 1006 )   HTML ( 5)   PDF (3667KB) ( 847 )  
相关文章 | 计量指标
个性化推荐正成为“互联网+”和“大数据”时代信息网络服务的基本形式,虽然其已在电子商务和社交媒体的广泛应用中产生了巨大的商业价值,但在具有巨大潜在社会价值的个性化知识学习领域,相关研究与应用还较为稀少.研究提出一种基于建构主义学习理论的个性化知识推荐方法——建构推荐模型.新模型首先考虑将知识系统以知识网络的形式进行表达,随后引入最近邻优先的候选知识选择策略,以及基于最大可学习支撑度优先的top-K未学知识推荐算法.建构推荐模型通过知识网络的知识关联结构挖掘用户知识需求,并推荐给出最具建构学习价值的待学新知识.以饮食健康知识系统学习为例的实验分析表明,新模型在多种情况下推荐产生的个性化知识序列均具有较强的知识关联性和较高的知识体系覆盖率.
一种改进的基于翻译的知识图谱表示方法
方阳,赵翔,谭真,杨世宇,肖卫东
2018, 55(1):  139-150.  doi:10.7544/issn1000-1239.2018.20160723
摘要 ( 1755 )   HTML ( 12)   PDF (2657KB) ( 1061 )  
相关文章 | 计量指标
知识图谱在人工智能上有很大的研究价值,并被广泛应用于语义搜索和自动问答等领域.知识图谱表示将包含了实体和关系的大规模知识图谱映射到一个连续的向量空间.为此,有一系列知识表示模型提出,其中基于翻译模型的经典方法TransE不仅模型复杂度低、计算效率高,而且同样具有良好的知识表达能力.但是,TransE亦存在2个缺陷:1)它使用了不够灵活的欧氏距离作为度量,对每一个特征维同等对待,模型的准确性可能受到无关维度的干扰;2)它在处理自反、一对多、多对一和多对多等复杂关系时存在局限性.目前,还没有一种方法能同时解决上述2个缺陷,因此提出一种改进的基于翻译的知识图谱表示方法TransAH.对于第1个缺陷,TransAH采用了一种自适应的度量方法,加入了对角权重矩阵将得分函数中的度量由欧氏距离转换为加权欧氏距离,并实现了为每一个特征维区别地赋予权重.针对第2个缺陷,受TransH方法的启发,TransAH引入面向特定关系的超平面模型,将头实体和尾实体映射至给定关系的超平面加以区分.最后,在公开真实的知识图谱数据集上分析和验证了所提方法的有效性.利用链路预测和三元组分类这2项任务开展了全面横向评测实验,相较于现有的模型和方法,TransAH在各项指标上均取得了很大的进步,体现了其优越性.
基于分类距离分数的自适应多模态生物特征融合
张露,王华彬,陶亮,周健
2018, 55(1):  151-162.  doi:10.7544/issn1000-1239.2018.20160675
摘要 ( 739 )   HTML ( 3)   PDF (3309KB) ( 615 )  
相关文章 | 计量指标
匹配分数是传统的融合分数指标,但是其不能很好地区分类内和类间数据,分类置信度虽然可以较好地将类内类间数据分开,但对于匹配分数仅次于分类阈值的数据,其分类效果不是很理想.因此,首先提出了一种基于分类距离分数的融合分数指标,其不仅携带一级分类信息,也含有匹配分数与分类阈值之间的距离信息,可增大融合后类内类间分数之间的距离,为融合算法提供了一个具有有效判别信息的特征融合集,提高了融合指标的利用率;进一步,利用信息熵表示信息价值多少的这一特性,定义特征关联系数和特征权重系数,并将加权融合和传统SUM规则统一在一个自适应算法框架中,提高了融合识别率.实验结果验证了所提出方法的有效性.
基于代表点评分策略的快速自适应聚类算法
张远鹏,邓赵红,钟富礼,杭文龙,王士同
2018, 55(1):  163-178.  doi:10.7544/issn1000-1239.2018.20160937
摘要 ( 695 )   HTML ( 0)   PDF (7559KB) ( 615 )  
相关文章 | 计量指标
在基于代表点的聚类算法中,为了解决算法自适应性和聚类速度问题,在快速压缩集密度估计的基础上,提出了一种基于代表点评分策略的快速自适应聚类算法.该算法的提出基于3个非常重要的假设:1)每个簇有一个代表点,且代表点来自簇内高密度样本;2)代表点或在压缩集中,或在压缩集附近且与压缩集中样本具有高度相似性;3)各簇中样本围绕代表点并沿着压缩集扩散.基于第1个和第2个假设,提出用代表点分值来评估样本成为代表点的可能性,并分析了其合理性.基于第3个假设和代表点分值,构建了一种快速的自适应聚类算法,该算法将所有样本按照其代表点分值从大到小排序,形成代表点候选集;然后从代表点候选集中逐个选择代表点,利用其邻域不断传递标签至整个压缩集;最后采用同样的方法将压缩集中样本的标签扩散至整个数据集,在此过程中引入抽样,提高标签传播速度.在人工数据集和真实数据集上的实验表明:所提出的算法能够处理任意形状的数据集和大规模数据集,且不需要指定类别数.
基于稀疏自学习卷积神经网络的句子分类模型
高云龙,左万利,王英,王鑫
2018, 55(1):  179-187.  doi:10.7544/issn1000-1239.2018.20160784
摘要 ( 1047 )   HTML ( 2)   PDF (2218KB) ( 814 )  
相关文章 | 计量指标
句子分类模型的建立对于自然语言理解的研究有着十分重要的意义.基于卷积神经网络(convolutional neural networks, CNN)提取数据特征的特点,提出基于稀疏自学习卷积神经网络(sparse and self-taught CNN, SCNN)的句子分类模型.首先,在卷积层排除人为约定的特征map输入,自学习前一层输入的特征矩阵的有效组合,动态捕获句子范围内各个特征的有效关联;然后,在训练过程中利用L1范数增加稀疏性约束,降低模型复杂度;最后,在采样层利用K-Max Pooling选择句子中最大特征的序列,并保留特征之间的相对次序.SCNN可以处理变长的句子输入,模型的建立不依赖于句法、分析树等语言学特征,从而适用于任何一种语言.通过对语料库进行句子分类实验,验证了所提出模型有较好的分类效果.
基于主题增强卷积神经网络的用户兴趣识别
杜雨萌,张伟男,刘挺
2018, 55(1):  188-197.  doi:10.7544/issn1000-1239.2018.20160892
摘要 ( 953 )   HTML ( 8)   PDF (3642KB) ( 741 )  
相关文章 | 计量指标
提出了一种基于主题增强卷积神经网络的用户兴趣识别的方法,通过构造一个双通道CNN模型,融合连续语义信息和离散主题信息,获取用户微博类别分布,在此基础上,通过极大似然估计识别用户的兴趣.实验结果表明,相较于基于Labeled LDA主题模型的方法和传统卷积神经网络的方法,提出的主题增强卷积神经网络缓解了噪声词对用户兴趣词的影响,并且通过融入主题信息提高了对于包含噪声词较多的微博的分类效果,在微博分类及用户兴趣识别上的效果获得了显著的提升.
基于生物医学文献的化学物质致病关系抽取
李智恒,桂颖溢,杨志豪,林鸿飞,王健
2018, 55(1):  198-206.  doi:10.7544/issn1000-1239.2018.20160893
摘要 ( 1026 )   HTML ( 1)   PDF (2284KB) ( 607 )  
相关文章 | 计量指标
化学物质和疾病之间的副作用关系使得化学物质-疾病关系受到更多关注.介绍一个从生物医学文献中抽取化学物质致病关系的系统——CDRExtractor.该系统首先训练一个句子级别分类器,用于抽取存在于同一个句子中的化学物质致病(chemical-induced disease, CID)关系.在句子级别分类器训练阶段,将特征核和图核特征看作2个独立的视图,采用基于半监督的Co-training方法,利用少量人工标注的训练集和大量未标注语料训练模型.之后,CDRExtractor利用文档级别的化学物质与疾病信息特征训练一个文档级别的分类器用于实现文档级别跨句子的CID关系抽取.最后,利用规则将2个分类器的抽取结果进行整合,生成最终的输出结果.实验结果表明:CDRExtractor在BioCreative V CDR评测任务CID子任务提供的测试集上F值达到67.72%.
信息安全
SDN网络拓扑污染攻击防御机制研究
郑正,徐明伟,李琦,张云
2018, 55(1):  207-215.  doi:10.7544/issn1000-1239.2018.20160740
摘要 ( 1175 )   HTML ( 5)   PDF (2464KB) ( 856 )  
相关文章 | 计量指标
软件定义网络(software-defined networking, SDN)是一种新型的网络体系结构,SDN网络将传统网络的数据层和控制层进行分离,数据层由支持OpenFlow协议的交换机实现,控制层由控制器来实现.控制器维护全网拓扑信息,集中管理网络流的路由决策.现有研究表明,在控制器的拓扑服务管理中存在严重的漏洞,主要存在于主机发现服务和链路发现服务中,攻击者利用这类漏洞可以进行网络拓扑污染攻击.目前研究者们提出的拓扑污染防御方案存在设计漏洞,很容易被攻击者绕过.故提出一种轻量级的符合SDN场景的防御方案——SecTopo——实现拓扑污染防御.通过在Floodlight控制器上测试SecTopo表明,SecTopo不仅能有效防御攻击,而且仅引入的开销极小.
在线/离线的可追责属性加密方案
张凯,马建峰,张俊伟,应作斌,张涛,刘西蒙,
2018, 55(1):  216-224.  doi:10.7544/issn1000-1239.2018.20160799
摘要 ( 924 )   HTML ( 2)   PDF (1032KB) ( 531 )  
相关文章 | 计量指标
作为一种公钥加密,属性加密能够实现细粒度的访问控制.然而,由于在密文策略属性加密中多个用户可能会拥有相同的解密权限,所以抓获那些出售自己私钥的用户是困难的.其次,在密文策略的属性加密中,加密一个消息所要用到的指数运算是随着访问策略复杂性的增长而增长的,由此带来的计算开销对使用移动设备进行加密的用户造成了重大挑战.针对上述问题,给出了在线/离线可追责属性加密的安全模型,然后在素数阶双线性群下构造了一个在线/离线的可追责密文策略属性加密方案,并在标准模型下证明了方案是选择性安全的.当一个恶意用户泄露的自己私钥给别人时,该方案能够通过一个追责算法将其抓获.效率分析表明该方案加密的主要开销是在离线阶段,更适用于移动设备进行加密.此外,所提方案支持大属性域,在实际应用中更加灵活.