Please wait a minute...
ISSN 1000-1239 CN 11-1777/TP

当期目录

2021年 第58卷 第1期    出版日期:2021-01-01
人工智能
自动文本摘要研究综述
李金鹏, 张闯, 陈小军, 胡玥, 廖鹏程
2021, 58(1):  1-21.  doi:10.7544/issn1000-1239.2021.20190785
摘要 ( 1737 )   HTML ( 58)   PDF (1756KB) ( 1571 )  
相关文章 | 计量指标
近年来,互联网技术的蓬勃发展极大地便利了人类的日常生活,不可避免的是互联网中的信息呈井喷式爆发,如何从中快速有效地获取所需信息显得极为重要.自动文本摘要技术的出现可以有效缓解该问题,其作为自然语言处理和人工智能领域的重要研究内容之一,利用计算机自动地从长文本或文本集合中提炼出一段能准确反映源文中心内容的简洁连贯的短文.探讨自动文本摘要任务的内涵,回顾和分析了自动文本摘要技术的发展,针对目前主要的2种摘要产生形式(抽取式和生成式)的具体工作进行了详细介绍,包括特征评分、分类算法、线性规划、次模函数、图排序、序列标注、启发式算法、深度学习等算法.并对自动文本摘要常用的数据集以及评价指标进行了分析,最后对其面临的挑战和未来的研究趋势、应用等进行了预测.
深度神经架构搜索综述
孟子尧, 谷雪, 梁艳春, 许东, 吴春国
2021, 58(1):  22-33.  doi:10.7544/issn1000-1239.2021.20190851
摘要 ( 1194 )   HTML ( 26)   PDF (1178KB) ( 1099 )  
相关文章 | 计量指标
深度学习在图像、语音、文本等多种模态的数据任务上取得了优异的效果.然而,针对特定任务,人工设计网络需要花费大量的时间,并且需要设计者具有一定水平的专业知识和设计经验.面对如今日趋复杂的网络架构,仅依靠人工进行设计变得越来越复杂.基于此,借助算法自动地对神经网络进行架构的搜索成为了研究热点.神经架构搜索的方法涉及3个方面:搜索空间、搜索策略、性能评估策略.通过搜索策略在搜索空间中选择一个网络架构,借助性能评估策略对该网络架构进行评估,并将结果反馈给搜索策略指导搜索策略选择更好的网络架构,通过不断迭代得到最优的网络架构.为了更好地为读者提供一个快速了解神经网络架构搜索方法的导航地图,从搜索空间、搜索策略和性能评估策略3个方面对现有典型的神经架构搜索方法进行了梳理,总结讨论了近年来常见的架构搜索方法,并分析了各种方法的优势和不足.
特征特定标记关联挖掘的类属属性学习
程玉胜, 张露露, 王一宾, 裴根生
2021, 58(1):  34-47.  doi:10.7544/issn1000-1239.2021.20190674
摘要 ( 345 )   HTML ( 9)   PDF (2792KB) ( 378 )  
相关文章 | 计量指标
在多标记分类中,某个标记可能只由其自身的某些特有属性决定,这些特定属性称之为类属属性.利用类属属性进行多标记分类,可以有效避免某些无用特征影响构建分类模型的性能.然而类属属性算法仅从标记角度去提取重要特征,而忽略了从特征角度去提取重要标记.事实上,如果能从特征角度提前关注某些标记,更容易获取这些标记的特有属性.基于此,提出了一种新型类属属性学习的多标记分类算法,将从特征层面提取重要标记与从标记层面提取重要特征进行双向联合学习.首先,为了保证模型求解速度与精度都较为合理,采用极限学习机构建学习模型.随后,将弹性网络正则化理论添加到极限学习机损失函数中,使用互信息构建特征标记相关性矩阵作为L\-2正则化项,而L\-1正则化项即提取类属属性.该学习模型改进了类属属性在多标记学习中的不足,通过在标准多标记数据集上与多个先进算法对比,实验结果表明了所提模型的合理性和有效性.
基于时空融合图网络学习的视频异常事件检测
周航, 詹永照, 毛启容
2021, 58(1):  48-59.  doi:10.7544/issn1000-1239.2021.20200264
摘要 ( 480 )   HTML ( 9)   PDF (2870KB) ( 561 )  
相关文章 | 计量指标
视频中异常事件所体现的时空特征存在着较强的相关关系.针对视频异常事件发生的时空特征相关性而影响检测性能问题,提出了基于时空融合图网络学习的视频异常事件检测方法,该方法针对视频片段的特征分别构建空间相似图和时间连续图,将各片段对应为图中的节点,考虑各节点特征与其他节点特征的Top-k相似性动态形成边的权重,构成空间相似图;考虑各节点的m个时间段内的连续性形成边的权重,构成时间连续图.将空间相似图和时间连续图进行自适应加权融合形成时空融合图卷积网络,并学习生成视频特征.在排序损失中加入图的稀疏项约束降低图模型的过平滑效应并提升检测性能.在UCF-Crime和ShanghaiTech等视频异常事件数据集上进行了实验,以接收者操作曲线(receiver operating characteristic curve, ROC)以及曲线下面积(area under curve, AUC)值作为性能度量指标.在UCF-Crime数据集下,提出的方法在AUC上达到80.76%,比基准线高5.35%;在ShanghaiTech数据集中,AUC达到89.88%,比同类最好的方法高5.44%.实验结果表明:所提出的方法可有效提高视频异常事件检测的性能.
基于交叉熵的安全Tri-training算法
张永, 陈蓉蓉, 张晶
2021, 58(1):  60-69.  doi:10.7544/issn1000-1239.2021.20190838
摘要 ( 685 )   HTML ( 7)   PDF (600KB) ( 166 )  
相关文章 | 计量指标
半监督学习方法通过少量标记数据和大量未标记数据来提升学习性能.Tri-training是一种经典的基于分歧的半监督学习方法,但在学习过程中可能产生标记噪声问题.为了减少Tri-training中的标记噪声对未标记数据的预测偏差,学习到更好的半监督分类模型,用交叉熵代替错误率以更好地反映模型预估结果和真实分布之间的差距,并结合凸优化方法来达到降低标记噪声的目的,保证模型效果.在此基础上,分别提出了一种基于交叉熵的Tri-training算法、一个安全的Tri-training算法,以及一种基于交叉熵的安全Tri-training算法.在UCI(University of California Irvine)机器学习库等基准数据集上验证了所提方法的有效性,并利用显著性检验从统计学的角度进一步验证了方法的性能.实验结果表明,提出的半监督学习方法在分类性能方面优于传统的Tri-training算法,其中基于交叉熵的安全Tri-training算法拥有更高的分类性能和泛化能力.
融合用户兴趣偏好与影响力的目标社区发现
刘海姣, 马慧芳, 赵琪琪, 李志欣
2021, 58(1):  70-82.  doi:10.7544/issn1000-1239.2021.20190775
摘要 ( 311 )   HTML ( 4)   PDF (2154KB) ( 379 )  
相关文章 | 计量指标
目标社区检测旨在找到符合用户偏好的有凝聚力的社区.然而,所有现有工作要么在很大程度上忽视社区的外部影响,要么不是"基于目标的",即不适合目标请求.为了解决这一问题,提出面向属性网络的融合用户兴趣偏好与社区影响力的目标社区发现方法,挖掘与用户偏好相关且最具一定影响力的高质量社区.首先,综合节点结构与属性信息,挖掘包含样例节点的极大k-团作为潜在目标社区核心,并设计熵加权属性权重计算方法来捕获潜在目标社区属性子空间权重,挖掘用户偏好;其次,融合社区内部紧密性和外部可分离性定义社区质量函数,以极大k-团为核心扩展得到高质量的潜在目标社区;最后,定义社区的外部影响分数量化办法,并结合社区质量函数值及外部影响分数对所有潜在目标社区排序,输出综合质量较高的社区为目标社区.此外,在计算极大k-团的属性子空间权重时,设计了2重剪枝策略提升方法的性能和效率.在人工网络和真实网络数据集上的实验结果印证了所提方法的效率和有效性.
基于故障检测上下文的等价变异体识别算法
于畅, 王雅文, 林欢, 宫云战
2021, 58(1):  83-97.  doi:10.7544/issn1000-1239.2021.20190817
摘要 ( 212 )   HTML ( 8)   PDF (1595KB) ( 316 )  
相关文章 | 计量指标
等价变异体识别一直是阻碍变异测试在工业界得以广泛应用的一个关键难题.为此提出了一种基于故障检测上下文的等价变异体识别算法.该算法通过静态分析技术抽取程序中与故障检测条件相关的代码上下文信息,以构造故障检测上下文;接着,故障检测上下文被转换为文档模型,经过一个文档表示学习网络进行编码;最后通过机器学习模型将变异体分类为等价或非等价变异.在包含了22个C程序和118 000个变异体样本的训练集上,该算法取得91%的分类精准度和82%的召回率;同时在跨项目交叉验证中,机器学习模型取得了77%的精准度和78%的召回率.该结果表明基于故障检测上下文的识别技术能够有效地提高等价变异体分类的精准性和泛用性,为提高变异测试技术的有效性提供了技术支持.
网络技术
分布式深度学习训练网络综述
朱泓睿, 元国军, 姚成吉, 谭光明, 王展, 户忠哲, 张晓扬, 安学军
2021, 58(1):  98-115.  doi:10.7544/issn1000-1239.2021.20190881
摘要 ( 800 )   HTML ( 26)   PDF (3061KB) ( 686 )  
相关文章 | 计量指标
近年来深度学习在图像、语音、自然语言处理等诸多领域得到广泛应用,但随着人们对深度学习的训练速度和数据处理能力的需求不断提升,传统的基于单机的训练过程愈发难以满足要求,分布式的深度学习训练方法成为持续提升算力的有效途径.其中训练过程中节点间网络的通信性能至关重要,直接影响训练性能.分析了分布式深度学习中的性能瓶颈,在此基础上对目前常用的网络性能优化方案进行综述,详细阐述了目前最新的超大规模分布式训练的体系结构、优化方法、训练环境和最有效的优化方法,最后对分布式训练仍然存在的困难进行了总结,对其未来研究方向进行了展望.
命名数据网络中的视频传输研究综述
胡晓艳, 童钟奇, 徐恪, 张国强, 郑少琦, 赵丽侠, 程光, 龚俭
2021, 58(1):  116-136.  doi:10.7544/issn1000-1239.2021.20190697
摘要 ( 403 )   HTML ( 5)   PDF (1263KB) ( 211 )  
相关文章 | 计量指标
互联网目前已经发展为一个由实时视频和视频点播等内容分发服务主导的网络.传统IP网络对于视频分发类任务的支持存在组播的部署复杂且开销大,不能有效利用多路径获取内容、对移动性的支持差和难以同时满足可靠性以及低延时需求等问题.命名数据网络(named data networking, NDN)作为新型的下一代互联网体系结构,支持网络内缓存和多路径传输,而且由消费者驱动的传输模式使其天然地支持消费者端移动性.以上特点使NDN具有高效传输视频内容的潜力.首先介绍了视频传输和NDN的基础背景,然后阐述了一些利用NDN中优势实现视频传输的设计方案.通过对已有方案的总结与比较,最后指出了在NDN中传输视频所面临的挑战.
网络功能虚拟化下服务功能链的资源管理研究综述
祖家琛, 胡谷雨, 严佳洁, 李实吉
2021, 58(1):  137-152.  doi:10.7544/issn1000-1239.2021.20190823
摘要 ( 520 )   HTML ( 17)   PDF (2139KB) ( 472 )  
相关文章 | 计量指标
伴随着云计算,软件定义网络和网络功能虚拟化等网络新技术的出现,未来网络运维向着虚拟化、智能化的方向不断迈进.网络功能虚拟化提供了一种服务节点虚拟化的方法,它采用通用服务器替代传统网络中的专用中间件,可以大大降低网络运营商的建设和运营成本,提升网络管理的灵活性和可扩展性.由于网络端到端服务通常需要不同的服务功能,采用虚拟化技术构建网络服务功能链,进行资源的合理分配和调度成为一个重要的研究课题,引起了学术界和工业界的广泛关注.从网络功能虚拟化的技术背景出发,介绍了网络功能虚拟化下服务功能链资源管理的基础架构、技术基础和应用场景.而后基于服务功能链编排的不同阶段,将现有理论研究划分为4个部分:组链、部署、调度和按需缩放分别展开论述,从问题出发介绍和分析了研究现状.最后,针对现有存在问题,提出了一些拟解决方案,并对未来的研究方向进行了展望.
FlexTSN:一种灵活的TSN交换实现模型
杨翔瑞, 严锦立, 陈波, 彭锦涛, 李军帅, 全巍, 孙志刚
2021, 58(1):  153-163.  doi:10.7544/issn1000-1239.2021.20190784
摘要 ( 300 )   HTML ( 3)   PDF (3083KB) ( 190 )  
相关文章 | 计量指标
时间敏感网络(time-sensitive networking, TSN)的核心是为标准以太网赋予关键流量的确定性转发服务,同时能够实现混合优先级业务流量的一体化传输,从而成为业界和学术界备受关注的新兴技术.相比于标准以太网交换,TSN交换通过引入高精度的时间同步特性提供门控机制和时间感知的分组调度等服务,使得以太网有能力提供确定性延迟的转发服务.目前,IEEE 802.1 TSN工作组从时间同步、流管理、流控制以及可靠性等方面对TSN的设计实现提供较为完善的标准.而现有的工作难以加快TSN技术的实现和应用,其难点在于目前缺少一种面向TSN的通用交换实现模型进行快速的原型系统搭建和关键技术的验证.为此提出一种灵活的TSN交换的实现模型FlexTSN.FlexTSN基于模块化与功能松耦合的思想,将TSN交换节点解耦为通用处理模块和时间感知模块,支持TSN交换机的快速重构.此外,FlexTSN通过扩展PTP同步协议提供一种轻量级高可靠的网络管理机制用于进行细粒度集中式的状态收集和配置.然后基于该模型在可编程的FPGA平台上实现了一种支持简化的循环队列转发模型(cyclical queuing and forwarding, CQF)的TSN原型系统.通过从资源开销和服务质量等方面进行测试评估,实验结果证明FlexTSN能够实现敏捷的原型系统组网及TSN关键技术的快速验证.
基于在网计算加速的拜占庭容错算法
杨帆, 张鹏, 王展, 元国军, 安学军
2021, 58(1):  164-177.  doi:10.7544/issn1000-1239.2021.20190723
摘要 ( 262 )   HTML ( 4)   PDF (2582KB) ( 183 )  
相关文章 | 计量指标
拜占庭容错算法是一类能够容忍各种形式的软件错误和安全漏洞的容错算法,对云计算的可靠性保障有着重要意义.与其他容错算法相比,拜占庭容错算法稳定性更高,但是其性能表现低下,不能满足当前系统对高吞吐、低延时的需求.在网计算是一种以数据为中心的体系结构,它用网络承担部分计算功能,使数据在流动过程中获得处理,从而提高系统性能.为解决拜占庭容错系统的问题,提出了一种基于在网计算的拜占庭容忍共识算法优化方案,将算法的一部分处理任务卸载到网卡上执行,利用网卡和处理器形成的多级流水线提升系统吞吐量.由于仅使用在网计算的方案在特定场景下效果不佳,因此,使用多线程方法来提升优化方案的可扩展性.同时,对算法进行了详细的系统评测,实验结果表明:相对于普通的拜占庭容错系统,使用在网计算与多线程结合的优化方案能够获得46%的吞吐率提升以及65%的延迟下降,证明了基于在网计算的拜占庭容忍共识算法优化方案的可行性与有效性.
软件技术
基于排序损失的ECC多标签代码异味检测方法
王继娜, 陈军华, 高建华
2021, 58(1):  178-188.  doi:10.7544/issn1000-1239.2021.20190836
摘要 ( 233 )   HTML ( 4)   PDF (1668KB) ( 132 )  
相关文章 | 计量指标
代码异味是由糟糕的代码或设计问题引起的一种软件特征,严重影响了软件系统的可靠性和可维护性.在软件系统中,一段代码元素可能同时受到多种代码异味的影响,使得软件质量明显下降.多标签分类适用该情况,将高共现的多个代码异味置于同一标签组,可以更好地考虑代码异味的相关性,但现有的多标签代码异味检测方法未考虑同一段代码元素中多种代码异味检测顺序的影响.对此,提出了一种基于排序损失的集成分类器链(ensemble of classifier chains, ECC)多标签代码异味检测方法,该方法选择随机森林作为基础分类器并采取多次迭代ECC的方式,以排序损失最小化为目标,选择一个较优的标签序列集,优化代码异味检测顺序问题,模拟其生成机理,检测一段代码元素是否同时存在长方法-长参数列表、复杂类-消息链或消息链-过大类这3组代码异味.实验采用9个评价指标,结果表明所提出的检测方法优于现有的多标签代码异味检测方法,F1平均值达97.16%.
基于已有实例的Linux驱动程序前向移植接口补丁推荐
李 斌, 贺也平, 马恒太, 芮建武
2021, 58(1):  189-207.  doi:10.7544/issn1000-1239.2021.20200284
摘要 ( 172 )   HTML ( 3)   PDF (1792KB) ( 289 )  
相关文章 | 计量指标
Linux内核版本频繁升级对驱动程序带来的关联影响程度和影响范围都很大,为了修复这种关联影响带来的驱动程序调用内核接口的不一致性错误,不断修改旧版本驱动代码进行前向移植是一个持续和紧迫的问题.驱动演化辅助理解、驱动移植中间库辅助适配和驱动移植辅助信息等方面的已有研究,通过检索语句级别的辅助信息提高了驱动移植的效率.但是已有方法仅关注了检索辅助信息本身却并没有区分其中包含的有效补丁素材,因此还需要人工分析和手工构造适配性补丁.为了克服上述限制,提出了一种全新的方法旨在推荐驱动前向移植中接口错误的高质量补丁.观察发现,依赖相同内核接口服务的多个不同驱动程序之间存在相同或相似的内核接口调用,内核版本升级后其他驱动的历史开发信息中可能存在这种复用接口及其使用变更的已有实例代码.利用出错接口语句和相似已有实例的共性分析错误问题的特点,通过已有实例的辅助作用抽取针对性的接口修改方式和修改内容等细粒度素材生成待推荐补丁.具体结合分界点识别、相似度计算、细粒度差异比较和频度计算确定有效修改方式.提出了一种基于已有实例差异特征的分类算法,通过区分修改内容的不同类型分别从2种数据源提取.最后使用编辑脚本技术生成推荐补丁列表.在9个不同类型的真实驱动程序上的实验表明,该方法能够推荐驱动移植中7类接口错误补丁,有效补丁占比约67.4%,对现有辅助方法形成了有效补充和拓展.
基于边际贡献的需求变更技术债务量化评估
张云洁, 张璇, 王旭, 任峻民, 唐子淇
2021, 58(1):  208-223.  doi:10.7544/issn1000-1239.2021.20190459
摘要 ( 172 )   HTML ( 1)   PDF (4037KB) ( 77 )  
相关文章 | 计量指标
软件技术债务运用了经济学中“债务”的概念来描述软件开发中为了实现项目短期利益而实施的技术折中,但从长期目标来看,技术债务会影响软件的质量、成本和开发效率,因此,有必要对其进行系统有效的管理.面向软件生命周期中因持续不断出现的需求变更而引起的技术债务,提出需求变更技术债务的定义,对需求变更的技术债务进行量化,借助经济学中“边际贡献”的思想分析需求变更的边际贡献,为需求变更的实施优先级提供依据,再利用边际贡献分析法为需求变更的实现价值提供参考.在实验与案例研究部分,以大型开源项目Hadoop为例,验证需求变更边际贡献概念的可用性和技术的可行性.运用梯度提升决策树算法对Spring Framework中的需求变更历史报告进行研究,提出需求变更边际贡献能力分析方法,对变更报告各个字段取值对其边际贡献影响的重要度进行排序.结果表明,该分析方法可以为需求工程师衡量其工作量和风险提供有价值的参考建议.
基于交互特征表示的评价对象抽取模型
曾碧卿, 曾锋, 韩旭丽, 商齐
2021, 58(1):  224-232.  doi:10.7544/issn1000-1239.2021.20190305
摘要 ( 273 )   HTML ( 5)   PDF (1357KB) ( 184 )  
相关文章 | 计量指标
评价对象抽取是对象级情感分析的关键任务之一,评价对象抽取结果会直接影响对象级情感分类的准确率.在评价对象抽取任务中,借助手工特征加强模型性能的方式既消耗时间又耗费人力.针对数据规模小、特征信息不充分等问题,提出一种基于交互特征表示的评价对象抽取模型(aspect extraction model based on interactive feature representation, AEMIFR).相比其他模型,AEMIFR模型结合字符级嵌入与单词嵌入,捕获单词的语义特征、字符的形态特征以及字符与词语之间的内在联系.而且,AEMIFR模型获取文本的局部特征表示和上下文依赖特征表示,并学习2种特征表示之间的交互关系,增强2种特征之间的相似特征的重要性,减少无用特征对模型的消极影响,以及学习更高质量的特征表示.最后在SemEval 2014,SemEval 2015,SemEval 2016中的数据集L-14,R-14,R-15,R-16上进行实验,取得具有竞争力的效果.