Please wait a minute...
ISSN 1000-1239 CN 11-1777/TP

当期目录

2022年 第59卷 第1期    出版日期:2022-01-01
系统结构
智能网卡综述
马潇潇,杨帆,王展,元国军,安学军
2022, 59(1):  1-21.  doi:10.7544/issn1000-1239.20200629
摘要 ( 1381 )   HTML ( 46)   PDF (2021KB) ( 979 )  
相关文章 | 计量指标
在网速飞速提升、内存瓶颈突出、网络处理开销愈发显著的时代,普通网卡在网络协议处理、数据搬移、使用灵活性等方面逐渐暴露出缺陷.智能网卡,作为可编程的智能网络设备,在数据中心、科学计算领域均得到广泛关注,成为解决网络瓶颈的关键技术.在网络协议处理卸载、网络功能虚拟化、特定应用加速等应用场景中发挥着重要作用.综述从智能网卡的基础架构、编程框架、应用方向和热点问题4个方面进行分析,总结了目前产业界中的典型产品、学术界中的重要成果,明确了不同设计架构的优势和不足,分析了不同编程框架适用的应用场景,介绍了智能网卡在典型数据中心应用、科学计算应用实例中的作用,对不同应用场景中智能网卡的软硬件协同设计提供了建议.最后,综述对当前智能网卡设计、使用中仍然存在的热点问题进行总结,总结了通用的智能网卡设计思路,指明未来有价值的重要研究点.
Chiplet封装结构与通信结构综述
陈桂林,王观武,胡健,王康,许东忠
2022, 59(1):  22-30.  doi:10.7544/issn1000-1239.20200314
摘要 ( 753 )   HTML ( 20)   PDF (2157KB) ( 625 )  
相关文章 | 计量指标
近年来,随着摩尔定律逼近极限,片上系统(system on chip, SoC)的发展已经遇到瓶颈.集成更多的功能单元和更大的片上存储使得芯片面积急剧增大,导致芯片良品率降低,进而增加了成本.各大研究机构和芯片制造厂商开始寻求使用先进的连接和封装技术,将原先的芯片拆成多个体积更小、产量更高且更具成本效益的小芯片(Chiplet)再封装起来,这种封装技术类似于芯片的系统级封装(system in package, SiP).目前Chiplet的封装方式没有统一的标准,可行的方案有通过硅桥进行芯片的拼接或是通过中介层进行芯片的连接等,按照封装结构可以分为2D,2.5D,3D.通过归纳整理目前已发布的小芯片产品,讨论了各个结构的优缺点.除此之外,多个小芯片之间的通信结构也是研究的重点,传统的总线或者片上网络(network on chip, NoC)在Chiplet上如何实现,总结遇到的挑战和现有解决方案.最后通过对现有技术的讨论,探索以后小芯片发展的趋势和方向.
基于指令流访存模式预测的缓存替换策略
王玉庆,杨秋松,李明树
2022, 59(1):  31-46.  doi:10.7544/issn1000-1239.20200503
摘要 ( 219 )   HTML ( 3)   PDF (1726KB) ( 322 )  
相关文章 | 计量指标
传统的缓存替换策略主要基于经验主义,近年来研究者们使用预测技术推测访存行为,提高缓存替换的准确性,预测技术的应用是当前缓存替换策略研究的热点.由于访存行为自身的复杂性,直接在缓存系统中预测访存行为是困难的,要面对很大的不确定性.当前已有的研究为了解决该问题,使用越来越复杂的预测算法来分析访存行为之间的关联.然而这种方式并未真正减小不确定性,同时现有的缓存替换策略很难避免乱序执行和缓存预取对访存行为分析过程的干扰.为了解决以上问题,提出了一种新的预测缓存访问序列的方法IFAPP(instruction flow access pattern prediction),根据分支预测技术推测程序指令流,定位指令流中的访存指令,进而对其中访存指令的行为逐一进行预测.通过访存序列计算每个替换候选项的重用距离,将重用距离最远的候选项踢出.该方法可以避免乱序执行和缓存预取的干扰,预测对象是行为简单的独立访存指令,减少预测过程中所面对的不确定性.实验结果表明,该算法在一级数据缓存上比LRU算法平均减少3.2%的缓存缺失.相比经典的基于缓存预测的BRRIP和BIP算法,该算法在一级数据缓存上分别减少12.3%和14.4%的缓存缺失.
人工智能
图神经网络综述
马帅,刘建伟,左信
2022, 59(1):  47-80.  doi:10.7544/issn1000-1239.20201055
摘要 ( 3496 )   HTML ( 116)   PDF (3415KB) ( 3447 )  
相关文章 | 计量指标
近几年来,将深度学习应用到处理和图结构数据相关的任务中越来越受到人们的关注.图神经网络的出现使其在上述任务中取得了重大突破,比如在社交网络、自然语言处理、计算机视觉甚至生命科学等领域得到了非常广泛的应用.图神经网络可以把实际问题看作图中节点之间的连接和消息传播问题,对节点之间的依赖关系进行建模,从而能够很好地处理图结构数据.鉴于此,系统综述了图神经网络模型以及应用.首先从谱域、空间域和池化3方面对图卷积神经网络进行了阐述.然后,描述了基于注意力机制和自编码器的图神经网络模型,并补充了一些其他方法实现的图神经网络.其次,总结了针对图神经网络能不能做大做深等问题的讨论分析.进而,概括了图神经网络的4个框架.还详细说明了在图神经网络在自然语言处理、计算机视觉等方面的应用.最后,对图神经网络未来的研究进行了展望和总结.相较于已有的图神经网络综述文章,详细阐述了谱理论知识,并对基于谱域的图卷积神经网络体系进行全面总结.同时,给出了针对空间域图卷积神经网络效率低的改进模型这一新的分类标准.并总结了针对图神经网络表达能力、理论保障等的讨论分析,增加了新的框架模型.在应用部分,阐述了图神经网络的最新应用.
基于深度学习的知识追踪研究进展
刘铁园,陈威,常亮,古天龙
2022, 59(1):  81-104.  doi:10.7544/issn1000-1239.20200848
摘要 ( 1478 )   HTML ( 39)   PDF (2015KB) ( 1002 )  
相关文章 | 计量指标
知识追踪是教育数据挖掘领域的一个重要研究方向,其目标是通过建立学生知识状态随时间变化的模型,来判断学生对知识的掌握程度并从学生的学习轨迹中挖掘出潜在的学习规律,从而提供个性化的指导,达到人工智能辅助教育的目的.深度学习因其强大的特征提取能力,已被证明能显著提升知识追踪模型的性能而越来越受到各方重视.以最基本的深度知识追踪模型为起点,全面回顾了该研究领域的研究进展,给出了该研究领域技术改进、演化脉络图,并从针对可解释问题的改进、针对长期依赖问题的改进、针对缺少学习特征问题的改进3个主要技术改进方向做了深入阐述和比较分析,同时对该领域中的已有模型做了归类,整理了可供研究者使用的公开数据集,考察了其主要应用,最后,对基于深度学习的知识追踪的未来研究方向进行了展望.
基于特征分离的跨域自适应学习模型
李鑫,李哲民,魏居辉,杨雅婷,王红霞
2022, 59(1):  105-117.  doi:10.7544/issn1000-1239.20200765
摘要 ( 366 )   HTML ( 12)   PDF (4835KB) ( 295 )  
相关文章 | 计量指标
跨域训练任务是目前机器学习领域的一个开放性挑战问题.目前最新的研究都在讨论利用真实特征的跨域不变性对未知域数据进行预测,从而实现跨域泛化能力.但事实上,当知道数据来自哪个域时,综合利用真实特征和虚假特征会取得更好的预测效果.针对这一问题,设计了一个同时适用于跨域泛化和跨域适应任务的学习模型CDGA(cross-domain generalization and adaptation model).该模型的核心仍是分离出真实特征,因此新提出了一种更加稳定的训练风险函数,其在跨域泛化问题中不仅具有更高的测试准确率,还克服了现有方法容易过拟合的缺点,可以很好地嵌入到CDGA模型中.另外,通过设计的算法训练后,可使CDGA模型的数据表达部分有效地分离出真实特征和虚假特征,而分类器部分自适应学习选择泛化分类器或特定环境的分类器,从而结合应用了虚假特征,在跨域任务中实现高效预测.最后在构建的彩色手写数字数据集上测试,结果显著优于已有方法.
关于短文本匹配的泛化性和迁移性的研究分析
马新宇,范意兴,郭嘉丰,张儒清,苏立新,程学旗
2022, 59(1):  118-126.  doi:10.7544/issn1000-1239.20200626
摘要 ( 321 )   HTML ( 9)   PDF (1584KB) ( 293 )  
相关文章 | 计量指标
自然语言理解中的许多任务,比如自然语言推断任务、机器问答和复述问题,都可以看作是短文本匹配问题.近年来,大量的数据集和深度学习模型的涌现使得短文本匹配任务取得了长足的进步,然而,很少有工作去分析模型在不同数据集之间的泛化能力,以及如何在新领域中有效地利用现有不同领域中的大量带标注的数据,达到减少新领域的数据标注量和提升性能的目标.为此,重点分析了不同数据集之间的泛化性和迁移性,并且通过可视化的方式展示了影响数据集之间泛化性的因素.具体地,使用深度学习模型ESIM(enhanced sequential inference model)和预训练语言模型BERT(bidirectional encoder representations from transformers)在10个通用的短文本匹配数据集上进行了详尽的实验.通过实验,发现即使是在大规模语料预训练过的BERT,合适的迁移仍能带来性能提升.基于以上的分析,也发现通过在混合数据集预训练过的模型,在新的领域和少量样本情况下,具有较好的泛化能力和迁移能力.
基于时序窗口的概念漂移类别检测
郭虎升,任巧燕,王文剑
2022, 59(1):  127-143.  doi:10.7544/issn1000-1239.20200562
摘要 ( 198 )   HTML ( 3)   PDF (6090KB) ( 224 )  
相关文章 | 计量指标
流数据作为一种新型数据,在各个领域均有应用,其快速、大量及持续不断的特点使得单遍精准扫描成为在线学习算法的必备特质.在流数据不断产生过程中,往往会发生概念漂移,目前对于概念漂移节点检测的研究相对成熟,然而实际问题中学习环境因素朝不同方向发展往往会导致流数据中概念漂移类别的多样性,这给流数据挖掘及在线学习带来了新的挑战.针对这个问题,提出一种基于时序窗口的概念漂移类别检测(concept drift class detection based on time window, CD-TW)方法.该方法借助栈和队列对流数据进行存取,借助窗口机制对流数据进行分块学习.首先创建2个分别加载历史数据和当前数据的基础节点时序窗口,通过比较二者所包含数据的分布变化情况来检测概念漂移节点.然后创建加载漂移节点后部分数据的跨度时序窗口,通过分析该窗口中数据分布的稳定性检测漂移跨度,进而判断概念漂移类别.实验结果表明该方法不仅能够精确定位概念漂移节点,同时在漂移类别判断方面也表现出良好性能.
隐私保护
ESA:一种新型的隐私保护框架
王雷霞,孟小峰
2022, 59(1):  144-171.  doi:10.7544/issn1000-1239.20201042
摘要 ( 545 )   HTML ( 16)   PDF (5520KB) ( 442 )  
相关文章 | 计量指标
随着大数据驱动下智能技术的快速发展,大规模数据收集场景成为数据治理和隐私保护的主战场,本地化差分隐私技术作为该场景下的主流技术,被谷歌、苹果、微软等企业广泛使用.然而,该技术在用户本地对数据进行扰动,引入较多噪声,数据可用性较差.为实现可用性与隐私性兼顾的隐私保护方法,ESA(encode-shuffle-analyze)框架被提出,它在混洗器(shuffler)的作用下尽可能对数据进行较小扰动,同时保护用户隐私,使得任一用户的隐私信息都不能被数据分析者从收集数据中唯一识别.鉴于差分隐私在数学上优雅且严格的隐私定义,该框架目前主要基于差分隐私技术进行实现,该种实现称为混洗差分隐私(shuffle differential privacy, SDP).在保证相同隐私损失ε的情况下,混洗差分隐私比本地化差分隐私的可用性高O(n\+{1/2})倍,接近中心化差分隐私而不依赖于可信第三方.为对该新型的隐私保护框架进行综述,首先对该框架进行分析;之后基于主流的混洗差分隐私技术,对相关理论基础与技术基础进行总结,对不同统计问题下的隐私保护机制进行理论与实验对比;最终提出ESA框架的挑战问题,并对该框架下非差分隐私方法的实现进行展望.
基于群签名和同态加密的联盟链双重隐私保护方法
刁一晴,叶阿勇,张娇美,邓慧娜,张强,程保容
2022, 59(1):  172-181.  doi:10.7544/issn1000-1239.20200576
摘要 ( 422 )   HTML ( 12)   PDF (950KB) ( 442 )  
相关文章 | 计量指标
区块链账本公开,以实现交易的溯源与可验证,但账本的透明使得区块链用户的隐私成为一个亟待解决的问题.为了解决联盟链交易中的交易金额和身份的隐私暴露问题,提出了基于群签名和同态加密的联盟链双隐私保护方法,在满足交易溯源和可验证的前提下,实现收付款者身份和交易金额的隐私保护.将群签名中群的概念与联盟链恰当结合,并提出一种部分身份匿名的概念,使方案能够满足对其他交易节点匿名,同时确保主要节点可验证.并利用Paillier同态加密的加同态性质验证交易的合法性,保护交易金额的隐私.提出主要节点的4步验证方法,通过对群签名、账户所属权和交易金额合法性的验证,实现主要节点对交易合法性的监管.通过分析,该方案可以抵抗篡改攻击和公钥替换攻击,且交易合法性验证合理,最后,通过与其他方案的对比分析,该方案的计算开销是合理的.
基于属性分割的高维二值数据差分隐私发布
洪金鑫,吴英杰,蔡剑平,孙岚
2022, 59(1):  182-196.  doi:10.7544/issn1000-1239.20200701
摘要 ( 174 )   HTML ( 5)   PDF (1101KB) ( 109 )  
相关文章 | 计量指标
通常随着数据集属性维度的增加,高维数据的差分隐私发布方法所需的时间成本和产生的噪声干扰也会随之增大,尤其是对于高维二值数据很容易被过大的噪声所覆盖.因此,针对高维二值数据的隐私发布问题,提出了一种高效且低噪的发布方法PrivSCBN(differentially private spectral clustering Bayesian network).首先,该方法基于Jaccard距离,使用满足差分隐私的谱聚类算法来划分属性集,然后根据划分的结果来进一步分割原始数据集,从而实现数据的降维.其次,该方法基于动态规划思想并结合指数机制,使用满足差分隐私的贝叶斯网络快速构建算法来为每个分割后的子集构建贝叶斯网络.最后,该方法利用条件概率在二值数据上的取值特点,对从贝叶斯网络中提取的条件分布进行加噪,并通过控制贝叶斯网络的最大入度数来减少其产生的噪声大小.通过在3个真实高维二值数据集上的实验,验证了PrivSCBN方法的高效性与可用性.
软件技术
一种Linux安全漏洞修复补丁自动识别方法
周鹏,武延军,赵琛
2022, 59(1):  197-208.  doi:10.7544/issn1000-1239.20200492
摘要 ( 380 )   HTML ( 12)   PDF (918KB) ( 198 )  
相关文章 | 计量指标
及时获取并应用安全漏洞修复补丁对保障服务器用户的安全至关重要.但是,学者和机构研究发现开源软件维护者经常悄无声息地修复安全漏洞,比如维护者88%的情况在发布软件新版本时才在发行说明中告知用户修复了安全漏洞,并且只有9%的漏洞修复补丁明确给出对应的CVE(common vulnerabilities and exposures)标号,只有3%的修复会及时主动通知安全监控服务提供者.这导致在很多情况下,安全工程师不能通过补丁的代码和描述信息直接区分漏洞修复、Bug修复、功能性补丁.造成漏洞修复补丁不能被用户及时识别和应用,同时用户从大量的补丁提交中识别漏洞修复补丁代价很高.以代表性Linux内核为例,给出一种自动识别漏洞修复补丁的方法,该方法为补丁的代码和描述部分分别定义特征,构建机器学习模型,训练学习可区分安全漏洞补丁的分类器.实验表明,该方法可以取得91.3%的精确率、92%的准确率、87.53%的召回率,并将误报率降低到5.2%,性能提升明显.
基于社团检测算法的固件二进制比对技术
肖睿卿,费金龙,祝跃飞,蔡瑞杰,刘胜利
2022, 59(1):  209-235.  doi:10.7544/issn1000-1239.20200778
摘要 ( 198 )   HTML ( 4)   PDF (11153KB) ( 149 )  
相关文章 | 计量指标
固件比对是二进制比对技术的重要分支.然而,既往研究关注于函数的表示方法的优化却忽略了对过滤器的设计优化,导致固件常因包含同构函数引发误匹配,以致现有二进制比对技术应用于固件比对时效果不够理想.为此,提出基于社团检测算法的固件比对技术,首次将复杂网络相关理论应用于二进制比对领域.通过社团检测算法将固件内的函数划分为若干社团,利用社团匹配实现过滤器的功能,再根据匹配社团寻找匹配函数;此外,优化了函数相似度计算方法,设计了操作数相似性计算方法.在实现原型系统后,使用1382个固件构建2个数据集进行实验,验证了可行性,分析了基于社团检测算法的固件比对方法的性能,确定了各参数的合理取值,设计了评估指标可信匹配率,并比较了该方法与Bindiff的比对效果.实验表明:该方法可以提升Bindiff比对结果5%~11%的正确率.
基于Petri网可达分析的代码搜索方法
丁雪儿,钮俊,张开乐,毛昕怡
2022, 59(1):  236-250.  doi:10.7544/issn1000-1239.20200586
摘要 ( 207 )   HTML ( 4)   PDF (2381KB) ( 213 )  
相关文章 | 计量指标
复用已有高质量源代码可提高软件开发效率及软件质量.当前,基于用户提供的输入输出对的匹配判断是代码语义搜索的主要方法之一,但该方法难以刻画完整代码行为,且仅能处理单输入类型.提出一种针对多种形式类型匹配的代码语义搜索方法.首先将代码集内各个代码片段中数据对象个数及类型的加工过程转换为Petri网模型;其次根据用户查询中蕴含的数据类型及个数、输出数据类型等约束来构造Petri网初始标识和目标标识;然后在Petri网中通过可达图及诱发网分析判断是否存在相应的可达路径,从而获得代码匹配依据.分析及实验表明,该方法能有效实现多种形式的输入输出类型匹配的代码搜索,且相对于传统类型匹配方法,能明显提高搜索准确度和效率.