2022年 第59卷 第6期
2022, 59(6): 1181-1191.
DOI: 10.7544/issn1000-1239.20200985
摘要:
图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication, GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络.
图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication, GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络.
2022, 59(6): 1192-1201.
DOI: 10.7544/issn1000-1239.20200989
摘要:
同时可记录的处理器硬件事件数量受限于处理器硬件性能计算器的数量.目前主流处理器可支持大量(数百个)硬件事件,但由于片上寄存器数量有限,仅提供了少量(通常6~12个)硬件性能计数器.为缓解这一矛盾,硬件计数器复用技术(multiplexing,MPX)通过分时复用策略,利用少量计算寄存器来估算大量硬件事件.但在实践中,由于已有基于时间局部性的MPX估计算法结果准确率偏低,导致MPX一直未被广泛采用.为了提升MPX结果准确率,主要工作包括3部分:1)通过Kolmogorov-Smirnov正态性检验,发现针对同一硬件事件,相同代码在单计数器记录单事件(one counter one event, OCOE)的OCOE模式和MPX模式下,存在数据分布一致性的规律;2)基于此规律,提出了轮廓线估计法(outline estimation, OLE);3)在开源MPX库NeoMPX上实现了OLE算法,并在主 流X86和ARM处理器上进行了验证.实验结果表明:在对16个硬件事件同时进行采集时,OLE算法相比PAPI默认的MPX估计算法,结果准确率平均提高了10.5%左右,最多可提升46.6%;相比已有算法,结果准确率分别提升了18.8% 和17.7%.
同时可记录的处理器硬件事件数量受限于处理器硬件性能计算器的数量.目前主流处理器可支持大量(数百个)硬件事件,但由于片上寄存器数量有限,仅提供了少量(通常6~12个)硬件性能计数器.为缓解这一矛盾,硬件计数器复用技术(multiplexing,MPX)通过分时复用策略,利用少量计算寄存器来估算大量硬件事件.但在实践中,由于已有基于时间局部性的MPX估计算法结果准确率偏低,导致MPX一直未被广泛采用.为了提升MPX结果准确率,主要工作包括3部分:1)通过Kolmogorov-Smirnov正态性检验,发现针对同一硬件事件,相同代码在单计数器记录单事件(one counter one event, OCOE)的OCOE模式和MPX模式下,存在数据分布一致性的规律;2)基于此规律,提出了轮廓线估计法(outline estimation, OLE);3)在开源MPX库NeoMPX上实现了OLE算法,并在主 流X86和ARM处理器上进行了验证.实验结果表明:在对16个硬件事件同时进行采集时,OLE算法相比PAPI默认的MPX估计算法,结果准确率平均提高了10.5%左右,最多可提升46.6%;相比已有算法,结果准确率分别提升了18.8% 和17.7%.
2022, 59(6): 1202-1212.
DOI: 10.7544/issn1000-1239.20210202
摘要:
混合关键系统是将不同关键层次的应用或组件集成到同一个共享平台.由于受尺寸、重量与体积的限制,能耗对于混合关键系统而言尤其重要.能耗感知调度算法是解决混合关键系统能耗问题的关键,现有的能耗感知算法主要基于动态优先级策略且空闲时间利用率低.针对固定优先级混合关键系统偶发任务能耗感知问题,提出节能效果更好的固定优先级混合关键调度(fixed priority mixed criticality schedule, FPMCS)算法.首先,提出关键层次单调速率策略(criticality rate monotonic scheme, CRMS)调度混合关键偶发任务,分析该策略的调度可行性,且计算出能耗感知速度.其次,利用高关键层次任务预留的空闲时间,通过事件触发的方法动态更新混合关键偶发任务集的利用率来回收偶发任务到达时间不确定产生的空闲时间.再次,利用混合关键偶发任务集的利用率决定任务的执行速度以达到降低能耗的目的.最后,通过理论分析和实验验证FPMCS算法是可行的;仿真实验表明:所提出的FPMCS算法比现有的方法可以节约大约33.21%的能耗.
混合关键系统是将不同关键层次的应用或组件集成到同一个共享平台.由于受尺寸、重量与体积的限制,能耗对于混合关键系统而言尤其重要.能耗感知调度算法是解决混合关键系统能耗问题的关键,现有的能耗感知算法主要基于动态优先级策略且空闲时间利用率低.针对固定优先级混合关键系统偶发任务能耗感知问题,提出节能效果更好的固定优先级混合关键调度(fixed priority mixed criticality schedule, FPMCS)算法.首先,提出关键层次单调速率策略(criticality rate monotonic scheme, CRMS)调度混合关键偶发任务,分析该策略的调度可行性,且计算出能耗感知速度.其次,利用高关键层次任务预留的空闲时间,通过事件触发的方法动态更新混合关键偶发任务集的利用率来回收偶发任务到达时间不确定产生的空闲时间.再次,利用混合关键偶发任务集的利用率决定任务的执行速度以达到降低能耗的目的.最后,通过理论分析和实验验证FPMCS算法是可行的;仿真实验表明:所提出的FPMCS算法比现有的方法可以节约大约33.21%的能耗.
2022, 59(6): 1213-1239.
DOI: 10.7544/issn1000-1239.20201058
摘要:
近年来,随着信息技术的不断发展,各种数据呈现爆炸式的增长,传统的机器学习算法只有当测试数据与训练数据分布类似时,学习算法才能取得较好的性能,换句话说,它们不能在动态环境中连续自适应地学习,然而,这种自适应学习的能力却是任何智能系统都具备的特性.深度神经网络在许多应用中显示出最好的学习能力,然而,使用该方法对数据进行增量更新学习时,会面临灾难性的干扰或遗忘问题,导致模型在学习新任务之后忘记如何解决旧任务.连续学习(continual learning, CL)的研究使这一问题得到缓解.连续学习是模拟大脑学习的过程,按照一定的顺序对连续非独立同分布的(independently and identically distributed, IID)流数据进行学习,进而根据任务的执行结果对模型进行增量式更新.连续学习的意义在于高效地转化和利用已经学过的知识来完成新任务的学习,并且能够极大程度地降低遗忘带来的问题.连续学习研究对智能计算系统自适应地适应环境改变具有重要的意义.基于此,系统综述了连续学习的研究进展,首先概述了连续学习的定义,介绍了无遗忘学习、弹性权重整合和梯度情景记忆3种典型的连续学习模型,并对连续学习存在的关键问题及解决方法进行了介绍,之后又对基于正则化、动态结构和记忆回放互补学习系统的3类连续学习模型进行了分类和阐述,并在最后指明了连续学习进一步研究中需要解决的问题以及未来可能的发展方向.
近年来,随着信息技术的不断发展,各种数据呈现爆炸式的增长,传统的机器学习算法只有当测试数据与训练数据分布类似时,学习算法才能取得较好的性能,换句话说,它们不能在动态环境中连续自适应地学习,然而,这种自适应学习的能力却是任何智能系统都具备的特性.深度神经网络在许多应用中显示出最好的学习能力,然而,使用该方法对数据进行增量更新学习时,会面临灾难性的干扰或遗忘问题,导致模型在学习新任务之后忘记如何解决旧任务.连续学习(continual learning, CL)的研究使这一问题得到缓解.连续学习是模拟大脑学习的过程,按照一定的顺序对连续非独立同分布的(independently and identically distributed, IID)流数据进行学习,进而根据任务的执行结果对模型进行增量式更新.连续学习的意义在于高效地转化和利用已经学过的知识来完成新任务的学习,并且能够极大程度地降低遗忘带来的问题.连续学习研究对智能计算系统自适应地适应环境改变具有重要的意义.基于此,系统综述了连续学习的研究进展,首先概述了连续学习的定义,介绍了无遗忘学习、弹性权重整合和梯度情景记忆3种典型的连续学习模型,并对连续学习存在的关键问题及解决方法进行了介绍,之后又对基于正则化、动态结构和记忆回放互补学习系统的3类连续学习模型进行了分类和阐述,并在最后指明了连续学习进一步研究中需要解决的问题以及未来可能的发展方向.
2022, 59(6): 1240-1254.
DOI: 10.7544/issn1000-1239.20201081
摘要:
联邦学习(federated learning, FL)是一种可用于解决数据孤岛问题的分布式机器学习框架,多个参与方在保持数据本地私有的情况下协作训练一个共同模型.但是,传统的联邦学习没有考虑公平性的问题,在实际场景中,参与者之间的数据具有高度异构和数据量差距较大的特点,常规的聚合操作会不经意地偏向一些设备,使得最终聚合模型在不同参与者数据上的准确率表现出较大差距.针对这一问题,提出了一种有效的公平算法,称为α-FedAvg.它可以使聚合模型更公平,即其在所有参与者本地数据上的准确率分布更均衡.同时,给出了确定参数α的方法,能够在尽可能保证聚合模型性能的情况下提升其公平性.最后,在MNIST和CIFAR-10数据集上进行了实验和性能分析,并在多个数据集上与其他3种公平方案进行了对比.实验结果表明:相较于已有算法,所提方案在公平性和有效性上达到了更好的平衡.
联邦学习(federated learning, FL)是一种可用于解决数据孤岛问题的分布式机器学习框架,多个参与方在保持数据本地私有的情况下协作训练一个共同模型.但是,传统的联邦学习没有考虑公平性的问题,在实际场景中,参与者之间的数据具有高度异构和数据量差距较大的特点,常规的聚合操作会不经意地偏向一些设备,使得最终聚合模型在不同参与者数据上的准确率表现出较大差距.针对这一问题,提出了一种有效的公平算法,称为α-FedAvg.它可以使聚合模型更公平,即其在所有参与者本地数据上的准确率分布更均衡.同时,给出了确定参数α的方法,能够在尽可能保证聚合模型性能的情况下提升其公平性.最后,在MNIST和CIFAR-10数据集上进行了实验和性能分析,并在多个数据集上与其他3种公平方案进行了对比.实验结果表明:相较于已有算法,所提方案在公平性和有效性上达到了更好的平衡.
2022, 59(6): 1255-1270.
DOI: 10.7544/issn1000-1239.20210039
摘要:
在实际应用场景中,情感分析技术为自动判别文本情感极性提供了有效的决策及解决方案,但是文本情感分析技术依赖于大量的标定样本.为了减小对人工标注的依赖,有研究者提出了基于领域自适应的跨领域情感分析技术.该技术面向跨领域文本情感分析任务,将经由标定样本训练的源领域模型,迁移至无标定的目标领域.然而目前的领域自适应技术仅从单个角度进行迁移,即减小领域专有特征差异或提取领域不变特征.因此考虑到跨领域文本数据同时包含领域专有特征和领域不变特征的特点,提出了一种领域对齐对抗的无监督跨领域文本情感分析算法.该算法通过渐进式的迁移策略,逐层减小不同语义层的领域差异,并在高层语义子空间通过协同优化的领域自适应算法,实现跨领域文本数据的领域知识迁移.在2个公开跨领域文本情感数据集上的24组跨领域文本情感分类实验结果表明,与4类领域自适应算法中代表性的和当前表现最优的方法相比,领域对齐对抗的无监督跨领域文本情感分析算法在24组实验中取得了最高的平均分类准确率,同时结合迁移性能分析结果和特征分布可视化结果,证明该算法一定程度上提升了现有无监督跨领域文本情感分析算法的分类性能和迁移性能.
在实际应用场景中,情感分析技术为自动判别文本情感极性提供了有效的决策及解决方案,但是文本情感分析技术依赖于大量的标定样本.为了减小对人工标注的依赖,有研究者提出了基于领域自适应的跨领域情感分析技术.该技术面向跨领域文本情感分析任务,将经由标定样本训练的源领域模型,迁移至无标定的目标领域.然而目前的领域自适应技术仅从单个角度进行迁移,即减小领域专有特征差异或提取领域不变特征.因此考虑到跨领域文本数据同时包含领域专有特征和领域不变特征的特点,提出了一种领域对齐对抗的无监督跨领域文本情感分析算法.该算法通过渐进式的迁移策略,逐层减小不同语义层的领域差异,并在高层语义子空间通过协同优化的领域自适应算法,实现跨领域文本数据的领域知识迁移.在2个公开跨领域文本情感数据集上的24组跨领域文本情感分类实验结果表明,与4类领域自适应算法中代表性的和当前表现最优的方法相比,领域对齐对抗的无监督跨领域文本情感分析算法在24组实验中取得了最高的平均分类准确率,同时结合迁移性能分析结果和特征分布可视化结果,证明该算法一定程度上提升了现有无监督跨领域文本情感分析算法的分类性能和迁移性能.
2022, 59(6): 1271-1285.
DOI: 10.7544/issn1000-1239.20201035
摘要:
研究基于参考图像的花卉线稿图的工笔效果上色问题.现有的基于参考图像的线稿图上色算法对工笔花卉画特有的色彩渐变的特点难以学习和模拟;此外通常还要求参考图像与线稿图具有相似的几何布局结构,这也限制了算法的适用性,故而直接采用现有算法难以实现线稿图的工笔效果上色.基于条件生成对抗网(conditional generative adversarial network, CGAN)框架,提出了一种将参考图像与线稿图进行语义匹配的花卉线稿图工笔效果上色算法RBSM-CGAN.该算法在网络结构设计方面,以U型网络(简称U-Net)为生成器基础,设计了2个附加子模块:1)语义定位子模块.该模块预训练了一个语义分割网络,以生成花卉线稿图的语义标签图,该标签图编码后作为自适应实例归一化的仿射参数引入到上色模型中,提升对不同语义区域的识别能力,进而提高颜色定位的准确性.2)颜色编码子模块.该模块提取参考图像的颜色特征,而后将该特征拼接到生成网络解码层的前3层,利用这种方式将颜色信息注入上色模型,与语义定位模块相配合加强算法对渐变色的学习和模拟.另外,算法在网络训练方面改变传统的“工笔花卉原作-花卉线稿图”数据对的训练方式,通过打乱原作的几何结构等摄动操作生成原作摄动图,采用“原作摄动图-花卉线稿图”数据对进行网络训练,降低了模型对原作空间几何结构的依赖性,提升了算法的适用性.实验结果表明:该算法对用户选择的参考图像的颜色语义具有正确的响应,所引入的“语义定位+颜色编码”的结构设计提升了对渐变色的模拟效果,实现了在不同参考图像指导下的花卉线稿图的工笔效果上色,可快速生成多样化的上色结果.
研究基于参考图像的花卉线稿图的工笔效果上色问题.现有的基于参考图像的线稿图上色算法对工笔花卉画特有的色彩渐变的特点难以学习和模拟;此外通常还要求参考图像与线稿图具有相似的几何布局结构,这也限制了算法的适用性,故而直接采用现有算法难以实现线稿图的工笔效果上色.基于条件生成对抗网(conditional generative adversarial network, CGAN)框架,提出了一种将参考图像与线稿图进行语义匹配的花卉线稿图工笔效果上色算法RBSM-CGAN.该算法在网络结构设计方面,以U型网络(简称U-Net)为生成器基础,设计了2个附加子模块:1)语义定位子模块.该模块预训练了一个语义分割网络,以生成花卉线稿图的语义标签图,该标签图编码后作为自适应实例归一化的仿射参数引入到上色模型中,提升对不同语义区域的识别能力,进而提高颜色定位的准确性.2)颜色编码子模块.该模块提取参考图像的颜色特征,而后将该特征拼接到生成网络解码层的前3层,利用这种方式将颜色信息注入上色模型,与语义定位模块相配合加强算法对渐变色的学习和模拟.另外,算法在网络训练方面改变传统的“工笔花卉原作-花卉线稿图”数据对的训练方式,通过打乱原作的几何结构等摄动操作生成原作摄动图,采用“原作摄动图-花卉线稿图”数据对进行网络训练,降低了模型对原作空间几何结构的依赖性,提升了算法的适用性.实验结果表明:该算法对用户选择的参考图像的颜色语义具有正确的响应,所引入的“语义定位+颜色编码”的结构设计提升了对渐变色的模拟效果,实现了在不同参考图像指导下的花卉线稿图的工笔效果上色,可快速生成多样化的上色结果.
2022, 59(6): 1286-1296.
DOI: 10.7544/issn1000-1239.20200856
摘要:
时序图是顶点之间的连通性随时间变化的图,大规模时序图的紧凑表示和高效操作是分析和处理时序图数据的基础.提出了一种基于决策图的时序图数据紧凑表示方法——kd-MDD.kd-MDD是对kd-tree的改进,该方法对时序图的邻接矩阵进行kd划分,通过引入多值决策图来合并相同子矩阵,即kd-tree图数据表示中存在的同构子树,存储结构更加紧凑.在kd-MDD紧凑表示基础上,提供了基于kd-MDD的时序图的基本操作(如顶点正向/反向邻居的检索、边是否处于活动状态的检查、边的添加和删除等).在真实的时序图数据集上(Flickr-growth,YouTube-growth,Wikipedia等)的实验结果表明,kd-MDD表示中的节点数仅为kd-tree表示中节点数的1.58%~4.65%,与ckd-tree和bckd-tree相比,其节点数为ckd-tree中节点数的11.13%~20.39%,为bckd-tree(bucket ckd-tree)中节点数的23.17%~41.95%.实验结果验证了kd-MDD表示时序图的优越性.
时序图是顶点之间的连通性随时间变化的图,大规模时序图的紧凑表示和高效操作是分析和处理时序图数据的基础.提出了一种基于决策图的时序图数据紧凑表示方法——kd-MDD.kd-MDD是对kd-tree的改进,该方法对时序图的邻接矩阵进行kd划分,通过引入多值决策图来合并相同子矩阵,即kd-tree图数据表示中存在的同构子树,存储结构更加紧凑.在kd-MDD紧凑表示基础上,提供了基于kd-MDD的时序图的基本操作(如顶点正向/反向邻居的检索、边是否处于活动状态的检查、边的添加和删除等).在真实的时序图数据集上(Flickr-growth,YouTube-growth,Wikipedia等)的实验结果表明,kd-MDD表示中的节点数仅为kd-tree表示中节点数的1.58%~4.65%,与ckd-tree和bckd-tree相比,其节点数为ckd-tree中节点数的11.13%~20.39%,为bckd-tree(bucket ckd-tree)中节点数的23.17%~41.95%.实验结果验证了kd-MDD表示时序图的优越性.
2022, 59(6): 1297-1314.
DOI: 10.7544/issn1000-1239.20201016
摘要:
为了探索出更好解决机器人路径规划问题的方法,提出一种差异演化的寄生樽海鞘群算法.首先在领导者位置更新公式中加入对应的上一代领导者位置信息,加强全局搜索的充分性,同时引入自适应惯性权重,更好平衡领导者在不同进化阶段对于广度和深度搜索的不同需求,提高寻优精度.然后在算法结构中引入具有不同演化策略和寄生行为机制的寄生-宿主双种群及宿主群劣汰思想,增加种群的多样性,提高算法跳出局部极值的能力.理论分析证明了改进算法的时间复杂度与基本算法相同,6种对比算法在10个不同特征的标准测试函数上进行仿真对比测试,实验结果表明:该算法的寻优精度、收敛性能均有显著提高和改善.最后将改进算法与三次埃尔米特插值相结合,以路径上的节点组合为基础定义算法中个体位置的编码方式,以绕开障碍、最短路径为目标构造了适应度函数和约束条件,求解机器人路径规划问题.在不同复杂程度的障碍物场景和不同插值方法下进行的算例求解结果显示,该算法寻优结果的最佳值、平均值和方差整体上明显优于其他5种性能优越的代表性对比算法,也验证了融合埃尔米特插值方法对于求解机器人路径规划问题的优越性和有效性.
为了探索出更好解决机器人路径规划问题的方法,提出一种差异演化的寄生樽海鞘群算法.首先在领导者位置更新公式中加入对应的上一代领导者位置信息,加强全局搜索的充分性,同时引入自适应惯性权重,更好平衡领导者在不同进化阶段对于广度和深度搜索的不同需求,提高寻优精度.然后在算法结构中引入具有不同演化策略和寄生行为机制的寄生-宿主双种群及宿主群劣汰思想,增加种群的多样性,提高算法跳出局部极值的能力.理论分析证明了改进算法的时间复杂度与基本算法相同,6种对比算法在10个不同特征的标准测试函数上进行仿真对比测试,实验结果表明:该算法的寻优精度、收敛性能均有显著提高和改善.最后将改进算法与三次埃尔米特插值相结合,以路径上的节点组合为基础定义算法中个体位置的编码方式,以绕开障碍、最短路径为目标构造了适应度函数和约束条件,求解机器人路径规划问题.在不同复杂程度的障碍物场景和不同插值方法下进行的算例求解结果显示,该算法寻优结果的最佳值、平均值和方差整体上明显优于其他5种性能优越的代表性对比算法,也验证了融合埃尔米特插值方法对于求解机器人路径规划问题的优越性和有效性.
2022, 59(6): 1315-1328.
DOI: 10.7544/issn1000-1239.20200777
摘要:
对抗样本是当前深度学习神经网络研究的热点问题.目前,对抗样本技术的研究主要分为2方面:生成攻击、检测防御.在总结对抗样本生成攻击技术的基础上,面向图像数据的对抗样本检测与防御技术综述从对抗样本的检测与防御的角度对面向图像数据的对抗样本防御技术进行了总结.综述从特征学习、分布统计、输入解离、对抗训练、知识迁移及降噪6个方面将检测与防御技术进行归类,介绍检测与防御技术的演进,分析其特点、性能,对比不同技术的优缺点,给出了检测效果和防御效果的综合评价.最后对当前该领域的研究情况进行了总结与展望.
对抗样本是当前深度学习神经网络研究的热点问题.目前,对抗样本技术的研究主要分为2方面:生成攻击、检测防御.在总结对抗样本生成攻击技术的基础上,面向图像数据的对抗样本检测与防御技术综述从对抗样本的检测与防御的角度对面向图像数据的对抗样本防御技术进行了总结.综述从特征学习、分布统计、输入解离、对抗训练、知识迁移及降噪6个方面将检测与防御技术进行归类,介绍检测与防御技术的演进,分析其特点、性能,对比不同技术的优缺点,给出了检测效果和防御效果的综合评价.最后对当前该领域的研究情况进行了总结与展望.
2022, 59(6): 1329-1342.
DOI: 10.7544/issn1000-1239.20201014
摘要:
针对木马流量检测技术存在人工提取特征不够准确、大量标记样本获取困难、无标记样本没有充分利用、模型对于未知样本识别率较低等问题,提出基于半监督深度学习的木马流量检测方法,利用大量未标记网络流量用于模型训练.首先,采用基于mean teacher模型的检测方法提高检测准确率;然后,为解决mean teacher模型中采用随机噪声导致模型泛化能力不足的问题,提出基于虚拟对抗mean teacher模型的检测方法;最后,通过实验验证所提半监督深度学习检测方法在少标记样本下的二分类、多分类以及未知样本检测任务中具有更高的准确率.此外,基于虚拟对抗mean teacher模型的检测方法在多分类任务中比原始mean teacher模型表现出更强的泛化性能.
针对木马流量检测技术存在人工提取特征不够准确、大量标记样本获取困难、无标记样本没有充分利用、模型对于未知样本识别率较低等问题,提出基于半监督深度学习的木马流量检测方法,利用大量未标记网络流量用于模型训练.首先,采用基于mean teacher模型的检测方法提高检测准确率;然后,为解决mean teacher模型中采用随机噪声导致模型泛化能力不足的问题,提出基于虚拟对抗mean teacher模型的检测方法;最后,通过实验验证所提半监督深度学习检测方法在少标记样本下的二分类、多分类以及未知样本检测任务中具有更高的准确率.此外,基于虚拟对抗mean teacher模型的检测方法在多分类任务中比原始mean teacher模型表现出更强的泛化性能.
2022, 59(6): 1343-1355.
DOI: 10.7544/issn1000-1239.20210023
摘要:
随着云存储模式的出现,越来越多的数据拥有者(data owner, DO)选择将数据移植到云中,为了确保DO存储在云中数据的完整性,DO通常采用云存储数据完整性验证模型.在按需付费的云环境下,DO除了需要支付费用给云服务提供商外,还需要支付额外费用给第三方验证者(third party auditor, TPA)用于执行验证操作.然而,在实际的完整性验证中,TPA并不完全可信.为解决TPA不可信问题并且实现服务-支付公平,提出一种支持隐私保护和公平支付的数据完整性验证方案.首先,引入一种新型数据认证结构——基于等级的Merkle散列树,以实现数据位置的完整性验证和数据的可验证动态更新;其次,为实现数据隐私保护并减少通信开销,提出无交互式动态数据完整性证明机制(non-interactive dynamic provable data possession, NIDPDP);最后,结合区块链技术,利用智能合约(smart contract, SC)实现DO、云存储服务器(cloud storage server, CSS)和TPA之间的服务-支付公平,使各方诚实地按照规则执行.性能分析与实验表明:方案能够有效地保护用户数据隐私、实现公平支付,具有较低的计算代价与通信开销.
随着云存储模式的出现,越来越多的数据拥有者(data owner, DO)选择将数据移植到云中,为了确保DO存储在云中数据的完整性,DO通常采用云存储数据完整性验证模型.在按需付费的云环境下,DO除了需要支付费用给云服务提供商外,还需要支付额外费用给第三方验证者(third party auditor, TPA)用于执行验证操作.然而,在实际的完整性验证中,TPA并不完全可信.为解决TPA不可信问题并且实现服务-支付公平,提出一种支持隐私保护和公平支付的数据完整性验证方案.首先,引入一种新型数据认证结构——基于等级的Merkle散列树,以实现数据位置的完整性验证和数据的可验证动态更新;其次,为实现数据隐私保护并减少通信开销,提出无交互式动态数据完整性证明机制(non-interactive dynamic provable data possession, NIDPDP);最后,结合区块链技术,利用智能合约(smart contract, SC)实现DO、云存储服务器(cloud storage server, CSS)和TPA之间的服务-支付公平,使各方诚实地按照规则执行.性能分析与实验表明:方案能够有效地保护用户数据隐私、实现公平支付,具有较低的计算代价与通信开销.
2022, 59(6): 1356-1369.
DOI: 10.7544/issn1000-1239.20200995
摘要:
提出了一种新的基于Shamir秘密共享方案的文件图像篡改检测和修复方法,该方法包含篡改保护生成和篡改检测修复2个过程.在篡改保护生成过程中,为了提高已有文件图像篡改检测和修复方法的篡改检测正确率和修复效果,首先提出了基于权重的篡改检测信号生成方法,对每个非重叠2×3图像块提取图像块特征,再利用Shamir秘密共享方案将块特征和块内容序列值生成用于块篡改检测和修复的共享信息,最后将块共享信息构成的α通道与原始图像组成可移植网络图形格式(portable network graphic format, PNG)的文件图像.在篡改检测过程中,α通道提取的共享信号可以判断图像块是否被篡改,并可以通过Shamir秘密共享方案反向操作修复篡改图像块的内容.实验表明所提方法不仅具有良好的篡改检测和修复效果,同时具有良好的鲁棒性,能抵抗图像裁剪、噪声攻击.
提出了一种新的基于Shamir秘密共享方案的文件图像篡改检测和修复方法,该方法包含篡改保护生成和篡改检测修复2个过程.在篡改保护生成过程中,为了提高已有文件图像篡改检测和修复方法的篡改检测正确率和修复效果,首先提出了基于权重的篡改检测信号生成方法,对每个非重叠2×3图像块提取图像块特征,再利用Shamir秘密共享方案将块特征和块内容序列值生成用于块篡改检测和修复的共享信息,最后将块共享信息构成的α通道与原始图像组成可移植网络图形格式(portable network graphic format, PNG)的文件图像.在篡改检测过程中,α通道提取的共享信号可以判断图像块是否被篡改,并可以通过Shamir秘密共享方案反向操作修复篡改图像块的内容.实验表明所提方法不仅具有良好的篡改检测和修复效果,同时具有良好的鲁棒性,能抵抗图像裁剪、噪声攻击.
2022, 59(6): 1370-1387.
DOI: 10.7544/issn1000-1239.20210105
摘要:
安卓移动应用兼容性故障是指应用程序在不同的环境或内部状态发生变化时,实际结果与预期结果不相符合而导致的一类软件缺陷.安卓平台的高度开源的特性,使得安卓平台下移动应用的兼容性故障频繁发生.这类软件故障在最严重的时候,甚至可以导致程序崩溃,程序崩溃一方面会影响到用户体验,另一方面因其突发性也会对用户带来难以估量的损失.因不同设备型号和安卓操作系统版本所组成的大量组合,使得开发人员无法对其应用程序进行充分的测试.在安卓生态系统碎片化异常严重的开发背景下,如何有效地应对兼容性问题成为当前软件质量保障领域的一个热门研究问题.从安卓移动应用兼容性故障的分析、检测、定位和修复3个方面出发,简要介绍了安卓移动应用兼容性故障的发展历程及该领域所面临的主要挑战,并回顾和总结了近些年来该综述主题的实践探索和理论成果.最后,对该领域的未来工作进行了展望,以期为兼容性测试研究人员提供有价值的参考.
安卓移动应用兼容性故障是指应用程序在不同的环境或内部状态发生变化时,实际结果与预期结果不相符合而导致的一类软件缺陷.安卓平台的高度开源的特性,使得安卓平台下移动应用的兼容性故障频繁发生.这类软件故障在最严重的时候,甚至可以导致程序崩溃,程序崩溃一方面会影响到用户体验,另一方面因其突发性也会对用户带来难以估量的损失.因不同设备型号和安卓操作系统版本所组成的大量组合,使得开发人员无法对其应用程序进行充分的测试.在安卓生态系统碎片化异常严重的开发背景下,如何有效地应对兼容性问题成为当前软件质量保障领域的一个热门研究问题.从安卓移动应用兼容性故障的分析、检测、定位和修复3个方面出发,简要介绍了安卓移动应用兼容性故障的发展历程及该领域所面临的主要挑战,并回顾和总结了近些年来该综述主题的实践探索和理论成果.最后,对该领域的未来工作进行了展望,以期为兼容性测试研究人员提供有价值的参考.
2022, 59(6): 1388-1408.
DOI: 10.7544/issn1000-1239.20201082
摘要:
Linux内核版本变更带来驱动程序调用内核接口的不一致性错误非常频繁,其通过手工修复不仅工作量繁重,还可能引入新的错误.针对这个问题,驱动移植中间库辅助适配和驱动移植辅助信息等方面的已有研究提供了辅助示例,但是还需要人工分析和手工构造补丁,人工修复的工作量依然较大并且效率较低.为此,通过推荐高质量补丁降低人工修复的工作量并提高修复效率.与传统方法通过错误代码形式的相似性识别同类错误不同,提出依据错误发生的相同原因和来源识别同类错误.提出了一种分层搜索算法用于获取待修复错误对应的错误根因,通过错误根因识别同类错误的修复实例,从其中提取并选择针对性修复模板实现同类未修复错误的高质量补丁推荐.在收集的19个真实驱动程序数据集上的实验表明,所提方法相比传统方法的补丁推荐正确率有显著提高.
Linux内核版本变更带来驱动程序调用内核接口的不一致性错误非常频繁,其通过手工修复不仅工作量繁重,还可能引入新的错误.针对这个问题,驱动移植中间库辅助适配和驱动移植辅助信息等方面的已有研究提供了辅助示例,但是还需要人工分析和手工构造补丁,人工修复的工作量依然较大并且效率较低.为此,通过推荐高质量补丁降低人工修复的工作量并提高修复效率.与传统方法通过错误代码形式的相似性识别同类错误不同,提出依据错误发生的相同原因和来源识别同类错误.提出了一种分层搜索算法用于获取待修复错误对应的错误根因,通过错误根因识别同类错误的修复实例,从其中提取并选择针对性修复模板实现同类未修复错误的高质量补丁推荐.在收集的19个真实驱动程序数据集上的实验表明,所提方法相比传统方法的补丁推荐正确率有显著提高.