预出版
磁约束核聚变粒子网格法(particle in cell,PIC)回旋动理学模拟代码VirtEx具备研究聚变产物Alpha粒子约束及输运的能力,是聚变能实现的关键. Alpha粒子回旋动理学模拟相比电子模拟,访存量更大、更复杂,同时包含非规则访问和原子写操作,对访存性能依赖较高,在面向高计算密度特征的天河新一代超算平台异构处理器MT-3000进行移植及性能优化时具有巨大挑战. 考虑到异构加速器架构和PIC算法特性,设计并实施了一些优化方法,如中间变量的即时计算、定制化的软件缓存设计、缓存空间局部性优化、热点函数合并,显著地提高了热点函数的计算访存比. 通过中等规模的回旋动理学离子基准算例测试显示了在热点函数
提出了一种基于滑动窗口策略的检索增强生成系统,旨在提升大语言模型(large language models,LLMs)输出的事实准确性和可靠性. 该系统通过在索引阶段应用滑动窗口机制,有效解决了传统固定大小上下文窗口和静态检索方法的局限性. 研究提出3种具体的滑动窗口策略以有效处理和分割文本,包括:固定窗口大小和固定步长分割(fixed window size and fixed step length split,FFS)、动态窗口大小和固定步长分割(dynamic window size and fixed step length split,DFS)以及动态窗口大小和动态步长分割(dynamic window size and dynamic step length split,DDS). 此外,研究还探讨了使用多查询技术进一步提高检索的准确性和相关性. 实验评估使用LLaMA-3模型在多个数据集上进行,结果表明系统在窗口大小为1 024和步长为3的配置下达到最佳性能,该配置显著提高了
随着深度学习的飞速发展,基于深度神经网络的信号调制识别任务成为无线通信领域热门研究. 研究发现,深度神经网络模型极易受到对抗性扰动的影响,使调制识别任务失效. 目前面向无线通信安全性的研究工作仍存在些许瓶颈问题与理论空白,源于无线通信固有的实验环境、数据结构与信号特征等多维度特性,不能将其他领域较为成熟的攻防方法简单迁移到信号对抗攻击中. 面向信号调制识别领域的对抗攻防,总结该领域对抗攻击与防御技术研究工作,提出信号调制识别领域的通用对抗攻击分类框架与威胁模型,将该领域研究工作分类为物理自我防御式攻击和数字直接访问式攻击,并以2维图形式进行系统化整合与可视化展示,详细阐述对抗攻击方法、对抗样本生成技术与理论公式、对抗检测与防御技术最新的研究工作,系统提炼无线通信对抗攻击研究的3个维度特性并归纳相应的处理方法,最后总结面向信号调制识别的攻防安全领域在未来的研究发展方向.
近年来,大语言模型(large language model,LLM)(以下简称“大模型”)的流行在众多领域带来了重大影响,特别是它们的开放式生态系统,如应用程序接口、开源模型和插件. 然而,尽管大模型已经广泛部署,对其潜在风险进行深入讨论与分析的研究仍然普遍缺乏. 在这种情况下,针对大模型系统的鲁棒性、一致性和可信性进行一项初步但具有开创性的研究. 由于大模型时代的许多文献都尚未被实证,提出了一个自动化的工作流,用以应对不断增长的查询和响应. 总体而言,对包括ChatGPT,LLaMA,OPT在内的主流大模型进行了100多万次查询. 工作流程的核心是一个数据原语,然后是一个自动解释器,它在不同的对抗性度量系统下评估这些大模型. 最终,从这一主流社区中得出了几个十分不同寻常的结论(一定程度上不太乐观). 简而言之,这些结论包括:1)用户生成的查询输入中的微小但不可避免的错误可能偶然地导致大模型的意外响应;2)大模型在处理语义相似的查询时具有较差的一致性. 此外,还附带发现ChatGPT即使在输入受到极端污染的情况下仍然能够产生正确的答案. 这一现象虽然表明了大模型的强大记忆力,但也引发了人们对在学术发展中使用大模型参与评估的严重关切. 为了解决这一问题,提出了一个与数据集相关联的新指标,该指标大致决定了基于这些数据对大模型进行评估的可行性. 最后进行了广泛的实证研究,以支持上述主张.
图划分是大图并行处理关键技术之一. 现有图划分算法存在划分质量和效率难以平衡的问题,主要体现在离线划分算法划分质量高但耗时长;在线(也称流式)划分算法相对高效但划分质量不理想. 为此,提出一种带缓冲区的分布式流式划分算法. 该算法采用多加载器-多划分器架构,多个加载器并行读取图数据,提高图数据加载效率;每个划分器维护一个缓冲区,缓存相应加载器发来的图顶点,并按顶点度数高低排序,为划分器提供更多决策依据. 划分器预置有4条流式启发式规则,围绕不同目标,对缓冲区中的顶点实施并行划分,并借助重流机制微调划分结果,改进划分质量. 分布式系统环境下的划分质量与性能实验表明:提出算法的划分质量(割边比)比当前最好的在线划分算法改善超过18.8个百分点,并将图数据加载时间在划分总时间的占比,从单划分器-单加载器架构流式划分算法的平均30.8%缩减至平均20.1%.
随着科学文献数量的快速增长和研究领域的不断深化,科研人员在提出创新性科学假设时面临巨大的信息处理挑战. 尽管大语言模型(large language models, LLMs)在数据处理和知识整合方面展现出巨大潜力,但它们在生成具有创新性和深度的科学假设方面仍存在许多不足. 目前的研究主要集中在如何利用LLMs加速已有理论和技术的推进和完善,而忽视了科学研究从无到有的初始阶段,这一阶段涉及新假设的提出和新理论的构建,是科学进步的关键. 基于结构智力理论中的发散思维和收敛思维,提出了一种创新的人机协作多智能体框架(human-in-the-loop multi-agent framework, HILMA),以实现可靠的初始科学假设生成. 该框架结合实时系统化的知识检索增强机制,通过动态整合最新科研进展,构建引文网络子图,为LLMs提供前沿和完备的科研知识综述. 同时,通过多智能体辩论方法模拟科学同行评审过程,并且结合人类专家的直觉和专业知识,进一步优化和精炼生成的假设,增强科学假设的多样性和论证深度. 一系列人机评估表明,与现有基线相比, HILMA在生成高质量科学假设方面展现出显著优势,有望成为推动科技创新的关键工具.
算力网络旨在将泛在算力与网络进行深度融合,以期通过网络将计算、存储等多维基础资源在云、边、端之间进行有效调配,让用户可以像使用水电资源一样透明地使用算力资源,按需索取,随取随用. 然而对于云边端异构的计算资源、动态的网络负载和多样化的用户需求,如何有效地进行资源的调度和路由成为了算力网络面临的核心挑战之一. 为解决上述挑战,设计了一套多层次的计算资源系统(computing resource system,CRS). 不同于现有的资源调配,CRS是一套建立在应用层之上并且兼顾考虑算网感知和算力路由的完整的算力网络技术方案. CRS由算网资源感知策略和算力资源路由协议组成. 算网资源感知策略定义了辖区系统内部的域内感知规则和不同辖区之间的域间感知规则,并基于此提出了一种基于贪心的资源路由算法(greedy-based resource routing algorithm,GBRA),为每个任务动态生成感知搜索树. 算力资源路由协议通过CRS请求报文、授权通告报文、通告确认报文和CRS响应报文来完成资源的申请与调配工作. 通过大量的数据仿真实验证明,与其他算法相比,CRS可以在任务容忍的最大响应时延内,完成对更多任务的资源分配工作. 此外,对于辖区系统内部计算节点之间可以实现较优的负载均衡.
随着云计算、量子计算等技术的飞速发展, 数据隐私面临严峻威胁. 越来越多的用户将数据和应用程序存储在云端,但传统的安全技术难以保障云计算环境中的数据安全. 在此背景下,引入全同态加密算法成为有效的解决方案之一. 同时,基于格理论的全同态加密技术具有天然的抗量子攻击能力,能够在加密状态下对数据进行任意计算,有效地为量子计算时代数据安全提供保障. 尽管全同态加密有广阔的应用前景, 但它存在计算和存储巨额开销的问题. 为了推动全同态加密算法的应用和落地, 算法和硬件领域的研究人员提出了多种解决方案并取得显著进展. 归纳了主流的全同态加密技术以及分析整理算法计算库和全同态硬件加速的近5年相关工作的进展, 最后展望了全同态加密技术.
在域名系统(domain name system, DNS)中,DNS递归解析服务消除了用户与根域名服务器等上游DNS服务器之间的复杂交互,使得互联网用户可以方便地通过本地DNS服务器完成全球范围的域名解析. 作为直接与用户通信的第一门户,DNS递归解析服务过程已成为互联网基础设施攻击的一个重要目标. 由于DNS递归解析服务规模庞大且部署方式繁多,现有的DNS安全拓展机制在DNS递归解析服务器中存在部署复杂、兼容性差等问题,但是目前还缺少对安全防护机制的部署测量方法的研究与总结工作,缺乏针对DNS递归解析服务安全风险的系统全面的评估工作. 针对上述现状,将DNS递归解析服务存在的安全风险分为五大类,对DNS递归解析服务安全威胁、DNS安全拓展机制和DNS递归解析服务安全风险评估与测量等方面的现状与最新研究成果进行了归纳与总结,并对DNS递归解析服务安全监测与治理的潜在研究方向进行了展望.
随着全球人口老龄化和生活方式的变化,慢性病(慢病)的管理和治疗变得日益重要. 慢病包括心血管疾病、糖尿病、慢性呼吸系统疾病等,它们通常需要长期甚至终身的健康管理,其核心在于制定和执行长期的健康计划,包括合理饮食、适量运动、定期检查和用药管理等. 近年来,大语言模型在医疗领域取得了一定的进展,但并未关注慢病健康管理领域,因此在个性化健康管理建议方面缺乏对中国特定饮食习惯和文化背景的深入理解,在处理数字信息方面的能力有限. 为解决这些问题,构建了基于大语言模型的重大慢病健康管理信息系统. 其中,通过整合慢病基础知识、健康管理指导原则以及实际的健康管理计划作为领域数据,训练蜻蜓大模型作为系统的核心,用于健康相关问题的有效回答. 此外,系统引入了工具增强策略,通过调用工具增强蜻蜓大模型对健康数据中数字信息的处理能力. 同时,系统采用了基于不确定性知识图谱的检索增强生成技术,进一步提升蜻蜓大模型在答复慢病管理相关问题时的精确性和可信度. 对基于大语言模型的重大慢病健康管理信息系统的测试实验显示,蜻蜓大模型在健康管理对话中的表现明显优于其他大语言模型,并验证了工具增强与检索增强方法的有效性.
多聚焦图像3维形貌重建旨在利用不同聚焦水平的图像序列恢复场景的3维结构信息. 现有的3维形貌重建方法大多从单一尺度对图像序列的聚焦水平进行评价,通过引入正则化或后处理方法引导重建过程,由于深度信息选择空间的局限性往往导致重建结果无法有效收敛. 针对上述问题,提出一种多尺度代价聚合的多聚焦图像3维形貌重建框架(multi-scale cost aggregation framework for 3D shape reconstruction from multi-focus images,MSCAS),该框架首先引入非降采样的多尺度变换增加输入图像序列的深度信息选择空间,然后联合尺度内序列关联与尺度间信息约束进行代价聚合,通过这种扩张-聚合模式实现了场景深度表征信息的倍增与跨尺度和跨序列表征信息的有效融合. 作为一种通用框架,MSCAS框架可实现已有模型设计类方法和深度学习类方法的嵌入进而实现性能提升. 实验结果表明:MSCAS框架在嵌入模型设计类SFF方法后4组数据集中的均方根误差(root mean squared error,
在多任务推理服务场景下使用基于预训练-微调范式的Transformer 模型存在很多困难:服务端必须维护每个下游任务的完整模型副本,从而造成很大的存储和显存开销. 最近逐渐兴起的参数高效 Transformer (PET) 算法在不同的下游任务之间共享预训练模型,仅微调一小部分任务特定的模型参数,从而减少存储的开销. 然而,现有的后端服务系统既没有灵活的 PET 任务管理机制,也不能有效地跨任务进行输入的批量处理. 针对不同的下游任务,现有框架在多卡分布式场景下也难以提供良好的负载均衡机制. 因此,提出了PetS,一个用于多任务 PET 推理服务的可扩展框架. 具体而言,不同的 PET 任务在算法上被抽象成一种统一表示形式. 基于这种统一表示,设计了一个专门的 PET 推理引擎,以批处理不同任务的输入,并使用任务无关的共享算子和任务特定的 PET 算子进行推理. 通过PET 推理引擎,PetS 在单个 GPU 设备上可以支持更多的任务数量. 为了进一步提高系统吞吐量,提出了一种协同批处理(CB)策略,同时考虑了输入的长度、PET 任务类型以及系统负载平衡. 为了提升多卡部署的负载均衡,创新性地提出了基于PET实时迁移的负载均衡机制. PetS在包括边缘端、桌面端和服务器端 GPU等多个平台上都经过了评估. 全面的实验证明,PetS 支持多达 26 倍的并发任务,并将服务吞吐量在桌面和服务器 GPU 节点上分别提高了 1.53 倍和 1.63 倍. 在多 GPU 场景下,该负载均衡策略可以将吞吐量进一步提升29%之多.
在群智感知系统中,用户通过提供感知数据完成感知任务. 然而,由于传感设备精度、用户行为以及环境条件等因素的影响,不同用户提供的数据质量存在显著差异. 真值发现技术能够有效地消除低质量数据影响,从而能够更好地利用感知数据,但现有的真值发现方法往往忽略用户个性化隐私要求,且基于加密的隐私保护技术难以应用于大量用户参与的群智感知系统. 基于此,提出一种个性化差分隐私真值发现(personalized differential privacy truth discovery,PDPTD)方法. PDPTD将本地差分隐私随机响应机制应用于隐私保护,使用户能够根据个人隐私需求自主调整感知数据的扰动幅度,平衡数据隐私与可用性. 服务器在聚合数据时充分考虑扰动影响,并通过加权机制提升数据质量. 与此同时,PDPTD依据数据质量动态分配用户权重,即使部分用户选择较高程度的扰动,系统仍能推断出接近真实值的结果,从而保证数据的可靠性. 理论分析与实验结果表明,PDPTD方案符合本地差分隐私原则,同时确保最终推断结果具有较高的精确度.
近年来,将深度神经网络(deep neural network,DNN)引入移动设备成为一种趋势. 智能手机、可穿戴设备和嵌入式设备上集成了许多便利生活的应用,如语音助手和活动识别. 然而,在资源受限(如算力、存储和电池)移动终端部署计算密集型深度模型具有挑战. 现有方法如手工设计的DNN压缩技术和自动化按需DNN压缩技术局限于优化模型结构,限制了DNN部署的性能优化上限,难以适应资源极度受限的终端设备. 此外,已有静态预设计的优化方法未考虑移动应用部署环境的资源争用和动态需求特性,在动态环境下无法及时调整策略,从而导致次优精度-效率表现. 为了解决这些挑战,提出了AdaInfer,一种在运行时可伸缩的DNN跨层优化方法. AdaInfer根据当前硬件资源限制及用户性能需求,自适应选择模型层、计算图层和内存层的最佳综合部署策略以优化多个性能指标,并随着场景变化及时调整最优策略. 具体而言,设计了一种模型无关的可伸缩图算结构和对应的跨层优化策略,能够在异构设备上自动调整以最大化部署效率. 随后,将算法-系统跨层优化策略的运行时调整问题建模为动态优化问题,并通过一组运行时变化的资源约束来建模动态环境. 还提出了一种高效搜索策略,以提高本地在线搜索效率和质量. 在3种典型移动和边缘设备、5种模型和4种持续变化移动场景的评估中,实验结果显示,AdaInfer与先前的工作相比,在不显著影响精度的前提下,将内存占用最多降低了42.35%,时延最多降低了73.89%.
序列推荐的核心在于从用户的交互序列中挖掘其偏好和行为模式. 现有研究已经认识到单一模态交互数据存在不足,因此借助大量多模态数据(如商品评价、主页图片等)来丰富交互信息,提升推荐系统的性能. 然而,这些多模态数据中常常夹杂着不可避免的噪声,可能会限制用户个性化偏好的探索. 尽管可以通过抑制模态间不一致的信息来减少噪声干扰,但要完全消除用户生成的多模态内容中的噪声几乎是不可能的. 针对上述挑战,提出了一种基于大语言模型的可信多模态推荐算法,旨在于含噪多模态数据场景下提供可信的推荐结果. 具体而言,该算法依托于大语言模型卓越的自然语言理解能力,高效过滤多模态数据中的噪声,实现对用户偏好更为精确和细致的建模. 此外,还设计了一种可信决策机制,用于动态评估推荐结果的不确定性,以确保在高风险场景下推荐结果的可用性. 在4个广泛使用的公开数据集上的实验结果显示,相较于其他基线算法,提出的算法有更好的性能表现. 代码可以在https://github.com/hhbray/Large-TR获取.
目标检测技术是计算机视觉领域的关键组成部分,它在各种实际应用中扮演着至关重要的角色. 目标检测技术经历了几十年的发展,从早期依赖于手工特征提取的方法,到当前深度学习模型的广泛应用. 目前在目标检测领域缺少以深度学习基础模型技术的改进为发展脉络的总结研究,在此背景下,以人工智能领域基础模型的发展过程为线索,围绕不同种类基础模型概述了基于这些模型的不同目标检测模型的发展,同时对这些基于不同基础模型的目标检测算法进行了比较,并分析不同模型的优缺点以及不同模型的改进策略. 同时概述了目标检测技术的评估指标以及不同阶段的技术进步,特别强调了深度学习如何推动目标检测性能的显著提升,讨论了目标检测在处理多样化场景、提高实时性和准确性方面的挑战,并对未来可能的研究方向进行了深度探讨,包括但不限于模型的泛化能力、计算效率以及与更复杂任务的结合,为多个未来研究方向提出了可能的提高策略. 旨在提供一个清晰的技术演进视角,以促进目标检测领域的进一步研究和应用.
机载系统在航空航天领域起着至关重要的作用,其突出的安全性使得软件需求的形式化验证成为一个非常重要的问题。但是随着机载系统需求复杂度和设备数量的增加,其形式化验证中出现了状态空间爆炸的问题。为了缓解该问题,提出了一种机载系统需求的建模与分时组合验证方法。这种方法通过利用时间维度,将复杂的验证系统分解为相互独立的组件,实现了对各组件的独立验证,进而综合出整个系统的验证结果。通过实际的案例研究,证明了本方法的可行性。并通过评估说明我们的方法不但可以验证一些传统单体验证不能验证的系统,缓解状态空间爆炸,而且可以避免不考虑分时所造成的误报。这一方法为机载系统的软件需求验证提供了一种新的技术途径,有助于提高验证的准确性和效率,确保机载系统的安全性。
针对多目标萤火虫算法在解决高维多目标优化问题时存在 Pareto 支配失效、寻优能力弱和收敛速度慢的问题,提出了参考点引导和多策略协同的高维多目标萤火虫算法(MaOFA-RR).该算法在目标空间中预设一组均匀分布的参考点,通过萤火虫与参考点之间的距离关系,划分出引导萤火虫和普通萤火虫,以取代 Pareto 支配,增大选择压力;使用 3 种进化策略对萤火虫进行位置更新,引导萤火虫对局部空间进行探索,普通萤火虫根据距离阈值分别向引导萤火虫学习或对全局空间进行探索,提升算法的寻优能力和收敛速度;最后,算法融合反向学习思想,扩大种群搜索范围,提高发掘更优解的可能.将 MaOFA-RR 与 8 种新近高维多目标进化算法进行比较,实验结果表明,MaOFA-RR 在处理高维多目标优化问题时具有高效的性能.
随着制程技术进入纳米时代,布线规模和约束的增加导致超大规模集成电路物理设计的布线问题愈发复杂.布线阶段包括全局布线和详细布线,其中高性能的全局布线方案能够有效地满足设计规范并大幅提高详细布线过程的效率.随着芯片中通过总线传输的信号增加,总线逐渐成为影响芯片性能的关键因素.若在全局布线过程中未考虑总线拓扑结构,将会导致总线传输信息时出现耦合现象,使得总线传输的信号产生较大的时序偏差.因此,为了优化2D全局布线中总线拓扑结构的一致性,提出了一种有效的基于多策略的总线拓扑感知全局布线算法.首先,设计了一种基于拥塞拓扑重构策略以对两端线网进行优化,从而有效提高布线空间利用率.其次,构建了一种拆线重布模型来实现对多信号位总线的拆线重布.然后,在拆线重布模型中提出了一种考虑总线拓扑结构的寻路算法,调整同一总线线网组的拓扑结构,提高了总线的拓扑结构一致性.最后,设计了一种自适应调整总线拓扑结构代价的迭代方式,进一步优化了总线拓扑结构的一致性.实验结果表明,所提算法能有效优化2D布线方案的总线拓扑结构一致性.
软件漏洞严重威胁了计算机系统和软件的安全稳定运行,因此针对其自动检测的相关研究一直受到广泛关注.与传统静态漏洞检测工具采用人类专家提供的预定义规则进行代码分析不同,基于图神经网络(GNN)的漏洞检测方法通过自动学习易受攻击的代码模式,在一些数据集上的检测效果已经超越传统方法.然而,目前基于GNN的漏洞检测方法中,由于未结合代码自身特点对GNN模型进行设计,导致在真实漏洞代码数据集上检测效果较差.本文提出一种可学习的层次化图表示的漏洞检测方法LHG-VD,特点是针对传统读出函数的局限提出一种可学习的读出函数,针对图池化过程中的代码局部结构信息保持问题设计了一种基于对比学习思想的跨粒度损失函数.在真实漏洞数据集的实验结果表明,LHG-VD的F1值为71.5%,与切片级检测方法DeepWukong相比提升4.9%,与函数级检测方法AMPLE相比,提升8.9%.
近年来,随着深度学习技术的迅速发展,为人脸去识别提供了全新的解决思路。相较于传统的图像处理技术,深度生成模型在人脸去识别领域展现出了显著的优势,包括生成图像质量高、模型鲁棒性强等特点。本文回顾并总结了近年来利用深度学习技术在人脸去识别问题上的理论探索和研究成果。文章首先概述了深度学习在人脸去识别中所采用的网络架构和基本原理,接着深入讨论了基于这些技术的去识别方法,包括面部交换、特征扰动等关键技术,并介绍了评估这些技术的标准实验指标。进一步地,文章总结了当前技术面临的主要挑战,如姿态与表情的稳定性、属性解耦以及视频应用的适应性等问题,并展望了未来研究中亟需攻克的难题。最后,本文强调了深度学习技术在人脸去识别领域的重要性,并指出了未来研究的方向。本文旨在为读者提供人脸去识别领域的深入见解,并激发未来研究的新思路和方向。
在线心理健康论坛已经成为心理健康服务的重要载体,从海量帖子中检测出有心理健康问题的帖子是心理干预的基础.充分利用求助者的社交关系有利于判断其心理健康状态,然而,现有模型大都依赖显式的社交关系,没有关注医患(支持者和求助者)之间基于患者经历、症状成因、自我认知以及心理支持专长所形成的心理支持关系.本文以自杀意念为检测对象,提出帖子-用户交互心理支持异质图(Post-User Psychological Support Heterogeneous Graph, PU-PSHG)来表示在线心理健康论坛中求助者和支持者发布的帖子语义和医患关系.基于PU-PSHG提出一种图增强的自杀意念检测模型(Graph-enhanced Suicide Ideation Detection, GSID).首先,基于心理支持关系定义用户对用户、用户对帖子的两种元路径语义,构建包含用户和帖子的PU-PSHG,并采用DeepWalk算法从PU-PSHG中学习医患关系或社群关系.然后,通过关系表征学习心理支持关系的表示,基于异质关系融合帖子语义和医患关系,最后根据帖子的表示进行自杀意念强度分类.在CLPsych2017共享任务上的实验结果表明,GSID模型与现有的方法相比具有更好的性能.在Non-green F1、All F1和All Acc指标上相比于C-GraphSAGE基准模型提高7.8%、4.8%和1.4%.消融实验发现,去除PU-PSHG中帖子与帖子的回复关系、用户对帖子的心理支持关系、用户对用户的心理支持关系,Non-green F1值分别下降3.04%,3.80%,6.17%.
现有人体骨架行为识别方法往往忽略运动学领域知识,造成模型内在人类可理解的逻辑决策解释性不足。基于此,提出一种融合领域知识与自适应时空片段Transformer的骨架行为识别方法,以提高骨架行为识别模型的性能和可解释性。首先,受短时运动领域知识启发,设计多时间分支结构用于学习和捕捉多时间尺度的短时子动作特征。其次,提出一种动态信息融合模块,学习不同时间分支的权重向量进而动态融合多时间分支、多尺度短时运动特征。最后,融合长时运动领域知识,提出多尺度时间卷积特征融合模块捕捉长时运动关联,用于学习不同子动作片段之间的关系并促进不同骨架关节点间的运动信息交互。在四个数据集上进行评估与实验,包括人体日常行为数据集NTU RGB+D、NTU RGB+D 120,体育行为数据集FineGym,以及工业场景行为数据集InHARD。结果表明本文方法的行为识别性能,优于包括基准Transformer方法在内的多个先进方法,可有效提升骨架序列短时运动特征学习和关节点之间信息交互的建模能力,并具有一定可解释性。
随着深度学习模型参数量的不断增加,训练成本也在不断上升。为了减少训练成本,使用云服务厂商提供的弹性实例训练模型成为了一个可行的解决方案。弹性实例的价格仅为正常实例的30%,可以有效降低训练成本。虽然弹性实例价格低廉,但随时都有被回收的风险,对模型训练系统的稳定性提出了新的挑战。为了解决弹性实例场景下的容错问题,现有的工作主要有两类解决方案,分别是基于存盘点和基于冗余性的容错。基于存盘点的方案开销较大,而基于冗余性的方案则对模型的并行策略有一定的限制,导致训练效率并非最优。本文提出AdaptDNN,一种自适应可伸缩的大模型分布式训练系统。在弹性实例训练场景,AdaptDNN利用弹性实例宽限期完成训练进度的备份,降低容错开销;并利用“瓶颈消除”思想调整模型并行策略,最大化利用集群可用资源,提升训练效率。实验结果表明,AdaptDNN既能实现低成本容错,又能保证模型训练效率,从而可以在弹性实例场景高效完成模型训练任务,降低模型训练成本。
拥塞控制是实现高性能数据中心网络的关键技术之一,影响吞吐量、延迟、丢包率等重要网络性能指标.过去二十年间,随着数据中心规模不断扩大,上层应用对网络性能的要求不断提高,基于无损底层网络的RDMA技术在数据中心的部署受到了业内广泛关注.然而,PFC机制在维护无损网络的同时会引入头阻塞等问题,导致网络性能下降甚至网络瘫痪.作为实现无损网络的关键辅助手段,如何设计实用的RDMA拥塞控制机制成为了热点问题.通过将拥塞控制过程划分为拥塞感知与拥塞调整两大类,本文全面综述了该领域的研究成果:首先从显式反馈与延迟两个角度详细阐述并总结了不同的拥塞感知代表算法;其次从速率和窗口两个维度对拥塞调整代表算法进行了详细介绍并对其优缺点进行了总结;再次本文补充了部分算法的优化工作以及基于强化学习方法的拥塞控制算法;最后进行全文总结并讨论了该领域存在的挑战.
自监督学习已逐渐成为解决传统图神经网络模型因为过度依赖标签而导致模型泛化性能差的一种新的学习范式,该方法利用数据的固有结构和属性来生成监督信息,而不依赖于标记数据.然而,大多数现有的自监督学习方法的前提假设是图具有同配性,不能较好地推广到异配性强的图,即连接的节点具有不同的类别和不同的特征.本文研究非同配图的自监督学习,不依赖图的同配性假设,设计了一种非对称自监督学习框架MIRROR,通过捕获节点一阶邻域信息和自适应选择高阶邻域信息来学习节点的自监督信息.根据预测邻域上下文信息和估计的高阶互信息进行联合优化.模型在多个同配图数据集和非同配图数据集上进行了大量实验,与最新的基线相比都取得了较优的效果,在多个下游任务上的优越性也表明了本文提出的框架具有较好的泛化性能.
为了抵抗量子计算的攻击,保护水下节点的隐私与数据安全,利用NTRU密码体制的困难性假设提出了一种基于水下物联网的多方密钥封装方案SeaNTRU.首先,结合海洋传感器声波序列和水声声波因子生成设备序列号的伪身份并设计了一种可验证身份的海洋声波消息码.其次,利用正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)频域过采样技术和数论变换(Number Theoretic Transform,NTT)设计了一种适用于水声通信的密钥生成算法.在此基础上,利用身份绑定的混合加密和基于海洋噪声的混淆操作构造了具有匿名性选择明文攻击下不可区分安全(IND-Anon-CPA)的多方公钥加密算法.然后,提出了一种基于海洋噪声的SeaFO变换,并由此得到具有匿名性选择密文攻击下不可区分安全(IND-Anon-CCA)的多方密钥封装算法,该算法不需要执行全部的重加密过程.最后,设计了一种新的会话密钥更新机制.在该会话密钥更新机制中,水下自主机器人利用OFDM子载波提取密文分量并进行伪身份和时间标记有效性的检验,通过使用SeaFO变换解封装得到新的会话密钥,不仅实现了多方环境下的隐式拒绝,也防止了敌手对于SeaNTRU的自适应破坏.通过安全性分析,证明了SeaNTRU具有抗公钥替换攻击、抗重放攻击和抗中间人攻击的特性.实验结果表明,SeaNTRU比现有方案计算成本和通信开销小.
作为分布式计算的典型体现之一,端边云协同计算系统能够有效推动物联网、大模型、数字孪生等人工智能技术的垂直落地应用。类脑计算是一种受大脑工作方式启发而提出的智能计算技术,具有能效高、速度快、容错度高、可扩展性强等优点。通过利用脉冲神经网络的事件驱动机制和脉冲稀疏发放等特性,类脑计算能够极大地提升分布式端边云系统的实时处理能力和能量效率。本文针对分布式终端设备的高实时、低功耗、强异构等特点,聚焦于指令集架构这一软硬件的交互界面,给出了一种立足现有系统、易于部署升级、安全自主可控、异构融合兼容的硬件设计方案,一共提出了12条类脑计算指令,完成了基于某国产指令系统的类脑指令集和对应微结构的定制化设计,为类脑计算赋能分布式计算系统奠定了技术基础。
人工智能应用需要有与之适配的高速视频成像新技术以便更好的感知周围环境,基于深度学习的快照压缩成像(Snapshot Compressive Imaging,SCI)提供了一种具有前景的解决方案。如何利用深度学习技术从观测值中重构高速视频是领域的前沿热点。然而,现有重构方法注重挖掘先验信息以提升重构质量,忽略了掩码和图像纹理对重构难度的影响,使得重构质量仍有进一步提高的空间。针对这个问题,本文提出一种基于重构难度感知的视频快照压缩成像方法(Reconstruction Difficulty Perception-based SCI,RdpSCI)。基于观测值中包含的信息由掩码和图像纹理共同决定的观察,所提方法提出挖掘掩码和图像纹理与重构难度之间的关联,引导深度网络进行重构。特别的,提出一种改进残差密集连接网络模块(Improved ResDNet,I-ResDNet),通过引入重构难度权重向量引导特征融合,并创新的在ResDNet中引入通道打乱操作,降低特征融合效果对于通道划分方式的依赖,能够在不显著增加模型参数量的情况下增强特征融合能力。实验表明,RdpSCI相比于领域现有最优方法STFormer和EfficientSCI,在基准灰度数据集和基准彩色数据集上,重构质量分别有0.68dB和0.54dB的提升。
扩散模型是一种用于描述信息传播或影响传递过程的数学模型,近年来被越来越多地应用在计算机视觉和自然语言处理等领域的生成式任务中,针对扩散模型的数据隐私攻击与保护也随之得到了广泛关注.成员推理攻击(membership inference attack,MIA)是一种针对机器学习模型经典攻击,然而,现有的MIA方法实施的深度和广度不足,尤其是在短时攻击和长时攻击的效果平衡上存在挑战.提出了一种新的面向扩散模型的时序成员推理攻击方法,通过噪声梯度信息保证短时攻击的攻击成功率(attack success rate,ASR),同时采用时序噪声信息来提高长时攻击效果.实验表明,提出的方法在常见扩散模型上短时攻击ASR提升约5%,长时攻击的ASR提高约1%.
知识蒸馏作为深度学习中的关键技术,通过将大型教师模型的知识传递给较小的学生模型,实现了模型的压缩与加速。在保证性能的前提下,它显著减少了计算资源和存储需求,促进了高性能模型在资源受限的边缘设备上的部署。本文综述了知识蒸馏的最新研究进展,从知识类型和师生模型架构两个角度对知识蒸馏进行分类,详细汇总了输出特征知识、中间特征知识、关系特征知识三种典型知识类型的蒸馏方法,以及卷积架构到卷积架构、卷积架构到ViT架构、ViT架构到卷积架构和ViT架构到ViT架构的蒸馏方法;探讨了离线蒸馏、在线蒸馏、自蒸馏、无数据蒸馏、多教师蒸馏和助理蒸馏的学习方式;归纳了基于蒸馏过程、知识结构、温度系数及损失函数的蒸馏优化方法,分析了对抗性技术、自动机器学习、强化学习和扩散模型对蒸馏的改进,并总结了蒸馏技术在常见应用中的实现。尽管知识蒸馏取得了显著进展,但在实际应用和理论研究中仍面临诸多挑战。本文最后分析了这些困难,并对未来的发展提出了见解。
匿名凭证作为一种隐私增强的身份认证技术,在认证身份有效性的同时,能够保护用户身份隐私,广泛应用于数字身份管理系统、电子政务和数字银行等领域.符合国家商用密码标准的匿名凭证方案的研究也备受关注.然而,现行匿名凭证方案多依赖于中心化的发行机构,这不仅限制了其在去中心化网络中的应用,还易因单点故障导致系统瘫痪和隐私泄露.为解决上述问题,本文提出了一种基于SM2商用密码的去中心化匿名凭证系统.该系统利用区块链网络替代传统凭证发行机构,通过零知识证明算法确保凭证分发的安全可靠.此外,本系统还允许用户以细粒度的方式披露其属性来访问资源或请求服务,从而有效避免过度的隐私披露.本文探讨了国密化零知识证明方案的构造方法,并提出了基于SM2的集合成员关系证明方案,为SM2去中心化匿名凭证系统的设计提供了构造基础.安全性分析表明,基于SM2的去中心化匿名凭证方案满足不可伪造性和匿名性;实验结果显示,本文提出的方案具有高效性.
基于国产DCU的SPHINCS+-SM3高性能优化实现
关系推理是自然语言处理中的一项重要任务,旨在预测两个或多个实体之间可能存在的语义关系,推理过程通常为从已知的实体间关系中推导出新的关系,得到的结果可以在多种下游任务如知识图谱补全、关系抽取以及常识知识问答中得到广泛应用.以往的研究主要存在两个局限性:首先,以往的方法主要集中于封闭域,其中关系类型都是已经事先定义好的,难以扩展;其次,即便存在少量针对开放域的关系推理方法,也仅聚焦于单跳推理,难以满足更复杂的场景需求.因此,本文定义了开放域的两跳关系推理任务,并构建了一个用于评估该任务的数据集.面向该任务,本文提出了一种基于生成模型的开放域两跳关系推理框架ORANGE,包括实体生成、关系生成模块和结果聚合三个模块.实验结果表明,ORANGE相比现有主流关系推理方法在平均得分上提高了10.36%.此外,当ORANGE的关系推理框架与大语言模型结合使用时,相较于传统的上下文学习提示策略,平均得分提高了9.58%.
随着深度学习技术的飞速进步和海量数据集的持续发掘,自注意力模块在自然语言处理、计算机视觉以及大语言模型等多个领域得到了广泛应用.尽管自注意力模块显著提升了深度学习模型的检测精度,其巨大的计算需求却使得在算力受限的计算设备上部署显得尤为困难.整数量化作为在低算力计算芯片中部署模型的关键技术之一,面临着由自注意力模块结构特点引起的较高精度损失问题.针对这个问题,本文对自注意力模块的整数量化误差进行了深入分析,提出了伪softmax向量量化方法和分块伪softmax向量量化方法.所提出方法通过对自注意力模块中的softmax向量进行特殊的整数量化,旨在显著提升推理速度的同时,有效降低整数量化带来的误差.实验结果表明,相比于传统的直接量化方法,伪softmax向量量化方法能够将量化精度损失降低50%,而分块伪softmax向量量化方法更是能将精度损失减少约90%.该结果充分证明了这两种量化方法在减少精度损失方面的有效性,为自注意力模块在算力受限设备上的高效部署提供了有力支持.
视觉语言大模型(large vision-language models,LVLMs)代表了自然语言处理与计算机视觉交叉领域的一项重要进展. 通过结合预训练的视觉编码器、视觉语言适配器和大语言模型,LVLMs能够同时理解图像与文本信息,并通过自然语言进行响应,适用于图像描述、视觉问答等多种视觉语言下游任务. 然而,这类模型普遍存在幻觉现象,即模型对于图像内容进行了错误感知,制约了其在医学图像诊断 、自动驾驶等高风险领域的赋能应用. 旨在系统梳理并深入分析幻觉成因、评估方法及治理策略,为LVLMs的可靠性研究提供指导. 首先,介绍LVLMs的基础概念及其幻觉现象的定义与分类;随后,从训练数据、训练任务、视觉编码、文本生成4方面分析LVLMs的幻觉成因,并讨论这些成因间的交互关系;接着,从任务形式、数据构建和评估指标3方面介绍LVLMs的幻觉评估策略;此外,从训练数据、视觉感知、训练策略、模型推理、事后修正5方面讨论LVLMs的幻觉治理技术;最后,为这类幻觉的成因分析、评估和治理3方面提供未来的研究方向.
大语言模型在知识存储方面不断增强的能力展示了其作为知识库的潜在效用. 然而,任何给定的提示只能提供大语言模型所涵盖知识的下限估计. 在语言模型即知识库(language models as knowledge bases,LMs-as-KBs)的场景中,先前的提示学习方法忽略了查询风格对模型表现的影响. 揭示了大语言模型确实具有与查询风格相关的可学习偏好,并且利用大语言模型的这种特性引入了查询风格自适应转换(adaptive query style transfer,ARES)方法,通过适应大语言模型的偏好来增强其知识查询的表现. ARES方法从构造查询候选集开始,通过改写实现多种表达风格的纳入. 随后,ARES训练一个评估器来学习并识别大语言模型对查询风格的偏好,评估查询候选集并选择潜在最优查询. 在多个数据集上进行的实验表明了该方法在提高大语言模型即知识库服务上查询准确率的有效性,增量对比原始模型与3个基线方法分别实现了平均2.26%,1.68%,1.19%,1.17%的提升,这表明ARES可以与其他方法有效地结合使用,从而实现多角度的查询表现增强.
大模型时代下,大模型的训练和推理需要算力资源的支撑,其中针对算力资源指标数据的异常检测能够有效保障大模型的正常训练和推理. 随着大模型参数的增加,大模型使用的算力资源规模日益扩大,其中反映算力运行状态的多类指标数据随着时间推移呈现出更复杂的时序周期性变化. 现有的多维时序异常检测方法通常采用预设的窗口大小对多维时序数据进行滑动切片,但忽略不同维度周期特性的统一窗口划分会截断部分维度时序数据的完整周期性模式,阻碍了异常检测模型对多维时序数据正常模式的学习,导致异常检测效果变差. 为了解决这一问题,提出了一种基于多窗口划分集成学习的无监督多维时序异常检测方法SELAD. 具体地,首先利用傅里叶变换提取多维时序数据中各维度的周期性模式,并鉴于此信息进行多窗口划分,以保留各维度数据的完整周期性模式. 在模型训练过程中,大模型参数量巨大的特点可以解决传统模型在滑动窗口增大后出现记忆瓶颈导致学习效果变差的问题. 通过设计一种混合专家模型将保留完整周期划分的时序数据输入融合大模型和LSTM模型的集成学习框架进行训练,以学习并重构各维度的正常时序模式. 最终,基于重构误差检测多维时间序列数据中的异常. 通过在4个多维时间序列数据集上实验,SELAD在平均
据统计,我国心血管疾病患病人数约达3.3亿,每年因为心血管疾病死亡的人数占总死亡人数的40%. 在这种背景下,心脏病辅助诊断系统的发展显得尤为重要,但其开发受限于缺乏不含患者隐私信息和由医疗专家标注的大量心电图(electrocardiogram, ECG)临床数据. 作为一门新兴学科,量子计算可通过利用量子叠加和纠缠特性,能够探索更大、更复杂的状态空间,进而有利于生成同临床数据一样的高质量和多样化的ECG数据. 为此,提出了一种基于量子生成对抗网络QGAN的ECG生成式信息系统,简称ECG-QGAN. 其中QGAN由量子双向门控循环单元(quantum bidirectional gated recurrent unit, QBiGRU)和量子卷积神经网络(quantum convolutional neural network, QCNN)组成. 该系统利用量子的纠缠特性提高生成能力,以生成与现有临床数据一致的ECG数据,从而可以保留心脏病患者的心跳特征. 该系统的生成器和判别器分别采用QBiGRU和 QCNN,并应用了基于矩阵乘积状态(matrix product state, MPS)和树形张量网络(tree tensor network, TTN)所设计的变分量子电路(variational quantum circuit , VQC),可以使该系统在较少的量子资源下更高效地捕捉ECG数据信息,生成合格的ECG数据. 此外,该系统应用了量子Dropout技术,以避免训练过程中出现过拟合问题. 最后,实验结果表明,与其他生成ECG数据的模型相比,ECG-QGAN生成的ECG数据具有更高的平均分类准确率. 同时它在量子位数量和电路深度方面对当前噪声较大的中尺度量子(noise intermediate scale quantum, NISQ)计算机是友好的.
命名实体识别是自然语言处理中的一项传统任务. 基于跨度分类的方法是用来解决嵌套命名实体识别的主流方法. 该方法通常是拼接实体边界的表示来获得的跨度. 然而,长实体容易导致2个实体边界之间的语义关联被弱化. 并且单一尺度的跨度无法完整地捕捉实体在不同上下文中的表现. 对此提出了一种基于多尺度边框融合的实体语义增强方法. 该方法将跨度表示为带有边界位置信息的边框. 首先,将通过融合不同尺度实体特征得到多尺度边框以增强边框中的语义特征. 使边框的上下文依赖性更强. 然后,通过基于位置权重的注意力机制进一步细化边框的边界位置使得边框信息更准确. 最后,同时预测边框的实体类别和相对于真实实体的位置偏移量,有效支持嵌套命名实体的识别和定位. 该方法在ACE04英文、ACE05英文和Weibo中文数据集上分别取得了88.63%,88.53%,73.86%的
癌症是1种复杂且动态变化的高异质性疾病. 它的发生发展伴随着大量的基因突变与功能失调. 识别癌症阶段相关的生物标志物,对于了解癌症的致病机理与发展机制至关重要. 然而,现有的癌症生物标志物识别方法通常将各个基因看作是孤立的节点,且仅关注癌症的二分类效果,忽略了不同基因之间的交互关系变化以及不同病理阶段的显著差别. 为解决上述问题,首先为癌症各阶段构建回归残差网络(regression residual network,RRN),分析每个阶段RRN的节点和边,并结合生物通路进行多源数据挖掘,刻画了癌症随阶段演化的整个过程. 通过对癌症的演化分析,分别获得癌症二分类和阶段多分类的生物网络标志物,并在GSE10072和GSE42171数据集上进行了验证. 实验结果表明,仅使用2个基因ALDOA和NME1组成的生物标志物,可以在肺腺癌二分类问题上获得跟现有研究结果具有同样竞争力的预测精度,而使用由17条边构成的阶段生物标志物,则可以在肺腺癌阶段多分类问题上获得比现有方法高出14.86%的预测精度.
研究人员针对不同的负载类型提出并实现了大量的运行时系统,帮助用户构建单机或分布式应用. 在端边云协同场景中,由于应用各组件在保质要求、运行时环境和通信协议方面存在异构性,因此难以通过单一运行时构建性能出色且鲁棒的端边云协同应用. 将应用的各个组件独立部署到不同的运行时会增加应用管理的难度,并且缺乏对性能和容错方面的统一支持. 为解决上述问题,实现了网程系统,支持多种运行时的统一接入和使用. 网程系统通过网元和网程抽象支持多运行时应用的统一管理,并基于所有权方法提供自定义容错和缩扩容策略的支持机制. 实验表明,在端边云环境下,相比于使用Ray,Docker,Kubernetes等单一运行时,网程系统降低了31%~77%的平均端到端延迟,26%~78%的90百分位尾延迟,22%~78%的95百分位尾延迟.
序列推荐系统旨在基于用户的历史行为偏好预测下一步行为. 尽管针对序列推荐提出了许多有效的方法,但仍然存在根本性的挑战. 首先,随着在线服务的普及,推荐系统需要同时服务于热启动用户和冷启动用户. 然而,由于难以从交互数据有限的序列中学习到有效的序列依赖关系,大多数依赖于用户-项目交互的现有模型失去了优势. 其次,由于现实中用户意图的可变性和主观随机性,用户在其历史序列中的行为往往是隐含和复杂的,很难从这些用户-项目交互数据中捕获这种动态转变模式. 提出了一种基于图神经网络插值和可变形卷积网络的序列推荐模型(graph-based interpolation enhanced sequential recommender with deformable convolutional network, GISDCN). 对于冷启动用户,将序列对象重新构建成图,并提取全局序列中的知识来推断用户可能的偏好. 为了捕捉复杂的顺序依赖关系,使用可变形卷积网络来生成更健壮和灵活的卷积核. 最后,在4个数据集上进行了综合实验,验证了模型的有效性. 实验结果表明,GISDCN优于大多数主流的模型.
少样本学习是少样本目标检测的主流方法,但其存在以下问题:1) 新类样本的极度缺乏导致新类特征分布存在偏差;2) 由于微调过程中的鲁棒性假设不一定适用于新类样本,因此,特征提取网络无法提取未失真的新类样本特征. 为解决上述2个问题,提出基于跨模块知识蒸馏的3阶段少样本目标检测方法. 首先,利用特征分布校准策略,校准2步微调过程中新类样本的特征分布;其次,利用提出的首项偏差削减策略,有效缓解线性探测阶段(微调过程的第1阶段)中权重参数的偏差估计问题;然后,利用提出的基于逆首项偏差削减的整体微调策略,有效缓解整体微调过程(微调过程的第2阶段)中特征提取网络的过拟合问题;最后,利用提出的跨模块知识蒸馏策略,引导模型的浅层模块学习深层特征,以便捕获更具辨别力的新类样本特征. 大量实验结果表明,所提的3阶段微调的少样本目标检测方法有效提高了少样本目标检测的准确性和鲁棒性.
预训练数据检测方法旨在大语言模型的预训练数据未公开时,检测某段给定的文本是否属于该模型的预训练数据,可用于审查大语言模型的预训练数据使用过程是否符合法律法规. 现有方法通常认为大语言模型对训练文本的词元概率在整体上比非训练文本的高,并基于此判定具有高预测概率的文本为训练文本. 然而,由于训练文本和非训练文本之间存在着大量的短片段重叠现象,导致模型对非训练文本的词元概率也可能比较高,使得现有方法容易将非训练文本误检为训练文本. 受大语言模型的记忆能力研究启发,通过对比给定全部上下文时的词元概率与给定短距离上下文时的词元概率之间的差异,计算得到长距离上下文对词元概率提升的贡献度,并认为贡献度越大的文本更可能是训练文本,进而缓解短片段重叠现象对检测的不利影响. 其核心思想在于,大语言模型在预测训练文本中词元的概率时,距离当前词元较远的上下文对词元概率提升的贡献度,会比非训练文本中的贡献度更大. 在多个公开数据集上的实验结果表明该方法的有效性.
联邦学习作为一种边缘计算中的新兴分布式神经网络训练方法面临着客户端数据异构性挑战,其中聚类联邦学习被认为是一种颇具潜力的解决方案,然而现有聚类联邦学习算法未深入探究量化客户端数据分布差异. 针对该问题提出了一种新颖的层次化聚类联邦学习算法(hierarchical Sinkhorn distance-based clustering federated algorithm,HS-CFA),采用最优传输代价衡量局部训练时客户端数据分布特性,提出层次化聚类策略动态调整全局模型聚合时的参与权重. 具体而言,HS-CFA引入Sinkhorn距离量化客户端间的分布差异,提出使用基于密度的聚类算法在服务器端进行动态层次聚类. 在多个基准数据集上的实验结果表明,相比传统算法在高度数据分布异构性的场景中显著提升了全局模型的精度和鲁棒性.
随着多媒体和互联网技术的快速发展,数字图像内容的安全性问题日益突出. 为此,提出了一种基于窗口自注意力特征融合的深度感知图像认证哈希方案,该方案能有效检测原始图像的感知内容是否发生变化,并可应用于内容认证、复制检测、篡改识别等场合. 该方案以卷积神经网络为基础,利用窗口自注意力构建了一个融合图像全局和局部特征的哈希模型. 模型首先对主干网络获得的浅层特征进行分块并提取相应的窗口特征,然后计算每个局部特征与全局特征之间的相关性来筛选出最终的局部特征,再将这部分特征和全局特征输入到哈希生成模块中进行融合与压缩,得到最终的图像哈希码. 在训练过程中,利用哈希损失和分类损失构造的联合损失函数对模型进行约束,提高感知认证哈希方案的鲁棒性和唯一性. 实验结果表明,与现有典型的感知认证哈希方案相比,所提方案可获得更优的图像内容认证性能.
Transformer逐渐成为计算机视觉任务的首选方案,这推动了其可解释性方法的发展. 传统解释方法大多采用Transformer编码器的最终层生成的扰动掩码生成可解释图,而忽略了掩码的不确定信息和上下采样中的信息丢失,从而造成物体区域的定位粗糙且不完整. 为克服上述问题,提出基于序贯三支掩码和注意力融合的Transformer解释方法(SAF-Explainer),SAF-Explainer主要包含序贯三支掩码(sequential three-way mask,S3WM)模块和注意力融合(attention fusion,AF)模块.S3WM通过应用严格的阈值条件处理掩码,避免掩码中的不确定信息对解释结果产生损害,以此有效定位到物体位置. 随后,AF利用注意力矩阵聚合生成跨层信息交互的关系矩阵,用来优化解释结果中的细节信息,生成边缘清晰且完整的解释结果. 为验证所提出SAF-Explainer有效性,在3个自然图像与1个医学图像数据集上进行比较实验,结果表明SAF-Explainer具有更好的可解释性效果.
目前,以 SoundStream 等为代表的端到端语音神经编解码器在重建语音感知质量方面展现了优异性能. 然而,这些方法需要大量的卷积计算,从而导致较长的编码时间消耗. 为缓解上述问题,提出基于梅尔谱和压缩激励加权量化的神经语音编解码方法. 该方法旨在保持较高语音感知质量的同时降低计算代价,加快运行速度,从而减少时延. 具体而言,采用梅尔谱特征作为输入,借助梅尔谱提取过程中时域压缩的性质,并结合低层卷积编码器以简化运算过程. 此外,借鉴压缩激励网络思想,提取了编码器最后一层输出特征各维度的激励权重,将其作为量化器中计算码本距离时压缩特征各维度的权重系数,由此学习特征间的相关性并优化量化性能. 在 LibriTTS 和 VCTK 数据集上的实验结果表明,该方法显著提升了编码器计算速度,且能在较低比特率时(≤3 Kbps)提升重建语音质量. 以比特率1.5 Kbps时为例,编码计算实时率(real-time factor,RTF)最多可提升4.6倍. 对于感知质量,以0.75 Kbps为例,短时客观可懂度(short-time objective intelligibility,STOI),虚拟语音质量客观评估(virtual speech quality objective listener,VISQOL)等客观指标相较基线平均可提升8.72%. 此外,消融实验不仅表明压缩激励权重方法的优化效果与比特率呈反相关,而且发现Relu激活函数相较周期性质激活函数Snake而言,在语音感知质量相当的情况下,能大量加快运行速度.
基于协同过滤的单行为推荐系统在实际应用中经常面临严重的数据稀疏性问题,从而导致性能不理想. 多行为推荐(multi-behavior recommendation,MBR)旨在利用辅助行为数据来帮助学习用户偏好,以缓解数据稀疏性问题并提高推荐精度. MBR的核心在于如何从辅助行为中学习用户偏好(表示为向量表征),并将这些信息用于目标行为推荐. 介绍了一种旨在利用多行为数据的新型推荐方法(hierarchical graph convolutional network for multi-behavior recommendation,MB-HGCN). 该方法通过从全局层面的粗粒度(即全局向量表征)到局部层面的细粒度(即行为特定向量表征)来学习用户和物品的向量表征. 全局向量表征是从所有行为交互构建的统一同构图中学习得到的,并作为每个行为图中行为特定向量表征学习的初始化向量表征. 此外,MB-HGCN还强调了用户和物品在行为特定表征上的差异,并设计了2种简单但有效的策略来分别聚合用户和物品的行为特定表征. 最后,采用多任务学习进行优化. 在3个真实数据集上的实验结果表明,所提方法显著优于基准方法,尤其是在Tmall数据集上,MB-HGCN在HR@10和NDCG@10指标上分别实现了73.93%和74.21%的相对性能提升.
工业物联网(industrial Internet of things,IIoT)正面临着日益严峻的安全威胁,传统边界型安全模型已无法应对复杂多变的需求. 零信任作为一种新兴的安全模型,以“绝不信任,始终认证”为核心原则,逐渐受到关注. 然而,零信任在IIoT中的研究与应用仍处于起步阶段,亟需更加全面且系统的探索. 系统综述了近年来工业领域零信任的发展与应用,重点分析其核心技术与实践场景,并明确当前研究趋势和未来方向. 首先介绍了工业零信任的基本概念和原则,为后续讨论奠定理论基础. 随后,系统梳理了工业零信任架构的迁移与评估方法,并总结了身份认证、软件定义边界、微隔离、信道安全及信任评估等关键技术,这些技术构成了工业零信任的核心支撑体系. 此外,深入探讨了访问控制在零信任中的关键作用及其在权限管理中的价值. 结合IIoT的典型应用场景,进一步分析零信任在复杂环境中的实践优势,最后总结了工业零信任的现存挑战和未来发展.
多层级区块链架构是一种将多个区块链组织成树形的架构,其中每层的区块链可以通过跨链技术控制和管理与其连接的下一层区块链的部分功能和链上数据. 然而,这种架构下的资产跨链转移是一个多跳跨链问题,证明跨链交易成功执行的证据需要沿源链到目标链路径进行多跳的传递与验证,导致跨链事务的执行时延较长、证据传输开销与验证开销较大的问题. 为此,提出一种面向多层级区块链架构的轻量级高效验证资产跨链转移方法,该方法引入顶层见证链连接各多层级架构,并在各链上部署见证合约,使跨链事务中的源链和目标链的父链作为见证链驱动跨链事务的完成. 此外,还提出一种基于Verkle树的跨链事务验证证据,方法将区块内需要处理的跨链事务信息组织在采用KZG(Kate-Zaverucha-Goldberg)多项式承诺的Verkle树中,并将KZG承诺和证明数据加入证据中,通过验证证据证明跨链事务的执行状态,从而优化证据的传输和验证. 理论分析和对方法原型的实验证明,方法降低了跨链事务的执行时延,并且相比采用简单支付验证的方案在不增加证据传输开销的基础上降低了证据验证开销,具有轻量级和高效验证的特点.
大规模神经形态平台的兴起和发展要求片上网络具备高效的数据传输机制. 现有工作在开发高性能路由拓扑架构和设计路由策略方面已经做出了许多努力,但它们仍然受限于单一传输模式或扩展性差的问题,这导致神经形态计算的效率低. 受人脑网络小世界特性的启发,提出了一种高效的片上网络路由方案——区域广播(region-broadcast,ReB),能够直接支持单播、多播和广播的混合传输模式. 此外,部署了一种突触连接索引方法,以适应所提出的路由方案并支持这种混合模式的传输. 这种方法替代了传统的多播路由表,有效提高了网络扩展性并降低功耗. 实验结果表明,与现有工作相比,ReB路由方案将峰值脉冲流量和链路负载标准差分别降低了11.5%和20.4%. 在合成流量、脉冲神经网络应用和脑皮质柱网络验证下,ReB策略有效提升了片上网络的延迟、吞吐量和功耗等方面的性能. 最后,所提出的ReB路由器的带宽达到0.24 spike/cycle, 硬件实现面积仅为0.014 mm2.
在视频的复杂动作识别领域中,模型的结构设计对其最终的性能起着至关重要的作用. 然而,人工设计的网络结构往往严重依赖于研究人员的知识和经验. 因此,神经架构搜索(neural architecture search,NAS)因其自动化的网络结构设计在图像处理领域受到研究人员的广泛关注. 当前,神经架构搜索已经在图像领域获得了巨大的发展,一些 NAS方法甚至将模型自动化设计所需的 GPU天数减少到了个位数,并且其搜索的模型结构表现出了强大的竞争潜力. 这鼓励我们将自动化模型结构设计拓展到视频领域. 但它面临2个严峻的挑战:1)如何尽可能捕获视频中的长程上下文时间关联;2)如何尽可能降低 3D卷积所带来的计算激增的问题. 为了应对上述挑战,提出了1个新颖的基于时间卷积的神经架构搜索复杂动作识别(neural architecture search on temporal convolutions for complex action recognition,NAS-TC)模型. 具体地,NAS-TC具有2个阶段:在第1阶段,采用经典的CNN 网络作为骨干网络,来完成计算密集型的特征提取任务. 在第2阶段,提出了一个神经架构搜索时间卷积层来完成相对轻量级的长程时间模型设计和信息提取. 这确保了提出的方法具有更合理的参数分配并且可以处理分钟级的视频. 最后,提出的方法在3个复杂动作识别基准数据集上和同类型方法相比平均获得了2.3% mAP的性能增益,并且参数量下降了28.5%.
布线是印刷电路板设计中的重要一环. 现有的印刷电路板设计多依赖于电子设计自动化工具的处理,而传统的自动布线研究多聚焦于总线布线,没有将布线时确定的群组作为研究对象. 由于未经总线分组,可能存在群组中线网较多的情况,这将导致群组所占据的线宽与线间距比原先总线布线中各总线组分别占据的线宽与线间距更大,从而给实际布线带来了新的挑战. 为此,提出一种基于带权有向图的群组布线算法. 首先构建仅含有合并边以及它们之间邻接关系的Hanan网格图. 接着,利用合并边信息构建带权有向图,完成对电路板上布线资源的表示. 然后,使用一种具有多线避让功能的启发式搜索算法来进行布线规划. 最后,通过将布线归类为数种可能的情况分别考虑,完成详细布线并得到群组布线的最终结果. 实验结果表明,算法在已经测试过的工业界复杂例子上均能达到100%的布通率,并且不会违反所有工业印刷电路板基准用例的设计规则约束.
指令级并行(instruction level parallism,ILP)是处理器体系结构研究的经典难题. 以昇腾为代表的领域定制架构将更多的流水线细节暴露给上层软件,由编译器/程序员显式控制流水线之间的同步来优化ILP,但是流水线之间的物理同步资源是有限的,限制了ILP的提升. 针对这一问题,提出一种面向昇腾处理器的高性能同步原语自动插入方法,通过引入“虚拟同步资源”的抽象将同步原语的插入和物理同步资源的选择进行解耦. 首先提出了一种启发式算法在复杂的控制流图上进行虚拟同步原语的插入,随后通过虚拟同步原语合并等技术,将虚拟同步资源映射到有限数量的物理同步资源上,并同时在满足程序正确性与严苛硬件资源限制的前提下,根据指令间的偏序关系删除程序中冗余的同步原语. 使用指令级与算子级基准测试程序在昇腾910A平台上的实验表明,该方法自动插入同步原语的程序在保证正确性的基础上,整体性能与专家程序员手动插入同步原语接近或持平.
网络功能(network function,NF)软件化为新型网络场景和应用的实现与部署提供灵活性. 然而,相较于专有硬件,网络功能软件的程序结构和运行环境更复杂,导致短时吞吐异常、长尾时延等各种性能问题,影响用户体验. 当出现性能问题时,需要快速通过性能测量,定位问题所在模块,确定问题产生的原因. 面对NF软件复杂的运行环境、日益膨胀的代码规模、问题根因的复杂多样等问题,粗粒度性能测量已经无法满足性能问题定位和分析的需求,急需高效的细粒度NF软件性能测量方法. 当前NF软件性能测量主要分为基于采样和基于插桩2类方法. 通过实际测量分析证明了基于采样的性能测量方法不适用于细粒度NF软件的性能测量,而基于插桩的方法可以满足细粒度测量的功能需求,但会产生大量的额外测量开销,影响测量准确度. 为此,提出了动态库插桩和函数级快速断点相结合的函数级动态插桩方法:和静态库插桩相比,动态库插桩可以在NF软件运行过程中实时按需打桩,解决了静态库打桩的灵活性问题;和传统快速断点相比,函数级快速断点的插桩开销平均降低了70%. 在此基础上,设计并实现了数据包级的NF软件性能测量方法LProfile,基于轻量化探针和存储优化等技术进一步减少测量开销. 对比基线方法TAU,LProfile降低了82%的单点测量开销.
作为摩尔定律的“破局者”,Chiplet技术被业界寄予了厚望. Chiplet技术能够将多个具有特定功能的“小芯粒”通过高速互联技术组合成一个“小芯粒”集成芯片,其技术核心是能够实现芯粒组合扩展的芯粒互联技术. 从Chiplet互联协议、互联架构、典型互联芯粒、基于互联芯粒的可测性设计几个方面进行了分析与讨论. 首先详细对比分析了国内外Chiplet互联协议,给出了各协议的分层及功能. 然后介绍了3种典型的Chiplet互联架构,分析了各种架构的特点及优势. 之后介绍了Chiplet容错机制,介绍了互联接口容错编码、容错拓扑和容错路由等容错途径. 接着给出了可编程互联芯粒、路径可编程互联芯粒以及专用互联芯粒3种设计方案. 最后介绍了基于互联芯粒的可测试性设计与测试方案. 以Chiplet互联为主题,旨在帮助读者对芯粒互联技术进行系统性了解.
近年来,大语言模型(large language model,LLM)作为深度学习网络技术的关键分支,在自然语言处理(natural language processing,NLP)领域取得了一系列突破性成就,并被广泛采用. 然而,在其包括预训练、微调和实际部署在内的完整生命周期中,多种安全威胁和隐私泄露的风险相继被发现,引起了学术和工业界越来越多的关注. 首先以LLM发展过程中出现的预训练-微调范式、预训练-提示学习范式和预训练指令微调范式为线索,梳理了针对LLM的常规安全威胁,即3种对抗攻击(对抗样本攻击、后门攻击、投毒攻击)的代表性研究,接着总结了一些最新工作披露的新型安全威胁,然后介绍了LLM的隐私风险及其研究进展. 相关内容有助于LLM的研究和部署者在模型设计、训练及应用过程中,识别、预防和缓解这些威胁与风险,同时实现模型性能与安全及隐私保护之间的平衡.
恶意域名检测是网络入侵检测系统中重要的组成部分,能够通过域名请求快速发现网络攻击. 基于机器学习的恶意域名检测能够克服黑名单机制缺陷,提升对恶意域名的识别精度,然而由于域名构造差异性大,实际环境域名复杂多变,应用过程中检测效率低、鲁棒性差. 为此,提出一种基于域名语义图学习的恶意域名检测技术,利用语义图关联分析来实现高效的恶意域名检测. 具体而言,首先收集了中国科技网12个月的域名请求数据,共33.3亿访问记录,其中包括超过650万条恶意域名记录,涉及284个攻击类型. 通过对不同类别域名的语义特征分析,发现不同类别域名之间具有明显的语义区分度,但存在较大的特征分布重叠区间,重叠的域名数据降低了分类器性能. 因此,提出一种基于字符语义相似性的域名关联图模型,通过融合邻居域名特征增强重叠区间域名语义特征,进而提升检测性能. 首先,通过分析域名结构的相似性过滤域名中吻合度较高的噪音字符以消除域名固有结构造成的检测干扰;其次通过提取域名字符的语义相似性特征构造域名语义图模型,进而通过在线聚合算法构建动态的域名语义图,以基于节点度权重抽样经验池获取的样本集为基础,训练得到基于样本语义权重的多头注意力消息传播图模型;最后使用多层神经网络分类器实现恶意域名检测. 实验结果表明,提出的恶意域名检测技术在不同类型恶意域名的数据集上取得了平均96%的精确率和97%的召回率,并且该模型能够在线进行自演进,具有较高的识别率和鲁棒性.
重复数据删除作为一种面向大数据的高效缩减技术,已经被广泛应用于各种云存储系统和服务中,为了兼容数据重删和加密,通常采用收敛加密. 然而,这种云服务商的外包存储方式以及确定性的加密方式会导致一系列数据安全问题. 目前,数据加密重删技术已成为云存储领域的研究热点. 首先介绍重复数据删除技术的概念、基础加密重删算法和云存储中数据加密重删的安全挑战,其次从攻击和防御的角度阐述当前云存储数据加密重删安全研究现状,包括3种攻击种类:蛮力攻击、频率攻击、侧信道攻击. 围绕每种攻击类型,梳理对应的代表性防御方案,并总结各个方案的优势和缺陷. 最后,针对当前数据加密重删防御方案存在的问题进行总结,并对未来的研究方向进行展望.
随着人工智能(artificial intelligence,AI)规模的快速增长,深度学习应用程序中出现的错误也日益增多. 现有主流深度学习框架大都建立在动态类型语言Python之上,缺乏类型检查机制,导致许多错误无法在编译阶段通过类型检查加以排除. 为此,提出了一种基于定理证明器Coq的强类型函数式编程风格的深度学习框架. 该框架具有带类型的张量结构和强大的静态类型检查能力. 实验结果表明,该框架能够自动有效检测到深度学习模型中的形状不匹配错误,相较于其他检查工具,在检测能力和速度方面具有更大优势. 进一步地,设计并实现了一套从函数式编程模型到C代码的重写转换规则,实现了从函数式神经网络算子表达式到多核并行OpenMP C代码的转换. 多组实验结果表明,该方法生成的算子C代码与手工编写的代码质量相当,且加入多核并行优化后生成的神经网络算子OpenMP C代码相较于顺序执行的算子C代码,速度提升了4~10倍. 此外,利用该方法生成的C算子具有高安全性,能够有效避免人工编写代码时常见的下标越界和存储分配错误等问题.
多模态情感分析旨在利用多模态点评等数据识别用户情感倾向. 为实现存在域偏移的跨域应用,常用无监督领域自适应方法. 然而,该类方法着重于领域不变特征提取,忽略了目标领域特定特征的重要作用. 为此,提出基于元优化的领域不变及领域特定特征解耦网络. 首先,通过嵌入情感适配器对预训练大模型微调,建立图文融合情感特征编码器. 进而,构建基于因子分解的特征解耦模块,分别利用领域对抗及领域分类、协同独立性约束,实现知识可传递的领域不变特征编码的同时,提取领域特定特征以增强目标域情感分类性能. 为保证特征解耦与情感分类的总体优化方向一致性,提出基于元学习的元优化训练策略,实现情感分析网络的协同优化. 基于MVSA和Yelp数据集构建的双向情感迁移任务的对比实验表明,较之其他先进的图文情感迁移算法,所提算法于双向情感迁移任务的精确率、召回率和
针对现有可搜索加密方法中搜索表达能力不足以及验证机制不完善的问题,提出了一种基于区块链索引的可验证布尔搜索加密方案(verifiable boolean searchable encryption based on blockchain index,VBSE-BI). 该方案首先构建了支持可验证布尔搜索的安全模型,并在此基础上设计了一种基于区块链存储结构的增量型安全索引构造方法,在实现高效搜索的同时,确保索引结构的不可篡改性. 此外,方案还设计了安全索引的高效动态更新机制,有效避免了因构建辅助更新结构而导致的索引存储和更新开销过大的问题. 针对布尔搜索的完整性验证需求,方案定义了布尔搜索结果的不可伪造性,并提出了一种基于双线性映射累加器和扩展欧几里得算法的布尔运算完整性验证算法. 安全性分析表明,VBSE-BI方案在随机预言模型下可抵御动态选择关键字攻击,并在双线性
隐私审计是数据治理中的关键问题,旨在判断数据的隐私是否得到了有效保护. 通常,学者们通过对数据添加噪声或扰动实现差分隐私,从而保护个人隐私. 特别在机器学习场景下,出现越来越多的差分隐私算法, 并且这些算法均声称自己可以达到较为严格的隐私保护水平. 然而,即使这些算法在发布之前会经过严格的数学证明,其实际应用中的隐私保护程度亦难以确定. 鉴于差分隐私理论本身的复杂性,隐私算法中证明的错误和编程实现的错误时有发生,使得这些算法无法达到其声称的隐私保护水平,导致隐私泄露. 为了解决这一问题,隐私审计应运而生. 隐私审计可以获取隐私算法的真实隐私保护水平,有助于算法设计者对算法进行改进. 将综述隐私审计相关算法,从数据构建、数据测算、结果量化3个维度进行总结,并对隐私审计算法进行实验说明,最终提出隐私审计面临的挑战以及未来研究方向.
现有的知识图谱通常存在不完整性的挑战,可以通过链接预测任务对缺失信息的补全来缓解。然而大部分知识图谱补全方法过于关注对嵌入特征的提取,而没有充分考虑预测节点邻域信息、全局特征信息和方向特征信息中所包含的复杂语义,难以准确预测出缺失的信息。本文提出一种通用的表示学习语义增强框架ASFR,利用注意力机制提取知识图谱局部关联信息、知识图谱结构特征,结合位置信息对现有的知识图谱表示学习模型进行增强,将三种知识图谱附加信息嵌入到知识图谱的实体向量中,提高知识图谱表示向量的质量。本文在5种不同类别的经典方法中进行对比实验,结果表明该框架能够有效增强模型的预测能力,在三个公开数据集上的提升幅度为6.89%。
随着大模型技术的迅猛发展,大模型在自然语言处理和计算机视觉等领域表现出卓越的性能,成为解决复杂问题的重要工具,并在科研和产业界引发了广泛关注. 然而,当前基于云平台的大模型训练和推理方案面临诸多挑战,包括高昂的成本、有限的可扩展性和信息安全风险等. 随着模型参数规模的不断扩大,对于低成本、高效训练和推理的需求愈发迫切. 在端边侧进行大模型的协同训练和推理,可以显著降低延迟和带宽需求,同时增强数据隐私和操作效率,为大模型在多样化场景中的低成本应用提供关键技术支持,成为当前研究的热点之一. 全面调研了面向边缘智能的大模型相关研究,主要从大模型边缘训练和推理2个角度对当前相关研究进行了深入分析和讨论. 最后,提出了面向边缘智能的大模型技术发展所面临的挑战和未来展望. 希望能促进学术界和产业界对面向边缘智能的大模型技术有更深入了解和关注,并能够启发更多的学者开展深入研究.
智能司法旨在通过采用各种自然语言处理技术,自动分析法律领域中的文本,已经吸引了自然语言处理社区的极大关注. 作为法律文本挖掘最关键的任务之一,法律判决预测旨在根据法律案件的事实描述,自动预测判决结果(如适用的法律条文、指控和刑罚条款),成为人工智能技术的一个有前景的应用. 然而,现有的法律判决预测方法主要集中在只涉及单一被告的案件上,而忽略了涉及多个被告的案件研究. 在实际的刑事案件中,往往涉及多个被告者,并在他们之间存在着错综复杂的交互关系,现有的单被告法律判决预测技术很难精确区分多被告案件中不同被告的判决结果. 为了加速多被告法律判决预测任务的研究,收集了一个大规模的多被告法律判决预测数据集,其具有以下3个特点:1)数据集是多被告法律判决预测最大的人工标注数据集;2)数据集中的多被告案件需要区分不同被告者的法律判决预测结果;3)数据集中包含了完整的多被告判决链,其中包括犯罪关系、量刑情节、法条、罪名和刑期. 此外,对数据集进行了全面而深入的分析,其中包括法条、罪名、刑期、犯罪关系、量刑情节、文本长度、被告人数的数据分布以及多被告判决结果、基于判决链的判决结果的统计分析. 此外,提出了基于判决链的法律判决预测方法,其中包括判决链生成策略明确生成犯罪事实相关的判决链,判决链对比策略对比正确判决链和易混淆的判决链来进一步提升效果. 实验结果表明,多被告法律判决预测数据集对现有的法律判决预测方法和预训练模型具有挑战性,而基于判决链的法律判决预测方法能显著优于基准方法,显示出判决链在法律判决预测中的关键作用.
隐式篇章关系识别旨在推导没有连接词的论元(句子或子句)之间的语义关系. 现有研究证实引入短语信息能切实提升识别性能,但依然存在以下不足:1)通常依赖句法分析器且词、短语与论元之间的交互不充分;2)引入短语信息导致的数据稀疏性问题. 为此,分别提出基于多粒度信息交互的隐式篇章关系识别模型MGII(multi-granularity information interaction)和基于链式解码的数据增强方法DAM (data augmentation method). 所提模型通过卷积神经网络自动学习n-gram短语的语义表示,利用Transformer层显式地建模词、短语和论元之间的交互,并通过链式解码进行多级篇章关系预测. 提出的数据增强方法同时预训练编码模块和解码模块,从而能有效地利用大量显式篇章关系数据. 所提方法在PDTB数据集上的性能显著优于近期的基准模型,且不依赖句法分析器,具有较强的适用性.
Stencil计算在科学应用中得到了广泛采用. 许多高性能计算平台利用GPU的高计算能力来加速Stencil计算. 近年来,Stencil计算在阶数、内存访问和计算模式等方面变得更加复杂. 为了使Stencil计算适配GPU架构,学术界提出了各种基于流处理和分块的优化技术. 由于Stencil计算模式和GPU架构的多样性,没有单一的优化技术适合所有Stencil实例. 因此,研究人员提出了Stencil自动调优机制来对给定优化技术组合进行参数搜索. 然而,现有机制引入了庞大的离线分析成本和在线预测开销,并且无法灵活地推广到任意Stencil模式. 为了解决上述问题,提出了通用Stencil自动调优框架GeST,其在GPU平台上实现Stencil计算的极致性能优化. 具体来说,GeST通过零填充格式构建全局搜索空间,利用变异系数量化参数相关性并生成参数组. 之后,GeST迭代地从参数组选取参数值,根据奖励策略调整采样比例并通过哈希编码避免冗余执行. 实验结果表明,与其他先进的自动调优工作相比,GeST能够在短时间内识别出性能更优的参数设置.
格上的公钥可搜索加密在确保外包数据的隐私性、机密性和灵活性方面发挥着重要作用,同时能够抵抗量子攻击. 大多数格上的公钥可搜索加密受限于底层原像采样算法,存在高存储开销或低效率的问题. 为了解决上述问题,首先提出了一种优化的公钥可搜索加密方案. 方案使用一种新的近似陷门采样算法提高计算效率,该算法能够输出1个近似的而不是精确的原像. 然后,结合非球面高斯采样技术和理想可扩展输出函数来降低密钥和陷门的存储开销. 进一步地,引入了具有前向安全和后向安全的扩展方案来解决基础方案中的更新和搜索操作泄露. 为了避免新更新的密文与以前的陷门匹配,即前向安全,通过基于格的委托机制来定期更新密钥. 为了防止后续搜索泄露有关已删除文件的信息,即后向安全性,通过结合位图索引和格同态加密方案实现文件的添加和删除. 理论分析和实验结果表明,相较于高效的可搜索加密方案,所提方案在公钥存储开销和陷门存储开销上分别降低了4.6%和50.1%. 同时,该方案在加密、陷门生成以及搜索上的效率分别实现了11.11%,2.5%,26.15%的提升.
超级计算已从传统CPU 集群向异构平台快速发展,随着硬件平台的类型转换,对于计算软件程序调优及性能测评等都面临着重大挑战. 当前一些国际主流并行程序性能分析工具及软件普遍存在与国产超算异构系统处理器产品兼容性低,往往需要进行插桩及重编译代码的方式,且单节点性能数据采集准确度不高等问题. 为了改进这些不足,提出了一种异构系统计算软件浮点性能数据采集方法. 该方法基于国产超算系统验证平台对浮点性能采集原型进行开发及验证. 目前已实现单节点和多节点性能指标数据的有效采集,且对原程序无侵入性,无需修改需要被监控程序的代码进行插桩方式进行监控,通用性强. 最后,与rocHPL,Cannon,mixbench这3类程序进行对比实验分析,并针对人工智能(artificial intelligence,AI)计算,在残差网络(residual network,ResNet)程序上开展了性能数据采集方面的监测研究. 证明提出的采集方法准确度较高,采集效果达到实验预期,且对程序调优具有较好的参考价值,验证了该方法的有效性.
动态二进制翻译器中广泛使用软件代码缓存来管理翻译生成的代码块. 代码块的翻译、刷新和内存占用是软件代码缓存的一个重要指标. 目前仅有少量的针对系统级动态二进制翻译器中代码缓存的研究. 已有的系统级动态二进制翻译器为实现正确且高效的指令语义模拟,均使用了状态标签方案,但该方案会对软件代码缓存管理带来额外的问题. 通过深入分析状态标签方案,总结了其给代码缓存管理带来的2类问题:冲突和冗余. 针对这2类问题,提出了基于细粒度状态标签的代码缓存优化方法,包括多状态代码缓存和弱状态标签. 这2种方案在LATX-SYS中实现并在龙芯LoongArch平台上使用Ubuntu/x86 16.04和Windows XP/x86客户机操作系统进行了测试. 结果表明,代码块刷新次数和翻译次数分别降低了43%和18%,代码块相似率从59.63%降至5.06%,翻译开销和内存占用均得到降低. 总的来说,系统启动时间降低了20%. 最后,针对弱状态标签方案进一步测试了SPEC CPU2000,结果表明代码块数量平均减少了13%,且仅带来2%~3%的性能开销.
随着人工智能生成模型和深度伪造的迅速兴起,利用各种方法生成人脸说话视频的技术日益成熟,其中音频驱动的说话人面部视频生成方法因其生成效果的逼真自然而备受瞩目. 该类方法利用音频作为驱动源,结合图片或视频素材,用以合成与输入音频口型同步的目标角色讲话视频. 目前,相应的技术已经被广泛应用于虚拟主播、游戏动漫、影视剧制作等内容创作领域,并展现出广阔的发展前景. 然而,这些技术的潜在负面影响也日益显现,若被不当利用或滥用,极有可能触发严重的政治和经济后果. 在此背景下,针对面部伪造视频的鉴别研究应运而生,主要通过分析单视频帧的真实性或视频帧序列的时空一致性来评估视频的真实性. 首先,依据时间脉络及基础模型的发展轨迹,系统性地剖析了音频驱动面部视频生成任务的经典算法与最新研究成果. 其次,详尽列举了该任务领域内常用的数据集及评估标准,并从多个维度出发,对这些数据集与标准进行了全面深入的对比分析. 紧接着,针对伪造面部视频鉴别任务,依据鉴别技术所针对的对象(即单帧或多帧)进行了细致的分类与归纳,同时,也对其常用的数据集及评估标准进行了系统的总结与梳理. 最后,展望了该研究领域面临的挑战与未来的发展方向,旨在为后续的相关研究提供有价值的参考与坚实的支撑.
NTRU格是构建实用后量子格基密钥封装机制的重要选择. 格密码的软件优化工程实现对于后量子密码后续的应用部署具有重要意义. CTRU是中国学者提出的基于NTRU格的格密码密钥封装机制. 目前CTRU方案只有CTRU-768完成了C和AVX2实现,且实现有进一步的优化空间,并且CTRU-768的实现无法直接扩展到CTRU-512和CTRU-1024方案实现上. 完成了CTRU512和CTRU1 024及其变体CNTR-512和CNTR-1024首个的优化参考C实现和对应AVX2并行优化实现,并对已有的CTRU-768方案的参考实现和AVX2实现进行优化. 采用混合基数论变换(NTT)加速多项式环乘法,并使用Karatsuba算法加速分解后的小度数多项式环乘法. 此外,结合中心Barrett约减,提出在逆向NTT中进行基于索引的延迟约减. 对于CTRU-1024下较为耗时的多项式求逆,引入了Bernstein快速求逆算法. 进一步地,提供了更加高效的AVX2优化实现方案,利用Intel提出的单指令多数据(SIMD)指令集AVX2,加速了CTRU中的性能瓶颈. 采用层融合和系数置乱减少实现过程中的存取指令. 此外,对Bernstein快速多项式求逆算法进行了向量化优化实现. 对耗时SHA-3哈希模块进行AVX2汇编实现. 相较于最新的CTRU-768 AVX2实现,AVX2优化实现提升了8%~11%. 对于CTRU方案,与参考实现相比,AVX2优化实现在3个方案上的性能提升均非常显著. 对于CTRU方案,与参考实现相比,提出的AVX2优化实现在CTRU-512,CTRU-768,CTRU-1024这3个方案上的性能提升均十分显著,密钥生成、密钥封装、密钥解封装的提升幅度分别为56%~91%,74%~90%,70%~83%.
针对跟踪模型存在被对抗攻击的风险且当前缺少相关的对抗检测方法,利用频域手段解决这一问题. 结合扰动噪声视觉不可见的特点,首先理论证明了扰动噪声主要存在于图像的中高频段. 然后定量地分析出视频序列的低频分量对跟踪性能的贡献最大且受对抗攻击的影响最小. 最后根据上述理论证明和定量分析,提出了基于频段跟踪性能差异的检测框架,其中的频域分解模块用于提取视频序列的低频段分量;目标跟踪器及其同构同参的镜像跟踪器分别以视频序列的全频段和低频段分量为输入;判别模块通过对比2个跟踪器的输出差异,判定当前视频序列是否为对抗输入. 该检测框架以跟踪器为载体,无需对抗训练仅通过对比不同频段跟踪性能的差异性,即可实现对抗检测. 大量的实验结果表明提出的检测框架不仅能够有效地检测当前主流的对抗攻击,如CSA,TTP,Spark,检测精度高达97.55%,而且对跟踪器的原始跟踪性能影响较小. 此外,检测框架具有泛化性,能够灵活地集成到多个跟踪器,如SiamRPNpp,SiamMask,SiamCAR,SiamBAN.
预训练模缓解了训练数据和算力受限的问题,也催生了模型开发和应用的新范式——深度学习模型供应链. 在这一供应链中,预训练模型由原始发布者上传,并经二次开发者进行必要的迁移、压缩与部署,以适应不同的应用需求. 然而,这一过程引入了新的环节和多元要素,随之产生了数据泄露和计算安全等风险. 尽管深度学习模型供应链已被广泛采纳,目前对于其安全性威胁的系统性研究仍然不足. 针对这一研究空白,概括了深度学习模型供应链的概念及其基本框架,调研了相关的研究工作. 依据模型生命周期的不同阶段,详细分析了设计、二次开发、部署和使用各环节的安全脆弱点,对可能遭遇的安全性攻击手段进行了系统的梳理、比较和总结,并探讨了相应的防护策略. 为了帮助读者更好地使用预训练模型,对现有预训练模型仓库进行了比较. 最后,基于目前深度学习模型供应链所面临的挑战,从安全性审查、实时检测和问题溯源等不同角度分析和讨论了未来可能的研究发展方向,为更安全可靠地开发和使用预训练模型提供了思路. 涉及论文方法和相关代码归纳整理在https://github.com/Dipsy0830/DNN-supply-chain-survey,方便研究人员下载使用.
基于模型诊断主要是根据系统的行为进行建模,一旦观察到异常行为就在系统模型上运行一个诊断算法来返回可能的解释. 现有的诊断算法是每求出一个冲突集就计算一次极小碰集,然后再检验该极小碰集是否满足系统观测. 这样虽然能够减少冗余解集的生成,但是计算冲突集的极小碰集难度随冲突集数量的增加呈指数级增长,而计算部分冲突集的极小碰集不一定是诊断,当检验极小碰集是否满足系统观测也是十分耗时的. 针对以上问题,设计了一个筛选函数,在保证所得的碰集尽可能是诊断的情况下,分别从诊断的势和数量上来删除低质量的冲突集. 除此之外,为了能够快速检验碰集是否是诊断,还根据电路的逻辑关系提出了一种高效的判定算法. 在实验部分,详细分析了在设置不同数量的故障条件下运行时间和求解诊断个数的比较,与目前最先进的算法相比,效率最高提升2~40倍,诊断数量多获得5~200倍.
在应对这一挑战时都面临多个问题. 其中,一致性锚点图学习方法难以处理锚点图不对齐问题,并且过度依赖一致性图,限制了其聚类结果的准确性和可靠性;锚点图集成聚类方法则是在基聚类器的生成与融合过程中割裂了不同锚点图之间的联系,影响了其聚类效果的有效性和稳定性. 为解决这些问题,提出了一种基于双端联合学习的新型多视图聚类方法. 该方法充分考虑了多锚点图信息和锚点端聚类对样本端聚类的联合作用,实现了锚点端聚类和样本端聚类同步进行,并通过对多锚点图信息的综合实现了样本端聚类与多个锚点端聚类的集成对齐. 与现有方法不同,该方法无需直接学习一致性锚点图,可以处理任意类型的锚点不对齐问题,并且规避了图学习与图划分分步处理对聚类性能的不利影响. 此外,其在一个完整的优化框架中同时利用多个锚点图进行锚点端聚类和样本端聚类,有效解决了基聚类器生成阶段无法利用除自身外的其他锚点图和集成阶段无法充分利用所有锚点图的问题. 实验结果表明,所提出的方法在聚类性能和时间消耗方面均优于多个对比方法,有效增强了多视图数据的聚类性能. 所提出方法以及所采用对比方法的相关代码附在:http://github.com/lxd1204/DLMC.
开放域多标签动作识别任务旨在对视频中训练阶段未见的人的多类动作进行识别. 相较于传统动作识别,该任务更适应实际场景,具有广泛的应用前景. 然而,开放域多标签动作识别具有很大的挑战性,需要将模型有效泛化到未见过的新动作类别. 为了解决此问题,提出大语言模型知识引导的开放域多标签动作识别方法. 该方法挖掘大语言模型蕴含的丰富的动作类别共现知识,并将共现知识嵌入视觉-语言模型的提示学习,实现基本类别(base classes)与新类别(novel classes)之间的信息传递,从而提升新类别的识别性能. 在实验中将基本动作类别和新动作类别的比例设置为3꞉1和1꞉1,分别表示为“75% 可见”和“50% 可见”. 在AVA和数据集上的实验结果表明,相较于现有方法,当基本动作类别为“75%”时,该方法在AVA和MovieNet数据集的新动作类别识别指标mAP上分别提升了1.95%和1.21%;当面临基本动作类别为“50%”的更困难场景时,提出的方法在这2个数据集上新动作类别识别指标mAP上分别提升了2.59%和1.06%.
基于深度学习的目标检测算法已广泛应用,与此同时最近的一系列研究表明现有的目标检测算法容易受到对抗性攻击的威胁,造成检测器失效. 然而,聚焦于自动驾驶场景下对抗攻击的迁移性研究较少,并且鲜有研究关注该场景下对抗攻击的隐蔽性. 针对现有研究的不足,将对抗样本的优化类比于机器学习模型的训练过程,设计了提升攻击迁移性的算法模块. 并且通过风格迁移的方式和神经渲染技术,提出并实现了迁移隐蔽攻击方法(transferable and stealthy attack,TSA). 具体来说,首先将对抗样本进行重复拼接,结合掩膜生成最终纹理,并将其应用于整个车辆表面. 为了模拟真实的环境条件,使用物理变换函数将渲染的伪装车辆嵌入逼真的场景中. 最后,通过设计的损失函数优化对抗样本. 仿真实验表明,TSA方法在攻击迁移能力上超过了现有方法,并在外观上具有一定的隐蔽性. 此外,通过物理域实验进一步证明了TSA方法在现实世界中能够保持有效的攻击性能.
个性化学习资源推荐以提取学习者兴趣为基础,为学习者推荐感兴趣的学习资源. 然而,学习者的兴趣不仅受知识点、学习资源、课程等因素影响导致其兴趣难表征,而且其会随时间推移动态变化使得学习兴趣模式难捕获. 针对此,提出基于时空多粒度兴趣建模的学习资源推荐方法,其特点在于:首次设计并实现了一种融合学习空间和时间维度的学习兴趣表征学习架构,其中,提出基于异构图的学习空间及其多粒度兴趣表征,即用节点表示知识点、学习资源、课程、教师和学校等实体,边表示实体间关系,用此异构图表示学习空间,再通过图神经网络表征学习节点嵌入来表达节点上的多粒度兴趣;提出时间维度多粒度兴趣模式表征方法,即结合时间、学习空间和课程偏好等多维度,切分学习者历史行为序列,用于挖掘学习者近期课程内、中期跨课程和长期跨课程等不同粒度的兴趣模式,并设计多粒度兴趣自监督任务,破解时空多粒度兴趣缺少监督信号问题;然后,提出多粒度兴趣自适应融合层,将多粒度兴趣表征和兴趣模式融合,获得最终的学习者兴趣,经预测层为学习者推荐感兴趣的学习资源. 实验结果表明,在MOOCCube数据集上,所提算法较最优对比算法HinCRec,在
软件系统在各行各业中发挥着不可忽视的作用,承载着大规模、高密度的数据,但软件系统中存在的种种缺陷一直以来困扰着系统的开发者,时刻威胁着系统数据要素的安全. 自动代码修复(automated program repair, APR)技术旨在帮助开发者在软件系统的开发过程中自动地修复代码中存在的缺陷,节约软件系统开发和维护成本,提高软件系统中数据要素的保密性、可用性和完整性. 随着大语言模型(large language model, LLM)技术的发展,涌现出许多能力强大的代码大语言模型,并且代码大语言模型在APR领域的应用中表现出了强大的修复能力,弥补了传统方案对于代码理解能力、补丁生成能力方面的不足,进一步提高了代码修复工具的水平. 在综述中,全面调研分析了近年APR相关的高水平论文,总结了APR领域的最新发展,系统归纳了完形填空模式和神经机器翻译模式2类基于LLM的APR技术,并从模型类型、模型规模、修复的缺陷类型、修复的编程语言和修复方案优缺点等角度进行全方位的对比与研讨. 同时,对APR数据集和评价APR修复能力的指标进行了梳理和分析,并且对现有的实证研究展开深入探讨. 最后,分析了当前APR领域存在的挑战及未来的研究方向.
基于知识的神经对话研究常常面临外部知识包含冗余甚至与对话主题不相关信息的问题,从而导致对话系统性能下降. 知识选择成为解决该问题的重要途径,但现有研究对诸如知识选择器的设计、选择出的知识的利用以及知识选择对话方法适用的场景等问题,还缺乏深入研究. 针对这些问题,提出了一个新的基于变分注意力知识选择和预训练模型的神经对话方法,使用一个基于条件变分自编码和多层注意力机制的知识选择算法,自动选择出与当前对话最相关文本知识集合. 该算法有效利用了训练数据中的对话回复来提高知识选择的效率. 使用预训练语言模型Bart作为编码器-解码器架构,将选择的文本知识合并到Bart模型中,并在训练过程中对其进行微调. 实验结果表明,与现有的一些代表性研究方法相比,提出的模型能生成多样性和连贯性更好、准确率更高的对话回复.
瞬态执行攻击利用处理器优化措施绕过安全检查,进而通过隐蔽信道传输并窃取敏感信息. 其中,Meltdown和Spectre攻击尤为知名,波及包括Intel,ARM,AMD在内的主流商用处理器. 尽管处理器制造商已采取相应防御措施,但相关变种攻击仍不断被研究人员发现并公之于众. 为深化对瞬态执行攻击的理解并实施有效防御,对各种隐蔽信道下的瞬态执行攻击进行了剖析. 首先,提炼出了瞬态执行攻击的共同特征,并系统性构建了全新的瞬态执行攻击模型. 其次,总结了现有研究中涉及的各类隐蔽信道,将瞬态执行攻击归纳总结为3类:乱序执行驱动的熔断型攻击、错误分支预测驱动的幽灵型攻击以及错误数据预测驱动的数据采样型攻击,并梳理了各类型攻击的核心要点及关联性. 其中,首次对数据采样型攻击进行了系统性归纳和整理. 接着,从隐蔽信道利用、攻击适用场景和微架构通用性3个维度分析和评估了各攻击变种的能力. 最后,结合上述针对处理器微架构和隐蔽信道的深入分析与总结,展望了瞬态执行攻击研究的未来研究方向,以期为后续研究工作提供有力支撑.