• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

2024年  第61卷  第6期

栏目
处理器芯片跨层优化专题
摘要:

微架构设计是处理器开发的关键阶段,处在整个设计流程的上游,直接影响性能、功耗、成本等核心设计指标. 在过去的数十年中,新的微架构设计方案,结合半导体制造工艺的进步,使得新一代处理器能够实现更高的性能和更低的功耗、成本. 然而,随着集成电路发展至“后摩尔时代”,半导体工艺演进所带来的红利愈发有限,功耗问题已成为高能效处理器设计的主要挑战. 与此同时,现代处理器的架构愈发复杂、设计空间愈发庞大,设计人员期望进行快速精确的指标权衡以获得更理想的微架构设计. 此外,现有的层层分解的设计流程极为漫长耗时,已经难以实现全局能效最优. 因此,如何在微架构设计阶段进行精确高效的前瞻性功耗估计和探索优化成为关键问题. 为了应对这些挑战,机器学习技术被引入到微架构设计流程中,为处理器的微架构建模和优化提供了高质量方案. 首先介绍了处理器的主要设计流程、微架构设计及其面临的挑战,然后阐述了机器学习辅助集成电路设计,重点在于使用机器学习技术辅助微架构功耗建模和设计空间探索的研究进展,最后进行总结展望.

摘要:

容错深度学习加速器是保障高可靠深度学习的基石,也是深度学习应用于安全关键领域如宇航、机器人等面临的一个关键环节. 然而,深度学习计算和访存都非常密集,传统基于冗余计算的容错方法直接应用于深度学习加速器的容错设计会导致严重的功耗、芯片面积等硬件资源开销. 为此,从神经元计算任务和神经元的数据位宽2个维度挖掘深度学习模型对于故障的敏感度差异,并利用这些差异从架构和电路层分别对于敏感的部分提供更多的保护以降低容错代价. 同时,利用深度学习自身的容错特性,通过限制量化缩小电路层需要保护的电路逻辑规模. 最后,利用贝叶斯优化协同优化算法、架构和电路的跨层设计参数,在保障深度学习可靠性、精度以及性能的前提下,最小化硬件资源开销.

摘要:

人工智能大模型应用的爆发式增长,使得难以依靠单一节点、单一类型的算力实现应用的规模部署,分布式异构计算成为主流选择,而节点间通信成为大模型训练或推理过程中的主要瓶颈之一. 目前,主要由GPU,FPGA等头部芯片厂商所主导的各种计算架构的节点间通信方案还存在一些问题. 一方面,为了追求极致的节点间通信性能,一部分架构选择使用协议简单而可扩展性差的点对点传输方案. 另一方面,传统的异构计算引擎(例如GPU)虽然在内存、计算管线等算力要素方面独立于CPU,但在通信要素方面却缺少专属的网络通信设备,需要完全或部分借助于CPU通过PCIe等物理链路来处理异构计算引擎与共享网络通信设备之间的通信. 所实现的Direct xPU分布式异构计算架构,使得异构计算引擎在算力要素和通信要素两方面均具有独立的、专属的设备,实现了数据的零拷贝,并进一步消除了节点间通信过程中处理跨芯片传输数据所带来的能耗和延迟. 测试结果表明,Direct xPU取得了与追求极致的节点间通信性能的计算架构相当的通信延迟,带宽接近物理通信带宽的上限.

摘要:

图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用. 当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台. 但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战. 为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果. 为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战. 然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等. 最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发.

摘要:

提升处理器核的频率是提升处理器性能的重要手段. 传统的物理设计流程难以实现高主频的处理器核. 基于业界主流的布局布线工具,通过嵌入手工定制部件的网表、逻辑和物理设计协同优化、优化定制布线规则、优化物理设计方法学等组合策略. 在相同工艺、面积、功耗对等条件下,达到流片签核要求时,自研处理器核物理设计频率比原始设计可提升约30%.

摘要:

功能验证在处理器芯片开发流程中所占用的时间超过70%,因此优化提升功能验证环节的效率非常必要. 软件仿真等传统验证方法提供了包括断言等多种验证机制,以提升验证的细粒度可见性和自检查能力,但是软件仿真运行速度较慢,在高效性方面有明显不足. 基于FPGA的硬件原型验证方法能极大地加速验证性能,但其调试能力较弱,虽能快速发现漏洞,但难以定位漏洞出现的具体位置和根本原因,存在有效性不足难题. 为同时解决上述功能验证有效性与高效性的问题,提出一种将不可综合的断言语言SVA(SystemVerilog Assertion)自动转换成逻辑等效但可综合的RTL电路的方法,聚焦于断言这一类对设计进行非全局建模、纵向贯穿各抽象层级的验证方式,对基于全局指令集架构(instruction set architecture, ISA)模型的验证能力进行补足. 同时,结合FPGA细粒度并行化、高度可扩展的优势,对处理器的验证过程进行硬件加速,提升了处理器的开发效率. 实现了一个端到端的硬件断言平台,集成对SVA进行硬件化的完整工具链,并统计运行在FPGA上的硬件化断言的触发和覆盖率情况. 实验表明,和软件仿真相比,所提方法能取得超过2万倍的验证效率提升.

摘要:

密码技术是现代信息安全技术产业发展的核心,其中,国密SM4分组密码算法因其硬件实现简单、效率高等优点,已广泛应用于加密传输、加密存储等领域. 随着应用领域的不断扩展,对硬件加密效率的需求也随之提高. 目前,借助流水线技术,基于ASIC实现的SM4算法在ECB(electronic code book)工作模式下能够达到较高的吞吐量. 然而,在CBC(cipher block chaining)模式下,由于相邻的数据存在依赖关系,流水线技术难以提高硬件设计的吞吐率. 为解决这一问题,提出了2种逻辑化简方法:一种作用于轮函数迭代过程,另一种作用于S盒置换过程. 这2种方法在每一轮迭代的关键路径中均减少了2个异或运算的延时. 在TSMC 40 nm工艺下的ASIC综合结果表明,该设计在CBC模式下的吞吐率达到4.2 Gb/s,单位面积吞吐量达129.4 Gb·s−1·mm−2,高于已发表的同类设计.

摘要:

开源RISC-V指令集为我国建立自主可控物联网生态提供了重大机遇. 然而,物联网设备通常缺乏硬件加固措施,容易遭受物理级的固件篡改攻击,因此保障固件完整性以提高设备安全性至关重要. 为此,已有基于安全启动技术的初步探索,但仍存在3个问题:1)传统软件信任根难以保证物理级可靠性;2)主流硬件级安全启动技术被国际芯片厂商掌握,技术未公开且不支持国密算法,无法保证安全自主可控;3)已有基于RISC-V CPU的安全启动研究缺乏对上层固件的校验机制. 为解决上述3个问题,首次设计并实现基于国密SM9算法的RISC-V安全启动机制——SeChain. 具体而言:1)在RISC-V SoC内部增加了签名计算单元(signature calculation unit,SCU),实现密钥对生成与签名;2)增加了密钥验证单元(key verification unit,KVU),实现验证算法的片内执行及固件完整性验证;3)设计实现基于验证引导的多级安全启动机制,从不可篡改的硬件信任根出发,逐级完成引导程序的完整性校验. 基于上述设计,SeChain实现了信任根的不可篡改和安全可信,构造了一个可信的安全启动链,基于国密SM9算法为设备的安全启动和可信执行提供可靠保障. 为了验证SeChain的有效性、高效性和可靠性,基于VexRiscv CPU在FPGA 硬件平台完成了SeChain仿真验证实验. 实验结果表明,SeChain能够有效抵御各类固件篡改攻击,并能对抗信任根攻击,且平均额外时间开销不超过6.47 s. SeChain适用于资源受限的IoT设备,在满足安全可信启动的同时,能为国产RISC-V生态的安全自主可控提供有力保障.

人工智能
摘要:

随着深度学习技术的发展与应用,特别是资源受限场景和数据安全场景对序列任务和数据进行快速学习需求的增多,持续学习逐渐成为机器学习领域关注的一个新热点. 不同于人类所具备的持续学习和迁移知识的能力,现有深度学习模型在序列学习过程中容易遭受灾难性遗忘的问题. 因此,如何在动态、非平稳的序列任务及流式数据中不断学习新知识、同时保留旧知识是持续学习研究的核心. 首先,通过对近年来持续学习国内外相关工作的调研与总结,将持续学习方法分为基于回放、基于约束、基于结构三大类,并对这3类方法做进一步的细分. 具体而言,根据所使用的样本来源将基于回放的方法细分为采样回放、生成回放、伪样本回放3类;根据训练约束的来源将基于约束的方法细分为参数约束、梯度约束、数据约束3类;根据对于模型结构的使用方式将基于结构的方法细分为参数隔离、模型拓展2类. 通过对比相关工作的创新点,对各类方法的优缺点进行总结. 其次,对国内外研究现状进行分析. 最后,针对持续学习与其他领域相结合的未来发展方向进行展望.

摘要:

大数据时代,越来越多的数据以数据流的形式产生,由于其具有快速、无限、不稳定及动态变化等特性,使得概念漂移成为流数据挖掘中一个重要但困难的问题. 目前多数概念漂移处理方法存在信息提取能力有限且未充分考虑流数据的时序特性等问题. 针对这些问题,提出一种基于混合特征提取的流数据概念漂移处理方法(concept drift processing method of streaming data based on mixed feature extraction,MFECD). 该方法首先采用不同尺度的卷积核对数据进行建模以构建拼接特征,采用门控机制将浅层输入和拼接特征融合,作为不同网络层次输入进行自适应集成,以获得能够兼顾细节信息和语义信息的数据特性. 在此基础上,采用注意力机制和相似度计算评估流数据不同时刻的重要性,以增强数据流关键位点的时序特性. 实验结果表明,该方法能有效提取流数据中包含的复杂数据特征和时序特征,提高了数据流中概念漂移的处理能力.

摘要:

鉴于对比学习在下游任务中的优异表现,对比聚类的研究受到广泛关注. 但是,大部分方法只采用一类简单的数据增强技术,尽管增强后的视图保留了原始样本的大部分特征信息,但也继承了语义信息和非语义信息相融交织的特性,在相似或相同的视图模式下,该特性限制了模型对语义信息的学习. 有些方法直接将来源于同一样本的具有相同视图模式的2个数据增强视图组成正样本对,导致样本对语义性不足. 为解决上述问题,提出基于联合数据增强的语义对比聚类方法,基于一强一弱2类数据增强,利用视图间的差异降低非语义信息的干扰,增强模型对语义信息的感知能力. 此外,基于全局k近邻图引入全局类别信息,由同一类的不同样本形成正样本对. 在6个通用的挑战性数据集上的实验结果表明该方法取得了最优的聚类性能,证实了所提方法的有效性和优越性.

网络与信息安全
摘要:

基于属性基加密的访问控制协议在个人健康档案共享中发挥着越来越重要的作用. 但传统的基于密文策略属性基加密的访问控制方案存在着些许问题. 首先,中心化的属性授权机构的抗风险能力低. 其次,随密文发送未隐藏的访问策略可能会泄露患者的隐私. 此外,传统方案难以追踪恶意泄露密钥的用户. 为解决上述问题,提出一种适用于mHealth中细粒度策略隐藏和可追踪去中心访问控制方案. 实现了去中心化的属性授权机构. 属性由属性名称和属性值2部分构成,在加密阶段属性值隐藏在密文中,只对外公开通用的属性名称. 当密钥遭到恶意泄露时,监管机构利用身份映射表可以追踪到恶意的用户. 经过实验模拟和对比分析,所提方案在安全性方面和性能上适用于实际的mHealth环境.

摘要:

密文可逆信息隐藏技术可以在加密载体中利用冗余空间额外嵌入信息,在传输过程中保障载体和信息的隐私安全,载体接收者还可以实现无损地提取信息和恢复载体.3维网格模型作为新型的数字媒体,其文件结构与传统的图像等数字媒体存在着不同,并且在该领域的研究相对较少. 如何提升模型的嵌入容量是目前需要解决的问题. 将图像领域多个高有效位预测算法直接迁移到3维模型中应用时,由于数据的存储格式与图像媒体不同,使得算法的预测性能受到了限制. 因此,提出了将顶点坐标值标准化处理,消除符号位带来的影响,提升了预测算法的性能. 为了进一步减少无用的辅助信息,嵌入集顶点的筛选被加入实验中,成功地为有效载荷腾出空间. 实验表明,提出的方法与现有方法相比,在保证无损和可分离地恢复模型与所嵌入的信息的同时,获得了最高的嵌入容量.

摘要:

对称可搜索加密(searchable symmetric encryption,SSE)因其较高的搜索效率得到了人们的广泛关注. 支持连接查询的对称可搜索加密方案可以提高方案的功能性. 然而现有大部分连接查询方案不支持对加密数据库的动态更新操作,结合静态对称隐藏向量加密(symmetric hidden vectors encryption, SHVE)的定义,提出支持动态数据更新的动态对称隐藏向量加密(dynamic SHVE,DSHVE)的定义,并在此定义下构造了一种适用于可搜索加密应用场景的DSHVE方案. 在此基础上,通过引入基于盲指数计算的不经意动态交叉标签,设计具有前向和后向隐私的向量数据存取结构,构造了支持连接查询的动态对称可搜索加密方案,给出了方案的详细工作过程和正式的安全性分析. 理论分析和实验结果表明,连接查询时,该方案能够在不明显增加存储和计算开销的前提下,有效避免泄露匹配文档索引之外的结果特征. 同时该方案能够仅通过单轮通信实现连接查询,具有较低的通信开销和较高的搜索效率.

摘要:

现有区块链呈现出多链趋势,传统共识算法不具备面向多链的动态扩展性,难以应对大规模联盟链开放使用与封闭运维的矛盾. 对此,提出了一种新颖的多链共识方法MC-RHotStuff:节点划分不同的角色,分为待准入节点、备选节点、共识节点,每条工作链都拥有共识节点和备选节点,待准入节点完成准入验证后将成为备选节点;共识节点拥有其他节点不具备的信誉值,做出正确行为的共识节点将提高信誉值,做出错误行为的共识节点将扣除信誉值,通过节点信誉计算及筛选算法MC-Scan来寻找信誉值异常的节点,并从备选节点中选择新的共识节点与异常节点交换. 此外,还提出了节点动态调整算法MC-Schedule,通过检测每条区块链的交易量从而动态地调整共识节点的数量来达到最优化,既保证区块链系统的高效执行,又提高了节点筛选的速度. 为保证当节点数量变化或共识群组成员发生变化时,共识机制能够正常运转,提出了节点状态同步机制MC-Syn.对此进行了大量的实验来验证MC-RHotStuff性能,与现有系统相比,其交易吞吐量和延迟综合提升约15%.

摘要:

较低的网络服务响应时间对提升用户体验至关重要. 以搜索引擎这一典型的网络服务场景为例,服务提供商应确保网络服务(搜索)响应时间在1 s以内. 在实践中,服务响应时间会受到用户浏览器、运营商、页面加载方式等诸多服务属性的影响. 为了进行针对性的优化,服务提供商需要找出使服务响应时间过长的规则,即一些属性的组合. 然而现有研究工作遇到了3方面挑战:1)搜索日志数据量大;2)搜索日志数据分布不平衡;3)要求泛化度高的规则. 因此设计了Miner(multi-dimensional extraction of rules),一种新型服务响应时间异常诊断框架. Miner使用自步采样机制应对第1个挑战和第2个挑战. 针对第3个挑战,Miner使用Corels算法挖掘出泛化率高且召回率高的规则. 使用2家国内顶级搜索引擎服务提供商的响应时间日志数据评估了Miner性能,结果显示Miner的泛化率和召回率均高于现有方法,并证明了Miner挖掘出的规则可被运维人员采纳并做针对性的优化.

图形图像
摘要:

遥感影像是目前可以大范围获取海洋、大气和地球表面信息的数据资源,在农业、军事和城市规划等各个领域发挥重要作用. 但是在影像观测过程中会受到云雾等污染因素的影响,导致遥感影像信息缺失,在实际应用中造成巨大的资源损失和浪费. 因此,如何对遥感影像云雾覆盖区域进行检测并对其进行校正和修复是国内外专家广泛关注的具有挑战性的难点问题. 全面综述其研究进展,总结了现有遥感影像云层检测和去除的挑战;根据是否利用深度学习技术将云检测方法分为2大类,根据是否利用辅助影像将云去除方法分为3大类,依照不同方法特性系统分析和对比了其基本原理和优缺点;基于上述总结在2组遥感影像公开数据集上分别对4种云检测、4种薄云去除和4种厚云去除方法进行了性能评测;最后讨论了本领域目前仍存在的问题,对未来研究方向进行了预测,希望能够对该领域研究人员提供有价值的参考.