Please wait a minute...
ISSN 1000-1239 CN 11-1777/TP

当期目录

2021年 第58卷 第6期    出版日期:2021-06-01
系统结构
计算机芯片关键技术前沿与进展专题前言
刘志勇, 窦勇
2021, 58(6):  1129-1130.  doi:10.7544/issn1000-1239.2021.qy0601
摘要 ( 240 )   HTML ( 4)   PDF (215KB) ( 255 )  
相关文章 | 计量指标
“计算机体系结构前沿技术2021”专题———“计算机芯片关键技术前沿与进展”,集中介绍计算机芯片设计、测试、验证方面的新理论、新技术,以及新型部件和新型芯片系统.本专题包括关于处理器芯片敏捷设计和类脑计算的2篇特邀论文、 5篇普通投稿论文和4篇介绍国产自主芯片的短文.
处理器芯片敏捷设计方法:问题与挑战
包云岗, 常轶松, 韩银和, 黄立波, 李华伟, 梁云, 罗国杰, 尚笠, 唐丹, 王颖, 解壁伟, 喻文健, 张科, 孙凝晖
2021, 58(6):  1131-1145.  doi:10.7544/issn1000-1239.2021.20210232
摘要 ( 402 )   HTML ( 5)   PDF (2065KB) ( 476 )  
相关文章 | 计量指标
现有处理器芯片设计主要使用性能导向的设计方法,基于多步骤反复迭代的EDA技术进行性能-面积-功耗综合优化,导致极高的研发成本、周期及技术门槛.借鉴面向对象软件设计思想,以敏捷度(开发周期、开发成本和复杂度)为新的导向指标,在兼顾性能和可靠性的前提下,提出以面向对象体系结构(object-oriented architecture, OOA)设计范式为基础的处理器敏捷设计方法.OOA设计方法旨在通过设计范式、语言与EDA工具,实现通用处理器CPU和专用处理器XPU体系结构细粒度对象的易分解、易组合和易扩展.详细梳理了OOA各技术领域的研究现状,并深入探讨了现有处理器设计方法向OOA设计目标转化存在的诸多挑战.
实现软硬件解耦合的类脑计算硬件设计方法
渠鹏, 陈嘉杰, 张悠慧, 郑纬民
2021, 58(6):  1146-1154.  doi:10.7544/issn1000-1239.2021.20210170
摘要 ( 259 )   HTML ( 2)   PDF (1130KB) ( 232 )  
相关文章 | 计量指标
类脑计算是一个涉及到多领域、多学科的新兴领域,对计算神经科学、人工智能和新型体系结构设计都具有重要的支持和启发意义.但是类脑计算系统领域发展所面临的重要问题之一是软硬件紧耦合.近期的一项研究提出了神经形态完备性的概念,为实现类脑计算系统领域的软硬件解耦合提供了理论支持,并作为样例研究提出了对应的系统层次结构设计.作为这一工作的后续,首先对神经形态完备性和类脑计算层次结构中部分关键的概念进行了阐述与讨论,之后进一步提出了在这一概念和体系结构设计下,实现支持软硬件解耦合的类脑计算硬件设计方法的构想,即由执行原语集合设计以及硬件实现方法设计组成的迭代调整的设计流程.最后,展示了正在进行的基于FPGA的相应评估平台工作.这一硬件设计方法有助于实现神经形态完备的高效原语集合和芯片设计,从而有利于实现类脑计算系统领域的软硬件解耦合.
高性能众核处理器申威26010
胡向东, 柯希明, 尹飞, 张新, 马永飞, 颜世云, 马超
2021, 58(6):  1155-1165.  doi:10.7544/issn1000-1239.2021.20201041
摘要 ( 288 )   HTML ( 0)   PDF (1621KB) ( 273 )  
相关文章 | 计量指标
申威26010高性能众核处理器在多核处理器申威1600基础上,采用片上系统(system on chip, SoC)技术,在单芯片内集成4个运算控制核心和256个运算核心,采用自主设计的64位申威RISC(reduced instruction set computer)指令系统,支持256位SIMD(single instruction multiple data)整数和浮点向量加速运算,单芯片双精度浮点峰值性能达3.168TFLOPS.申威26010处理器基于28nm工艺流片,芯片die面积超过500mm\+2,芯片260个核心稳定运行频率达1.5GHz.申威26010处理器从结构级、微结构级到电路级,综合采用多种低功耗设计技术,峰值能效比达10.559GFLOPS/W.芯片运行频率和能效比均超过同时期国际同类型处理器.申威26010通过在高频率设计、稳定可靠性设计和成品率设计等方面的技术创新,有效解决了芯片在实现高性能目标中所遇到的高频率目标、功耗墙、稳定可靠性和成品率等难题,成功大规模应用于国产10万万亿次超级计算机系统“神威·太湖之光”,有效满足了科学与工程应用的计算需求.
面向多核处理器的可配置缓存一致性协议设计与实现
陈志强, 周宏伟, 冯权友, 邓让钰
2021, 58(6):  1166-1175.  doi:10.7544/issn1000-1239.2021.20210174
摘要 ( 146 )   HTML ( 1)   PDF (1697KB) ( 252 )  
相关文章 | 计量指标
多核处理器需要维护缓存的一致性问题.基于目录的一致性协议具有较好的扩展性、较低的延迟,应用较多.分布式目录访问带宽高、目录查询速度快、物理实现灵活.分布式目录一致性协议设计复杂度高,验证困难,为了降低自主CPU研发和产业化的风险,提出了一种面向多核处理器的可配置分布式目录控制单元(configurable distribute directory unit, CDDU),通过微操作机制,实现动态配置缓存一致性协议.该设计增加了多核系统缓存一致性协议的灵活性与容错性,可以实现协议状态转换和协议流程的配置,能够解决由于一致性协议设计缺陷导致的功能故障,可以防止一致性协议设计不足引起的死锁.测试结果表明:设计方案展现了良好的可配置性、可扩展性,避免了死锁产生,代价是少量的性能损耗以及面积开销.主要思想在自主飞腾64核处理器中进行了实现,为确保处理器的协议正确性发挥了重要作用,同时在该芯片的多路扩展实现过程中提高了协议的鲁棒性,消除了潜在的死锁.
一种具有时间语义的实时处理器模型
汪超, 陈香兰, 章博, 李曦, 王超, 周学海
2021, 58(6):  1176-1191.  doi:10.7544/issn1000-1239.2021.20210157
摘要 ( 137 )   HTML ( 0)   PDF (1362KB) ( 109 )  
相关文章 | 计量指标
实时嵌入式系统是安全关键设备的计算与控制核心.为了保证系统的时间行为正确,要求其软硬件具有时序确定性和可预测性.而现代计算机系统的各个抽象层次均缺乏时间语义,无法满足硬实时安全性设计要求.针对指令集体系结构层次的基础设施缺乏时间语义的问题,尝试重新定义实时嵌入式系统的指令集和微体系结构.首先,提出一种具有时间语义的实时计算机体系结构模型——实时机(real-time machine, RTM).接着,参考时间触发自动机理论,构建具有时间语义的指令集——TTI(time-triggered instruction set)作为RTM的软硬件接口,并讨论TTI的时间语义完备性问题.最后,设计并实现了实时处理单元(real-time processing unit, RPU),通过理论分析与实验结果的对照得出RPU的时序确定性.逻辑执行时间(logical execution time, LET)编程模型是学术界广泛认可的实时编程范式,通过给出在RPU上运行LET任务集的示例,说明RTM和TTI的有效性.
一种高性能超长点数浮点FFT加速器设计
王谛, 石嵩, 吴铁彬, 刘亮, 谭弘兵, 郝子宇, 过锋, 李宏亮
2021, 58(6):  1192-1203.  doi:10.7544/issn1000-1239.2021.20210069
摘要 ( 101 )   HTML ( 0)   PDF (3006KB) ( 106 )  
相关文章 | 计量指标
快速傅里叶变换(fast Fourier transform, FFT)在数字信号处理中占据核心地位.随着高性能超长点数FFT需求的增长,数字信号处理器(digital signal processor, DSP)的计算能力越来越难以满足需求,集成FFT加速器成为重要的发展趋势.为了支持超长点数FFT,将2维分解算法推广到多维,提出一种可集成于DSP的高性能超长点数FFT加速器结构.该结构通过基于素数个存储体的无冲突体编址方法实现了3维转置运算;通过递推算法实现了高效铰链因子生成;使用单精度浮点二项融合点积运算和融合加-减运算,对FFT运算电路进行了精细化设计.实现了对4G点数单精度浮点FFT计算的支持.综合结果表明:FFT加速器运行频率能够达到1GHz以上,性能达到640Gflop/s.在支持的点数和性能方面都较已有研究成果取得大幅提升.
图神经网络加速结构综述
李涵, 严明玉, 吕征阳, 李文明, 叶笑春, 范东睿, 唐志敏
2021, 58(6):  1204-1229.  doi:10.7544/issn1000-1239.2021.20210166
摘要 ( 559 )   HTML ( 0)   PDF (3278KB) ( 604 )  
相关文章 | 计量指标
近年来,新兴的图神经网络因其强大的图学习和推理能力,得到学术界和工业界的广泛关注,被认为是推动人工智能领域迈入“认知智能”阶段的核心力量.图神经网络融合传统图计算和神经网络的执行过程,形成了不规则与规则的计算和访存行为共存的混合执行模式.传统处理器结构设计以及面向图计算和神经网络的加速结构不能同时应对2种对立的执行行为,无法满足图神经网络的加速需求.为解决上述问题,面向图神经网络应用的专用加速结构不断涌现,它们为图神经网络定制计算硬件单元和片上存储层次,优化计算和访存行为,取得了良好的加速效果.以图神经网络执行行为带来的加速结构设计挑战为出发点,从整体结构设计以及计算、片上访存、片外访存层次对该领域的关键优化技术进行详实而系统地分析与介绍.最后还从不同角度对图神经网络加速结构设计的未来方向进行了展望,期望能为该领域的研究人员带来一定的启发.
DMR: 兼容RISC-V架构的乱序超标量通用处理器核
孙彩霞, 郑重, 邓全, 隋兵才, 王永文, 倪晓强
2021, 58(6):  1230-1233.  doi:10.7544/issn1000-1239.2021.20210176
摘要 ( 135 )   HTML ( 1)   PDF (699KB) ( 118 )  
相关文章 | 计量指标
DMR是由国防科技大学计算机学院自研的一款兼容RISC-V架构的乱序超标量通用处理器核,支持用户态(user-mode)、特权态(supervisor-mode)和机器态(machine-mode)三种特权级模式,兼容RV64G指令集规范,并进行了自定义向量扩展,虚存系统支持Sv39和Sv48,物理地址为44b.DMR的单周期整数流水线为12级,指令乱序发射、顺序提交,指令发射宽度为4,实现了多个分布式调度队列,每拍最多可乱序调度9条指令执行.DMR采用覆盖率驱动的多层次、多平台的功能验证方法,已经在FPGA原型系统下成功启动Linux OS,CoreMark分数为5.12MHz,在14nm工艺下主频可达到2GHz.
一种自主设计的面向E级高性能计算的异构融合加速器
刘胜, 卢凯, 郭阳, 刘仲, 陈海燕, 雷元武, 孙海燕, 杨乾明, 陈小文, 陈胜刚, 刘必慰, 鲁建壮
2021, 58(6):  1234-1237.  doi:10.7544/issn1000-1239.2021.20210189
摘要 ( 148 )   HTML ( 0)   PDF (885KB) ( 150 )  
相关文章 | 计量指标
高性能计算(high performance computing, HPC)是推动科学技术发展的基础性领域之一,当前,作为超级计算机系统“下一个明珠”的E级高性能计算时代已经来临.面向E级高性能计算的加速器领域成为了全球高端芯片的竞技场.国际上,AMD、英伟达和英特尔公司已经占据这一领域多年.作为国内最早开始自主处理器设计的优势单位之一,国防科技大学一直以来都是高性能加速器领域强有力的竞争者.主要对国防科技大学自主设计的面向E级高性能计算的加速器芯片进行介绍,该芯片采用了CPU+GPDSP的异构融合架构,具备高性能、高效能和高可编程性的特点,有望成为新一代E级超算系统的核心计算芯片.
面向移动高端装备的银河衡芯敏捷交换芯片
杨惠, 李韬, 刘汝霖, 吕高锋, 孙志刚
2021, 58(6):  1238-1241.  doi:10.7544/issn1000-1239.2021.20210169
摘要 ( 139 )   HTML ( 0)   PDF (1772KB) ( 82 )  
相关文章 | 计量指标
面向为航空航天、舰船等移动高端装备提供受限条件下的高算力,嵌入式云、天基超算等集成多样化异构资源的集中式计算平台逐渐成为新一代高端装备电子信息系统的研究热点.现有商用以太网交换芯片面向数据中心、园区网等大规模高性能网络组网需求设计,难以满足移动高端装备集中式计算平台在能效、散热、业务优化等方面的敏捷交换需求.面向为移动高端装备中异构计算资源提供高能效、低功耗的敏捷连接能力,国防科技大学计算机学院提出了端到端敏捷交换解决方案,并自主研发了系列化银河衡芯敏捷交换芯片,是现有国产以太网交换芯片的有力补充.其中,YHHX-DS40嵌入式敏捷交换芯片面向数据流交换,集成4个万兆以太网接口和4个千兆以太网接口,支持应用层精细交换和异构资源统一连接,具有全线速交换能力,典型功耗仅为1.6W.
枫林一号:一款面向高端装备定制的低功耗时间敏感网络芯片
全巍, 付文文, 孙志刚, 李韬
2021, 58(6):  1242-1245.  doi:10.7544/issn1000-1239.2021.20210164
摘要 ( 121 )   HTML ( 1)   PDF (1631KB) ( 81 )  
相关文章 | 计量指标
时间敏感网络(time sensitive networking, TSN)作为一种可提供高带宽、高确定性传输服务的新型网络技术,近几年获得了国内外学术界和工业界的广泛关注与研究.然而,由于面向场景的TSN芯片定制困难,目前国内的TSN设备大多采用国外芯片或者基于国外核心IP通过FPGA实现,还没有全自主的TSN芯片可用于核心装备的网络升级换代.为此,OpenTSN项目组基于开源TSN芯片设计方法,面向高端装备的中小型数据交换网络需求,研制了一款低功耗的TSN芯片“枫林一号”.该芯片可提供亚微秒级时钟同步精度、单跳数据传输延迟(头进头出)和抖动保障能力,支持端、交换和交换端3种工作模式,功耗小于0.5W,可满足高端装备多样化的确定性组网需求.
网络技术
云网融合专题前言
崔来中, 李克秋, 徐恪.廖小飞
2021, 58(6):  1246-1247.  doi:10.7544/issn1000-1239.2021.qy0602
摘要 ( 91 )   HTML ( 0)   PDF (196KB) ( 92 )  
相关文章 | 计量指标
随着云计算的快速发展与5G时代的到来,网络业务的需求日益复杂化,如何满足工业互联网、 车联网等新型业务的需求,进而充分保障用户的性能体验?现有云计算与网络的架构相互独立, 无法协同应对未来应用的挑战,云网协同并走向深度融合是必然趋势, 也将助力互联网与我国新基建的发展.近年来,随着诸多新技术的诞生或成熟, 如SDN、虚拟网络、可编程网络、SDGWAN、分段路由及智能IP等,使得云网融合成为满足未来网络 应用需求的有效技术途径.
面向云网融合的数据中心能效评估方法
龙赛琴, 黄金娜, 李哲涛, 裴廷睿, 夏元清
2021, 58(6):  1248-1260.  doi:10.7544/issn1000-1239.2021.20201069
摘要 ( 107 )   HTML ( 0)   PDF (3412KB) ( 97 )  
相关文章 | 计量指标
云网融合的加速发展,既推动着数据中心规模快速增长,也带来了巨大的能源消耗.如何制定合理的数据中心能效评估标准已成为指导数据中心能效提升亟需解决的关键问题.针对单一指标很难全面衡量数据中心的能源效率,且不同的数据中心能效指标各有侧重,甚至互相矛盾的问题,提出了将多指标进行融合来综合评估数据中心的能效,采用了主客观结合的赋权方法,为不同的能效指标设置权重,设计了基于云模型的多指标融合评估策略,得到了更加科学、全面的数据中心能效评估结果.最后,利用灰色关联法分析了评估结果与各能效指标之间的关系,分析结果对数据中心能效的提升具有重要的指导意义.
一种减少网络振动的智能路由选择算法设计
邵天竺, 王晓亮, 陈文龙, 唐晓岚, 徐敏
2021, 58(6):  1261-1274.  doi:10.7544/issn1000-1239.2021.20201073
摘要 ( 122 )   HTML ( 0)   PDF (4082KB) ( 122 )  
相关文章 | 计量指标
近来,研究人员开始关注基于数据驱动的智能网络协议设计方法,以此取代依赖人类专家的传统协议设计方式.智能化路由技术也随之得到快速发展,但仍存在亟待解决的问题.研究了当前智能路由算法在路由更新过程中带来的大范围路由抖动以及转发效率下降问题.提出了一种路由抖动抑制的智能路由选择算法FSR(flap suppression routing),在追求全网链路负载均匀、转发资源高利用率的同时,寻求与现有路由策略最相似的更新方案,使得每个路由更新周期的路由抖动减小,缩短路由收敛时间,提升网络整体转发性能.实验表明:FSR算法能显著提升路由收敛速度,与对照算法相比提升约30%的网络吞吐量,同时降低路径长度和拥塞概率.
面向云网融合的细粒度多接入边缘计算架构
王璐, 张健浩, 王廷, 伍楷舜
2021, 58(6):  1275-1290.  doi:10.7544/issn1000-1239.2021.20201076
摘要 ( 123 )   HTML ( 0)   PDF (4662KB) ( 129 )  
相关文章 | 计量指标
随着智能终端设备的爆发式增长,多接入边缘计算(multi-access edge computing, MEC)成为支持多服务、多租户生态系统的关键技术之一.多接入边缘计算通过结合云端的移动计算技术和接入网的无线通信技术,实现了云端和网络的高效融合.然而,目前的边缘计算技术对于所有可能的资源(例如计算、通信、缓存)并没有细粒度的控制能力,因此并不能对延迟敏感的实时服务提供很好的支持.为了解决这个关键问题,设计了一种基于软件定义(software defined)的细粒度多接入边缘计算架构,可以对网络资源和计算资源进行细粒度的控制并进行协同管理,并设计了一种基于深度强化学习Q-Learning的两级资源分配策略,从而提供更有效的计算卸载和服务增强.大量的仿真实验证明了该架构的有效性.
系统结构
支持网络切片和绿色通信的软件定义虚拟化接入网
王廷, 刘刚
2021, 58(6):  1291-1306.  doi:10.7544/issn1000-1239.2021.20201079
摘要 ( 89 )   HTML ( 0)   PDF (5820KB) ( 86 )  
相关文章 | 计量指标
接入网络中存在大量不同的接入技术和海量的接入设备,导致运营复杂度和成本急剧增加,这迫使运营商亟待寻找一种有效的解决方案来提升收支比,以此实现可持续的商业模式.为了应对这些挑战,提出了一种基于软件定义网络(software defined networking, SDN)的新型接入网体系架构SDVAN,其可以提供具有高成本效益的网络管控机制,同时具备高扩展性并支持定制化.SDVAN将所有物理设备的控制平面抽象化集中化,并通过软件定义的方式实现对接入网的灵活定制.SDVAN节点的可编程性为不同的接入技术提供了弹性支持.此外,SDVAN还提供了一种高效的资源建模机制和网络抽象方法,实现了网络服务的自动化编排,并可基于信任级别来体现网络的可视性和可控性.最后,SDVAN实现了支持多租户和多版本网络设备的网络切片功能.实验结果证明了SDVAN方案在网络节能、资源利用率、成本等方面的有效性和实用性.
网络技术
基于预测的数据中心间混合流量调度算法
王然, 张宇超, 王文东, 徐恪, 崔来中
2021, 58(6):  1307-1317.  doi:10.7544/issn1000-1239.2021.20201087
摘要 ( 93 )   HTML ( 0)   PDF (1020KB) ( 118 )  
相关文章 | 计量指标
为解决在线流量和离线流量共用一个数据中心传输网络,且2种类型的流量在链路中的分配模式固定不变而导致的链路利用率低的问题,提出了一种基于在线流量预测的离线流量调度方式.首先使用结合了EWMA方法和贝叶斯拐点检测算法的Sliding-k算法对链路中需要优先保障的在线流量进行预测,使预测既能在网络环境突然变化时灵敏响应,又能在网络平稳时减少不必要的重调整.根据预测结果计算出离线流量的可用剩余空间,实现动态的带宽分配之后,使用能够同时考虑流量截止时间和流量大小2个维度的SEDF算法对离线流量进行调度.实验结果表明:Sliding-k能够同时满足网络突变和网络无变化情况下的预测需求,并且能够提高传统EWMA方法的准确率,它和SEDF的结合能够提高数据中心链路的利用率.
面向多边缘设备协作的任务卸载和服务缓存在线联合优化机制
张秋平, 孙胜, 刘敏, 李忠诚, 张曾琪
2021, 58(6):  1318-1339.  doi:10.7544/issn1000-1239.2021.20201088
摘要 ( 135 )   HTML ( 1)   PDF (3553KB) ( 153 )  
相关文章 | 计量指标
移动边缘计算通过在边缘设备上部署通信、计算、存储等资源,有效克服传统云计算存在的传输距离较长、响应时延过慢等问题,满足新兴的计算密集型和时延敏感型应用的服务需求.然而,移动边缘计算中存在边缘设备资源有限且多边缘设备间负载不均衡的问题.为了解决上述问题,多边缘设备协作成为一种必然趋势.然而,多边缘设备协作面临任务卸载与服务缓存相互耦合、边缘设备的任务负载及资源状态随时空双维变化等两大挑战,极大增加了求解难度.针对上述挑战,提出一种面向多边缘设备协作的任务卸载和服务缓存在线联合优化机制,将任务卸载和服务缓存联合优化问题解耦为服务缓存和任务卸载2个子问题.针对服务缓存子问题,提出基于情景感知组合多臂赌博机的协作服务缓存算法;针对任务卸载子问题,设计基于偏好的双边匹配算法.仿真实验表明所提算法能够有效降低任务整体执行时延,同时实现边缘设备间负载均衡.
信息安全
基于预测误差自适应编码的图像加密可逆数据隐藏
杨尧林, 和红杰, 陈帆, 原长琦
2021, 58(6):  1340-1350.  doi:10.7544/issn1000-1239.2021.20200172
摘要 ( 110 )   HTML ( 0)   PDF (3788KB) ( 498 )  
相关文章 | 计量指标
针对现有算法中加密图像存在安全隐患,及选用编码不佳导致图像压缩率较低的问题,提出了一种基于预测误差自适应编码的图像加密可逆数据隐藏算法.图像加密阶段,设计了一种基于误差维持的图像加密算法,首先对3×3的图像块做块间置乱和像素调制加密,然后根据图像块中心像素值将非中心像素分组置乱.数据嵌入阶段,根据图像自身预测误差分布自适应编码,使用编码表对像素进行标记分类后,将编码表与附加数据共同隐藏在加密图像中生成携密加密图像.实验结果表明:加密阶段分组置乱操作,使原始图像与加密图像中特征值差异块数增多,难以确定加密前后图像中各图像块间的对应关系,提高了加密图像的安全性,且图像整体的预测误差分布保持不变;相较于现有算法,平均嵌入率提高0.49bpp以上,且能无损提取附加数据、恢复原始图像.