ISSN 1000-1239 CN 11-1777/TP

    2021计算机芯片关键技术前沿与进展专题

    默认 最新文章 浏览次数
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 计算机芯片关键技术前沿与进展专题前言
    刘志勇, 窦勇
    计算机研究与发展    2021, 58 (6): 1129-1130.   doi: 10.7544/issn1000-1239.2021.qy0601
    摘要529)   HTML284)    PDF (215KB)(521)   
    “计算机体系结构前沿技术2021”专题———“计算机芯片关键技术前沿与进展”,集中介绍计算机芯片设计、测试、验证方面的新理论、新技术,以及新型部件和新型芯片系统.本专题包括关于处理器芯片敏捷设计和类脑计算的2篇特邀论文、 5篇普通投稿论文和4篇介绍国产自主芯片的短文.
    相关文章 | 计量指标
    2. 处理器芯片敏捷设计方法:问题与挑战
    包云岗, 常轶松, 韩银和, 黄立波, 李华伟, 梁云, 罗国杰, 尚笠, 唐丹, 王颖, 解壁伟, 喻文健, 张科, 孙凝晖
    计算机研究与发展    2021, 58 (6): 1131-1145.   doi: 10.7544/issn1000-1239.2021.20210232
    摘要863)   HTML43)    PDF (2065KB)(787)   
    现有处理器芯片设计主要使用性能导向的设计方法,基于多步骤反复迭代的EDA技术进行性能-面积-功耗综合优化,导致极高的研发成本、周期及技术门槛.借鉴面向对象软件设计思想,以敏捷度(开发周期、开发成本和复杂度)为新的导向指标,在兼顾性能和可靠性的前提下,提出以面向对象体系结构(object-oriented architecture, OOA)设计范式为基础的处理器敏捷设计方法.OOA设计方法旨在通过设计范式、语言与EDA工具,实现通用处理器CPU和专用处理器XPU体系结构细粒度对象的易分解、易组合和易扩展.详细梳理了OOA各技术领域的研究现状,并深入探讨了现有处理器设计方法向OOA设计目标转化存在的诸多挑战.
    相关文章 | 计量指标
    3. 实现软硬件解耦合的类脑计算硬件设计方法
    渠鹏, 陈嘉杰, 张悠慧, 郑纬民
    计算机研究与发展    2021, 58 (6): 1146-1154.   doi: 10.7544/issn1000-1239.2021.20210170
    摘要584)   HTML61)    PDF (1130KB)(446)   
    类脑计算是一个涉及到多领域、多学科的新兴领域,对计算神经科学、人工智能和新型体系结构设计都具有重要的支持和启发意义.但是类脑计算系统领域发展所面临的重要问题之一是软硬件紧耦合.近期的一项研究提出了神经形态完备性的概念,为实现类脑计算系统领域的软硬件解耦合提供了理论支持,并作为样例研究提出了对应的系统层次结构设计.作为这一工作的后续,首先对神经形态完备性和类脑计算层次结构中部分关键的概念进行了阐述与讨论,之后进一步提出了在这一概念和体系结构设计下,实现支持软硬件解耦合的类脑计算硬件设计方法的构想,即由执行原语集合设计以及硬件实现方法设计组成的迭代调整的设计流程.最后,展示了正在进行的基于FPGA的相应评估平台工作.这一硬件设计方法有助于实现神经形态完备的高效原语集合和芯片设计,从而有利于实现类脑计算系统领域的软硬件解耦合.
    相关文章 | 计量指标
    4. 高性能众核处理器申威26010
    胡向东, 柯希明, 尹飞, 张新, 马永飞, 颜世云, 马超
    计算机研究与发展    2021, 58 (6): 1155-1165.   doi: 10.7544/issn1000-1239.2021.20201041
    摘要1979)   HTML12)    PDF (1621KB)(538)   
    申威26010高性能众核处理器在多核处理器申威1600基础上,采用片上系统(system on chip, SoC)技术,在单芯片内集成4个运算控制核心和256个运算核心,采用自主设计的64位申威RISC(reduced instruction set computer)指令系统,支持256位SIMD(single instruction multiple data)整数和浮点向量加速运算,单芯片双精度浮点峰值性能达3.168TFLOPS.申威26010处理器基于28nm工艺流片,芯片die面积超过500mm\+2,芯片260个核心稳定运行频率达1.5GHz.申威26010处理器从结构级、微结构级到电路级,综合采用多种低功耗设计技术,峰值能效比达10.559GFLOPS/W.芯片运行频率和能效比均超过同时期国际同类型处理器.申威26010通过在高频率设计、稳定可靠性设计和成品率设计等方面的技术创新,有效解决了芯片在实现高性能目标中所遇到的高频率目标、功耗墙、稳定可靠性和成品率等难题,成功大规模应用于国产10万万亿次超级计算机系统“神威·太湖之光”,有效满足了科学与工程应用的计算需求.
    相关文章 | 计量指标
    5. 面向多核处理器的可配置缓存一致性协议设计与实现
    陈志强, 周宏伟, 冯权友, 邓让钰
    计算机研究与发展    2021, 58 (6): 1166-1175.   doi: 10.7544/issn1000-1239.2021.20210174
    摘要405)   HTML4)    PDF (1697KB)(384)   
    多核处理器需要维护缓存的一致性问题.基于目录的一致性协议具有较好的扩展性、较低的延迟,应用较多.分布式目录访问带宽高、目录查询速度快、物理实现灵活.分布式目录一致性协议设计复杂度高,验证困难,为了降低自主CPU研发和产业化的风险,提出了一种面向多核处理器的可配置分布式目录控制单元(configurable distribute directory unit, CDDU),通过微操作机制,实现动态配置缓存一致性协议.该设计增加了多核系统缓存一致性协议的灵活性与容错性,可以实现协议状态转换和协议流程的配置,能够解决由于一致性协议设计缺陷导致的功能故障,可以防止一致性协议设计不足引起的死锁.测试结果表明:设计方案展现了良好的可配置性、可扩展性,避免了死锁产生,代价是少量的性能损耗以及面积开销.主要思想在自主飞腾64核处理器中进行了实现,为确保处理器的协议正确性发挥了重要作用,同时在该芯片的多路扩展实现过程中提高了协议的鲁棒性,消除了潜在的死锁.
    相关文章 | 计量指标
    6. 一种具有时间语义的实时处理器模型
    汪超, 陈香兰, 章博, 李曦, 王超, 周学海
    计算机研究与发展    2021, 58 (6): 1176-1191.   doi: 10.7544/issn1000-1239.2021.20210157
    摘要364)   HTML1)    PDF (1362KB)(237)   
    实时嵌入式系统是安全关键设备的计算与控制核心.为了保证系统的时间行为正确,要求其软硬件具有时序确定性和可预测性.而现代计算机系统的各个抽象层次均缺乏时间语义,无法满足硬实时安全性设计要求.针对指令集体系结构层次的基础设施缺乏时间语义的问题,尝试重新定义实时嵌入式系统的指令集和微体系结构.首先,提出一种具有时间语义的实时计算机体系结构模型——实时机(real-time machine, RTM).接着,参考时间触发自动机理论,构建具有时间语义的指令集——TTI(time-triggered instruction set)作为RTM的软硬件接口,并讨论TTI的时间语义完备性问题.最后,设计并实现了实时处理单元(real-time processing unit, RPU),通过理论分析与实验结果的对照得出RPU的时序确定性.逻辑执行时间(logical execution time, LET)编程模型是学术界广泛认可的实时编程范式,通过给出在RPU上运行LET任务集的示例,说明RTM和TTI的有效性.
    相关文章 | 计量指标
    7. 一种高性能超长点数浮点FFT加速器设计
    王谛, 石嵩, 吴铁彬, 刘亮, 谭弘兵, 郝子宇, 过锋, 李宏亮
    计算机研究与发展    2021, 58 (6): 1192-1203.   doi: 10.7544/issn1000-1239.2021.20210069
    摘要354)   HTML3)    PDF (3006KB)(224)   
    快速傅里叶变换(fast Fourier transform, FFT)在数字信号处理中占据核心地位.随着高性能超长点数FFT需求的增长,数字信号处理器(digital signal processor, DSP)的计算能力越来越难以满足需求,集成FFT加速器成为重要的发展趋势.为了支持超长点数FFT,将2维分解算法推广到多维,提出一种可集成于DSP的高性能超长点数FFT加速器结构.该结构通过基于素数个存储体的无冲突体编址方法实现了3维转置运算;通过递推算法实现了高效铰链因子生成;使用单精度浮点二项融合点积运算和融合加-减运算,对FFT运算电路进行了精细化设计.实现了对4G点数单精度浮点FFT计算的支持.综合结果表明:FFT加速器运行频率能够达到1GHz以上,性能达到640Gflop/s.在支持的点数和性能方面都较已有研究成果取得大幅提升.
    相关文章 | 计量指标
    8. 图神经网络加速结构综述
    李涵, 严明玉, 吕征阳, 李文明, 叶笑春, 范东睿, 唐志敏
    计算机研究与发展    2021, 58 (6): 1204-1229.   doi: 10.7544/issn1000-1239.2021.20210166
    摘要1412)   HTML66)    PDF (3278KB)(1380)   
    近年来,新兴的图神经网络因其强大的图学习和推理能力,得到学术界和工业界的广泛关注,被认为是推动人工智能领域迈入“认知智能”阶段的核心力量.图神经网络融合传统图计算和神经网络的执行过程,形成了不规则与规则的计算和访存行为共存的混合执行模式.传统处理器结构设计以及面向图计算和神经网络的加速结构不能同时应对2种对立的执行行为,无法满足图神经网络的加速需求.为解决上述问题,面向图神经网络应用的专用加速结构不断涌现,它们为图神经网络定制计算硬件单元和片上存储层次,优化计算和访存行为,取得了良好的加速效果.以图神经网络执行行为带来的加速结构设计挑战为出发点,从整体结构设计以及计算、片上访存、片外访存层次对该领域的关键优化技术进行详实而系统地分析与介绍.最后还从不同角度对图神经网络加速结构设计的未来方向进行了展望,期望能为该领域的研究人员带来一定的启发.
    相关文章 | 计量指标
    9. DMR: 兼容RISC-V架构的乱序超标量通用处理器核
    孙彩霞, 郑重, 邓全, 隋兵才, 王永文, 倪晓强
    计算机研究与发展    2021, 58 (6): 1230-1233.   doi: 10.7544/issn1000-1239.2021.20210176
    摘要440)   HTML3)    PDF (699KB)(268)   
    DMR是由国防科技大学计算机学院自研的一款兼容RISC-V架构的乱序超标量通用处理器核,支持用户态(user-mode)、特权态(supervisor-mode)和机器态(machine-mode)三种特权级模式,兼容RV64G指令集规范,并进行了自定义向量扩展,虚存系统支持Sv39和Sv48,物理地址为44b.DMR的单周期整数流水线为12级,指令乱序发射、顺序提交,指令发射宽度为4,实现了多个分布式调度队列,每拍最多可乱序调度9条指令执行.DMR采用覆盖率驱动的多层次、多平台的功能验证方法,已经在FPGA原型系统下成功启动Linux OS,CoreMark分数为5.12MHz,在14nm工艺下主频可达到2GHz.
    相关文章 | 计量指标
    10. 一种自主设计的面向E级高性能计算的异构融合加速器
    刘胜, 卢凯, 郭阳, 刘仲, 陈海燕, 雷元武, 孙海燕, 杨乾明, 陈小文, 陈胜刚, 刘必慰, 鲁建壮
    计算机研究与发展    2021, 58 (6): 1234-1237.   doi: 10.7544/issn1000-1239.2021.20210189
    摘要599)   HTML5)    PDF (885KB)(413)   
    高性能计算(high performance computing, HPC)是推动科学技术发展的基础性领域之一,当前,作为超级计算机系统“下一个明珠”的E级高性能计算时代已经来临.面向E级高性能计算的加速器领域成为了全球高端芯片的竞技场.国际上,AMD、英伟达和英特尔公司已经占据这一领域多年.作为国内最早开始自主处理器设计的优势单位之一,国防科技大学一直以来都是高性能加速器领域强有力的竞争者.主要对国防科技大学自主设计的面向E级高性能计算的加速器芯片进行介绍,该芯片采用了CPU+GPDSP的异构融合架构,具备高性能、高效能和高可编程性的特点,有望成为新一代E级超算系统的核心计算芯片.
    相关文章 | 计量指标
    11. 面向移动高端装备的银河衡芯敏捷交换芯片
    杨惠, 李韬, 刘汝霖, 吕高锋, 孙志刚
    计算机研究与发展    2021, 58 (6): 1238-1241.   doi: 10.7544/issn1000-1239.2021.20210169
    摘要396)   HTML1)    PDF (1772KB)(161)   
    面向为航空航天、舰船等移动高端装备提供受限条件下的高算力,嵌入式云、天基超算等集成多样化异构资源的集中式计算平台逐渐成为新一代高端装备电子信息系统的研究热点.现有商用以太网交换芯片面向数据中心、园区网等大规模高性能网络组网需求设计,难以满足移动高端装备集中式计算平台在能效、散热、业务优化等方面的敏捷交换需求.面向为移动高端装备中异构计算资源提供高能效、低功耗的敏捷连接能力,国防科技大学计算机学院提出了端到端敏捷交换解决方案,并自主研发了系列化银河衡芯敏捷交换芯片,是现有国产以太网交换芯片的有力补充.其中,YHHX-DS40嵌入式敏捷交换芯片面向数据流交换,集成4个万兆以太网接口和4个千兆以太网接口,支持应用层精细交换和异构资源统一连接,具有全线速交换能力,典型功耗仅为1.6W.
    相关文章 | 计量指标
    12. 枫林一号:一款面向高端装备定制的低功耗时间敏感网络芯片
    全巍, 付文文, 孙志刚, 李韬
    计算机研究与发展    2021, 58 (6): 1242-1245.   doi: 10.7544/issn1000-1239.2021.20210164
    摘要441)   HTML5)    PDF (1631KB)(206)   
    时间敏感网络(time sensitive networking, TSN)作为一种可提供高带宽、高确定性传输服务的新型网络技术,近几年获得了国内外学术界和工业界的广泛关注与研究.然而,由于面向场景的TSN芯片定制困难,目前国内的TSN设备大多采用国外芯片或者基于国外核心IP通过FPGA实现,还没有全自主的TSN芯片可用于核心装备的网络升级换代.为此,OpenTSN项目组基于开源TSN芯片设计方法,面向高端装备的中小型数据交换网络需求,研制了一款低功耗的TSN芯片“枫林一号”.该芯片可提供亚微秒级时钟同步精度、单跳数据传输延迟(头进头出)和抖动保障能力,支持端、交换和交换端3种工作模式,功耗小于0.5W,可满足高端装备多样化的确定性组网需求.
    相关文章 | 计量指标