ISSN 1000-1239 CN 11-1777/TP

    2020计算机体系结构前沿技术专题

    默认 最新文章 浏览次数
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 计算机体系结构前沿技术2020专题前言
    刘志勇, 窦勇
    计算机研究与发展    2020, 57 (6): 1123-1124.   doi: 10.7544/issn1000-1239.2020.qy0601
    摘要884)   HTML73)    PDF (209KB)(525)   
    我们高兴地向读者推出本刊“计算机体系结构前沿技术”专题!本专题收录的6篇文章既包含不同技术领域和方向的综述,也包含了具体技术的发明和介绍.
    相关文章 | 计量指标
    2. 一种基于强化学习的混合缓存能耗优化与评价
    范浩, 徐光平, 薛彦兵, 高赞, 张桦
    计算机研究与发展    2020, 57 (6): 1125-1139.   doi: 10.7544/issn1000-1239.2020.20200010
    摘要758)   HTML19)    PDF (3887KB)(502)   
    新兴的非易失存储器STT-RAM具有低泄漏功率、高密度和快速读取速度、高写入能量等特点;而SRAM具有高泄漏功率、低密度、快速读取写入速度、低写入能量等特点.SRAM和STT-RAM相结合组成的混合缓存充分发挥了两者的性能,提供了比SRAM更低的泄漏功率和更高的单元密度,比STT-RAM更高的写入速度和更低的写入能量.混合缓存结构主要是通过把写密集数据放入SRAM中、读密集型数据放入STT-RAM中发挥这2种存储器的性能.因此如何识别并分配读写密集型数据是混合缓存设计的关键挑战.利用缓存访问请求的写入强度和重用信息,提出一种基于强化学习的缓存管理方法,设计缓存分配策略优化能耗.关键思想是使用强化学习对得到的缓存行(cache line)集合的能耗进行学习,得到该集合分配到SRAM或者STT-RAM的权重,将集合中的缓存行分配到权重大的区域.实验评估表明:提出的策略与以前的策略相比,在单核(四核)系统中能耗平均降低了16.9%(9.7%).
    相关文章 | 计量指标
    3. 面向飞腾多核处理器的Winograd快速卷积算法优化
    王庆林, 李东升, 梅松竹, 赖志权, 窦勇
    计算机研究与发展    2020, 57 (6): 1140-1151.   doi: 10.7544/issn1000-1239.2020.20200107
    摘要542)   HTML5)    PDF (2411KB)(337)   
    随着深度学习的快速发展,卷积神经网络已广泛应用于计算机视觉、自然语言处理等人工智能领域中.Winograd快速卷积算法因能有效降低卷积神经网络中卷积操作的计算复杂度而受到广泛关注.随着国防科技大学自主研制的飞腾多核处理器在智能领域的推广应用,对面向飞腾多核处理器的高性能卷积实现提出了强烈需求.针对飞腾多核处理器的体系结构特征与Wingorad快速卷积算法的计算特点,提出了一种高性能并行Winograd快速卷积算法.该算法不依赖通用矩阵乘库函数,由卷积核转换、输入特征图转换、逐元素乘、输出特征图逆变换等4个部分构成,融合设计了4个部分的数据操作,并设计了与之配套的数据布局、多级并行数据转换算法与多级并行矩阵乘算法,实现访存性能以及算法整体性能的提升.在两款飞腾多核处理器上的测试结果显示,与开源库ACL和NNPACK中的Winograd快速卷积实现相比,该算法分别能获得1.05~16.11倍与1.66~16.90倍的性能加速;集成到开源框架Mxnet后,该算法使得VGG16网络的前向计算获得了3.01~6.79倍的性能加速.
    相关文章 | 计量指标
    4. 面向高通量计算机的图算法优化技术
    张承龙, 曹华伟, 王国波, 郝沁汾, 张洋, 叶笑春, 范东睿
    计算机研究与发展    2020, 57 (6): 1152-1163.   doi: 10.7544/issn1000-1239.2020.20200115
    摘要542)   HTML5)    PDF (1876KB)(312)   
    随着互联网技术的蓬勃发展,图数据的规模呈爆炸式增长.如何高效地处理大规模图数据逐渐成为工业界和学术界关注的焦点.宽度优先搜索算法是解决图遍历问题的经典算法,也是Graph500基准的核心测试程序之一.高通量计算机采用ARM架构的众核体系结构,具有高并发、强实时、低功耗等适于大数据计算的特点.在单节点上,BFS算法的优化已取得一系列进展,首先对现有的优化技术进行系统的介绍,并在此基础上提出2种面向高通量计算机的优化手段,通过减少冗余访存和提高缓存局部性,有效提高了算法的访存效率.通过这些优化手段,在高通量计算机上对BFS算法的性能进行了系统的评估.对于顶点规模为230的Kronecker图(顶点数为230,边数为234),优化后的BFS算法在高通量计算机上的平均性能为24.26 GTEPS.与两路x86架构服务器相比,单节点具有1.18倍的性能优势.在性能功耗比方面,高通量计算机的结果为181.04 MTEPS/W.在2019年6月份的Green Graph500面向大数据集的排行榜上取得第2名的成绩.综上,高通量计算机的高并发和低功耗等特点非常适合处理大规模图计算等数据密集型应用.
    相关文章 | 计量指标
    5. FPGA图计算的编程与开发环境:综述和探索
    郭进阳, 邵传明, 王靖, 李超, 朱浩瑾, 过敏意
    计算机研究与发展    2020, 57 (6): 1164-1178.   doi: 10.7544/issn1000-1239.2020.20200106
    摘要1415)   HTML12)    PDF (2346KB)(367)   
    基于新型可重构架构FPGA(field programmable gate array)的图计算加速器同时具备着性能和能效的优势,满足复杂性高、数据规模大和基本操作多变的图计算的性能需求.但高效底层硬件代码的设计需要很长的设计周期,而已有的通用编程与开发环境虽满足功能要求,但性能差距较大.因此,编程墙的问题是影响应用开发与加速器性能的重要阻碍之一.设计良好的编程与开发环境是图计算加速器进一步提升性能且降低开发周期的最重要环节.高效的编程与开发环境需要提供便利的应用程序接口、扩展性强的编程模型、高效的高层次综合工具、能够融合软硬件特性的领域特定语言以及生成高性能硬件代码.对FPGA图计算的编程与开发环境做出系统性探索,主要就编程模型、高层次综合、编程语言以及应用程序开发进行介绍与分析.此外还对国内外相关技术的发展进行总结与分析,并针对本领域相关开放问题与挑战提供了未来思考.
    相关文章 | 计量指标
    6. 基于Spark的大数据访存行为跨层分析工具
    许丹亚, 王晶, 王利, 张伟功
    计算机研究与发展    2020, 57 (6): 1179-1190.   doi: 10.7544/issn1000-1239.2020.20200109
    摘要470)   HTML2)    PDF (2108KB)(289)   
    大数据时代的到来为信息处理带来了新的挑战,内存计算方式的Spark显著提高了数据处理的性能.Spark的性能优化和分析可以在应用层、系统层和硬件层开展,然而现有工作都只局限在某一层,使得Spark语义与底层动作脱离,如操作系统参数对Spark应用层的性能影响的缺失将使得大量灵活的操作系统配置参数无法发挥作用.针对上述问题,设计了Spark存储系统分析工具SMTT,打通了Spark层、JVM层和OS层,建立了上层应用程序的语义与底层物理内存信息的联系.SMTT针对Spark内存特点,分别设计了针对执行内存和存储内存的追踪方式.基于SMTT工具完成了对Spark迭代计算过程内存使用,以及跨越Spark,JVM和OS层的执行/存储内存使用过程的分析,并以RDD为例通过SMTT分析了单节点和多节点情况下Spark中读和写操作比例,结果表明该工作为Spark内存系统的性能分析和优化提供了有力的支持.
    相关文章 | 计量指标
    7. 通用图形处理器缓存子系统性能优化方法综述
    张军, 谢竟成, 沈凡凡, 谭海, 汪吕蒙, 何炎祥
    计算机研究与发展    2020, 57 (6): 1191-1207.   doi: 10.7544/issn1000-1239.2020.20200113
    摘要364)   HTML7)    PDF (1220KB)(295)   
    随着工艺和制程技术的不断发展以及体系架构的日趋完善,通用图形处理器(general purpose graphics processing units, GPGPU)的并行计算能力得到了很大的提升,其在高性能、高吞吐量等通用计算应用场景的使用越来越广泛.GPGPU通过支持大量线程的并发执行,可以较好地隐藏长延时访存操作,从而获得高并行计算能力.然而,GPGPU在处理计算和访存不规则的应用时,其存储子系统的效率受到很大影响,尤其是片上缓存的争用情况尤为突出,难以及时提供计算操作所需的数据,使得GPGPU的高并行计算能力不能得到充分发挥.解决片上缓存的争用问题、优化缓存子系统的性能,是优化GPGPU性能的主要解决方案之一,也是目前研究GPGPU性能优化的主要热点之一.目前,针对GPGPU缓存子系统的性能优化研究主要集中在线程级并行度(thread level parallelism, TLP)调节、访存顺序调节、数据通量增强、最后一级缓存(last level cache, LLC)优化和基于非易失性存储(non-volatile memory, NVM)的GPGPU缓存新架构设计等5个方面.也从这5个方面重点分析讨论了目前主要的GPGPU缓存子系统性能优化方法,并在最后指出了未来GPGPU缓存子系统优化需要进一步探讨的问题,对GPGPU缓存子系统性能优化的研究有重要意义.
    相关文章 | 计量指标