ISSN 1000-1239 CN 11-1777/TP

    2019面向人工智能的计算机体系结构专题

    默认 最新文章 浏览次数
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 2019面向人工智能的计算机体系结构专题前言
    刘志勇,窦勇
    计算机研究与发展    2019, 56 (6): 1133-1134.  
    摘要1060)   HTML63)    PDF (204KB)(749)   
    我们高兴地向读者推出本刊“面向人工智能的计算机体系结构”专辑! 近几年来人工智能技术的飞速发展使得其应用迅猛扩大,而传统的计算机体系结构对于面向人工智能的应用在处理速度、能耗、使用的方便性等方面有着诸多不足 . 随着人工智能应用的发展,面向人工智能的体系结构成为体系结构研究与发展中的一个重要方向 .因此,本刊在“计算机体系结构前沿技术”专辑系列中,出版“面向人工智能的计算机体系结构”专辑 . 本专辑既包含面向人工智能应用的体系结构技术、人工智能应用程序的行为分析及其对体系结构的要求和面向人工智能应用及特定体系结构的优化技术等方面 6 篇文章 .
    相关文章 | 计量指标
    2. 类脑机的思想与体系结构综述
    黄铁军,余肇飞,刘怡俊
    计算机研究与发展    2019, 56 (6): 1135-1148.   doi: 10.7544/issn1000-1239.2019.20190240
    摘要1303)   HTML61)    PDF (3343KB)(1275)   
    经典计算机的理论边界在1936年就由图灵确定了,冯·诺依曼体系结构计算机也受限于图灵机模型.囿于神经形态器件的缺失,神经网络模型一直在经典计算机上运行.然而,冯·诺依曼体系结构与神经网络的异步并行结构及通信机制并不匹配,表现之一是功耗巨大,发展面向神经网络的体系结构,对于人工智能乃至一般意义上的信息处理都是重要方向.类脑机是仿照生物神经网络、采用神经形态器件构造的、以时空信息处理为特征的智能机器.类脑机的思想在计算机发明之前就提出了,研究开发实践也已经进行了30多年,多台类脑系统已经上线运行,其中SpiNNaker专注于类脑系统的体系结构研究,提出了一种行之有效的类脑方案.未来20年左右,预计模式动物大脑和人脑的精细解析将逐步完成,模拟生物神经元和神经突触信息处理功能的神经形态器件及集成工艺将逐步成熟,结构逼近大脑、性能远超大脑的类脑机有望实现.类脑机像生物大脑一样都是脉冲神经网络,神经形态器件具有真正的随机性,因此类脑机具备丰富的非线性动力学行为.已证明任何图灵机均可由脉冲神经网络构造出来,类脑机在理论上是否能够超越图灵机,是需要突破的一个重大问题.
    相关文章 | 计量指标
    3. 基于3D忆阻器阵列的神经网络内存计算架构
    毛海宇,舒继武
    计算机研究与发展    2019, 56 (6): 1149-1160.   doi: 10.7544/issn1000-1239.2019.20190099
    摘要905)   HTML14)    PDF (2125KB)(648)   
    现如今,由于人工智能的飞速发展,基于忆阻器的神经网络内存计算(processing in memory, PIM)架构吸引了很多研究者的兴趣,因为其性能远优于传统的冯·诺依曼计算机体系结构的性能.配备了支持功能单元的外围电路,忆阻器阵列可以以高并行度以及相比于CPU和GPU更少的数据移动来处理一个前向传播.然而,基于忆阻器的内存计算硬件存在忆阻器的外围电路面积过大以及不容忽视的功能单元利用率过低的问题.提出了一种基于3D忆阻器阵列的神经网络内存计算架构FMC(function-pool based memristor cube),通过把实现功能单元的外围电路聚集到一起,形成一个功能单元池来供多个堆叠在其上的忆阻器阵列共享.还提出了一种针对基于3D忆阻器阵列的内存计算的数据映射策略,进一步提高功能单元的利用率并减少忆阻器立方体之间的数据传输.这种针对基于3D忆阻器阵列的内存计算的软硬件协同设计不仅充分利用了功能单元,并且缩短了互联电路、提供了高性能且低能耗的数据传输.实验结果表明:在只训练单个神经网络时,提出的FMC能使功能单元的利用率提升43.33倍;在多个神经网络训练任务的情况下,能提升高达58.51倍.同时,和有相同数目的Compute Array及Storage Array的2D-PIM比较,FMC所占空间仅为2D-PIM的42.89%.此外,FMC相比于2D-PIM有平均1.5倍的性能提升,并且有平均1.7倍的能耗节约.
    相关文章 | 计量指标
    4. 面向深度学习加速器的安全加密方法
    左鹏飞,华宇,谢新锋,胡杏,谢源,冯丹
    计算机研究与发展    2019, 56 (6): 1161-1169.   doi: 10.7544/issn1000-1239.2019.20190109
    摘要977)   HTML26)    PDF (1368KB)(627)   
    随着机器学习特别是深度学习技术的飞速发展,其应用场景也越来越广,并逐渐从云计算向边缘计算上扩展.在深度学习中,深度学习模型作为模型提供商的知识产权是非常重要的数据.发现部署在边缘计算设备上的深度学习加速器有泄露在其上存储的深度学习模型的风险.攻击者通过监听深度学习加速器和设备内存之间的总线就能很容易地截获到深度学习模型数据,所以加密该内存总线上的数据传输是非常重要的.但是,直接地在加速器上使用内存加密会极大地降低加速器的性能.为了解决这个问题,提出了一个有效的安全深度学习加速器架构称作COSA.COSA通过利用计数器模式加密不仅提高了加速器的安全性,而且能够把解密操作从内存访问的关键路径中移走来极大地提高加速器性能.在GPGPU-Sim上实现了提出的COSA架构,并使用神经网络负载测试了其性能.实验结果显示COSA相对于直接加密的架构提升了3倍以上的性能,相对于一个不加密的加速器性能只下降了13%左右.
    相关文章 | 计量指标
    5. 多层神经网络算法的计算特征建模方法
    方荣强,王晶,姚治成,刘畅,张伟功
    计算机研究与发展    2019, 56 (6): 1170-1181.   doi: 10.7544/issn1000-1239.2019.20190111
    摘要829)   HTML16)    PDF (2584KB)(401)   
    随着深度学习算法在语音和图像等领域中的成功运用,能够有效提取目标特征并做出最优决策的神经网络再次得到了广泛的关注.然而随着数据量的增加和识别精度需求的提升,神经网络模型的复杂度不断提高,因此采用面向特定领域的专用硬件加速器是高效运行神经网络的有效途径.然而如何根据网络规模设计高能效的加速器,以及基于有限硬件资源如何提高网络性能并最大化资源利用率是当今体系结构领域研究的重要问题.为此,提出基于计算特征的神经网络分析和优化方法,基于“层”的粒度解析典型神经网络模型并提取模型通用表达,根据通用表达式和基本操作属性提取模型运算量和存储空间需求等特征.提出了基于最大值更替的运行调度算法,利用所提取的特征分析结果对神经网络在特定硬件资源下的运行调度方案进行优化.实验结果显示:所提方法能够有效分析对比网络特征,并指导所设计调度算法实现性能和系统资源利用率的提升.
    相关文章 | 计量指标
    6. 面向阻变存储器的长短期记忆网络加速器的训练和软件仿真
    刘鹤,季宇,韩建辉,张悠慧,郑纬民
    计算机研究与发展    2019, 56 (6): 1182-1191.   doi: 10.7544/issn1000-1239.2019.20190113
    摘要715)   HTML8)    PDF (1075KB)(713)   
    长短期记忆(long short-term memory, LSTM)网络是一种循环神经网络,其擅长处理和预测时间序列中间隔和延迟较长的事件,多用于语音识别、机器翻译等领域.然而受限于内存带宽的限制,现今的多数神经网络加速器件的计算模式并不能高效处理长短期记忆网络计算;而阻变存储器交叉开关结构能够以存内计算形式完成高效、高密度的向量矩阵乘运算,从而成为一种高效处理长短期记忆网络的极具潜力的加速器设计模式.研究了面向阻变存储器的长短期记忆神经网络加速器模拟工具以及相应的神经网络训练算法.该模拟工具能够以时钟驱动的形式模拟设计者提出的以阻变存储器交叉开关结构为核心加速部件的长短期记忆加速器微体系结构,从而进行设计空间探索;同时改进了神经网络训练算法以适应阻变存储器特性.这一模拟工具基于System-C实现,且对于核心计算部分实现了图形处理器加速,可以提高阻变存储器器件的仿真速度,为探索设计空间提供便利.
    相关文章 | 计量指标
    7. 基于细粒度数据流架构的稀疏神经网络全连接层加速
    向陶然,叶笑春,李文明,冯煜晶,谭旭,张浩,范东睿
    计算机研究与发展    2019, 56 (6): 1192-1204.   doi: 10.7544/issn1000-1239.2019.20190117
    摘要954)   HTML19)    PDF (2435KB)(630)   
    深度神经网络(deep neural network, DNN)是目前最先进的图像识别算法,被广泛应用于人脸识别、图像识别、文字识别等领域.DNN具有极高的计算复杂性,为解决这个问题,近年来涌出了大量可以并行运算神经网络的硬件加速器.但是,DNN中的全连接层有大量的权重参数,对加速器的带宽提出了很高的要求.为了减轻加速器的带宽压力,一些DNN压缩算法被提出.然而基于FPGA和ASIC的DNN专用加速器,通常是通过牺牲硬件的灵活性获得更高的加速比和更低的能耗,很难实现稀疏神经网络的加速.而另一类基于CPU,GPU的CNN加速方案虽然较为灵活,但是带来很高的能耗.细粒度数据流体系结构打破了传统的控制流结构的限制,展示出了加速DNN的天然优势,它在提供高性能的运算能力的同时也保持了一定的灵活性.为此,提出了一种在基于细粒度数据流体系结构的硬件加速器上加速稀疏的DNN全连接层的方案.该方案相较于原有稠密的全连接层的计算减少了2.44×~ 6.17×的峰值带宽需求.此外细粒度数据流加速器在运行稀疏全连接层时的计算部件利用率远超过其他硬件平台对稀疏全连接层的实现,平均比CPU,GPU和mGPU分别高了43.15%,34.57%和44.24%.
    相关文章 | 计量指标