随着物联网、大数据应用和智能计算应用的发展,当前计算机的处理、通信和存储能力已经无法匹配海量数据和信息处理复杂性的快速增长,针对应用需求的硬件加速得到蓬勃发展.另一方面,随着器件特征尺寸缩小到其物理极限,电路性能对参数偏差和噪声更加敏感,计算机的能效提升遇到瓶颈,这些问题促进了异构、三维集成、非易失性存储器等新型结构、工艺和器件的大量探索.计算机体系结构技术研究面临许多新的机遇和挑战.面向上述背景,本刊拟开辟“计算机体系结构前沿技术”系列专题,并于今年出版“计算机体系结构前沿技术(一)”专题.本专题共出版8篇文章,集中讨论面向不同应用背景的智能和近似计算的计算机体系结构技术,以及基于新型工艺和器件的存储器和处理器技术.
高能效是当前计算机体系结构领域的一个挑战问题.杜承垚等作者在论文“GPU加速与L-ORB特征提取的全景视频实时拼接”中面向全景视频拼接应用,从算法和体系结构优化相结合的角度,提出了L-ORB特征点提取算法,优化了分割视频图像的特征检测区域,同时降低了传统ORB算法对尺度和旋转不变性的计算量.其算法处理速度较传统方法有十倍以上的提升.在体系结构优化方面,面向嵌入式GPU体系结构特点进行针对性优化,其性能提高数十倍,同时能保持较低功耗.
面向大数据时代的新型数据库应用,存储体系结构也在迅速发展,特别是非易失闪存带来了新的挑战问题.秦雄军等作者在论文“一种基于裸闪存的Key-Value数据库优化方法”中针对当前主流Key-Value数据库难以发挥闪存特性的问题,设计了一种基于裸闪存的Key-Value数据管理架构Flashkv,通过用户态管理单元进行空间管理和垃圾回收,可以充分利用闪存设备内部的并发性,简化垃圾回收过程.提出了基于闪存特点的I/O调度技术,可以有效提高数据库的访问吞吐率.
近年来,以神经网络为代表的机器学习算法发展迅速并被广泛应用在图像识别、数据搜索乃至金融趋势分析等领域,算法能耗问题日益突出.由于机器学习算法自身拥有的近似特性,近似计算,这种在满足应用质量要求前提下、通过牺牲计算的少量精度来进行其他维度的优化的技术,被许多研究者用来解决算法的能耗问题.针对不同类型的能耗,江树浩等作者在论文“机器学习算法可近似性的量化评估分析”中研究了支持向量机、随机森林和神经网络3类监督学习算法的可近似性,建立了存储污染敏感度、访存污染敏感度和能耗差异度等指标来表征算法可近似性,有助于机器学习算法使用近似计算技术达到优化能耗的目的.
低开销、高能效的深度卷积神经网络硬件加速设计是当前集成电路与体系结构研究的热点方向.由于深度网络性能依赖于大量的数值计算,对于针对深度卷积神经网络的硬件加速器,其处理数值的精度不仅和计算结果的准确率息息相关,而且对计算的性能和功耗有很大的影响;因此如何选择合适的计算精度是一个关键研究问题.王佩琪等作者在论文“深度卷积神经网络的数据表示方法分析与实践”中尝试从专用集成电路的角度对于网络浮点表示以及定点表示2种情况的专用电路进行了比较评估,其中包括了对不同长度表示方式及不同网络误差精度的分析,对定点数和浮点数的实现在电路层面进行面积和功耗的对比,通过实验表明在同样的处理性能情况下,浮点数在面积和功耗上有优势.
新型非易失存储器,如相变存储器(PCM)、阻变存储器(RRAM)等受到广泛的关注.它们有潜力替代NAND Flash,甚至DRAM被应用到不同的存储层次中.然而,PCM 的写入寿命是其应用的主要障碍之一.为了提升其寿命,利用编码减少其写入强度,是一个研究的热点.高鹏等作者在论文“采用流水化伪随机编码算法的相变存储器寿命延长方法”中针对这一问题,分析发现目前最先进的伪随机编码方法中存在较多的冗余编码且编码速度慢,提出了一种基于星形生成规则的快速的一对多映射编码方法FEBRE.对比之前的伪随机编码方法,FEBRE 能够减少更多的写入强度,并大幅提升编码性能.
忆阻器作为一种新型的器件,能够将存储和计算的特性融合,可用于构建存储计算一体化的PIM(processing-in-memory)结构.李楚曦等作者在论文“基于忆阻器的PIM结构实现深度卷积神经网络近似计算”中提出了一种新型的基于忆阻器的深度卷积神经网络近似计算PIM结构,将卷积过程分解到不同形式的忆阻器阵列中分别计算,增加了数据并行性,减少了数据转换次数并消除了中间存储;针对不同规模和深度的神经网络计算进行仿真的实验评估表明,在相同计算精度下,该结构可以大幅度降低能耗和提升计算性能.
基于固态硬盘(SSD)和传统企业级硬盘(HDD)的混合存储的数据中心已经成为大数据计算领域的高性能载体.由SSD和HDD构成混合存储能够在一定程度上弥补SSD和HDD各自的缺点,获得较好的综合性能;但前提是能否根据数据的特性将数据分别存储在最合适的存储器(SSD或HDD)上.陆克中等作者在论文“面向固态硬盘的Spark数据持久化方法设计”中针对现有原生Spark编程框架中用户无法根据数据特征指定不同持久化存储介质的不足,提出并实现了一种面向SSD的数据持久化策略.基于该方案改进后的Spark框架,其编程环境可依据应用程序特征,对弹性分布式数据集进行按需持久化,实验表明其性能明显优越于原生Spark.
光学计算机是新型计算机研究的一个方向.张宏烈等作者在论文“三值光学处理器的MSD数据正/负值判断器设计与实现”中研究三值光学处理器的构造问题,介绍了MSD(modified signed-digit)数据正负值判断器在三值光学处理器中的作用,提出了一种从一组三态光信号判断其表达的多位MSD数据的正负特性或零值的方法,设计了MSD数据判断器的结构,并实现了一种光电混合模式的3位MSD数据判断器.文章介绍了具体的设计和实现方法,可以为对光学计算有兴趣的读者提供参考.
本专题征文发出后得到广大研究人员的积极响应,踊跃投稿.我们感谢广大作者对本刊的大力支持!我们同样感谢审稿专家对于本刊文稿的认真审查和中肯的意见和建议!我们感谢本刊编委会和编辑部开辟这样一个介绍体系结构前沿技术的专题,促进体系结构前沿技术的研究和知识传播,感谢他们对本专题的支持和和辛勤的工作!
刘志勇 中国科学院计算技术研究所
窦 勇 国防科学技术大学
李华伟 中国科学院计算技术研究所
2017年5月15日