ISSN 1000-1239 CN 11-1777/TP

    2015面向应用领域需求的体系结构

    默认 最新文章 浏览次数
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 新型非易失性存储器架构的缓存优化方法综述
    何炎祥,沈凡凡,张军,江南,李清安,李建华
    计算机研究与发展    2015, 52 (6): 1225-1241.   doi: 10.7544/issn1000-1239.2015.20150104
    摘要1412)   HTML4)    PDF (2019KB)(1275)   
    随着半导体工艺的发展,处理器集成的片上缓存越来越大,传统存储器件的漏电功耗问题日益严峻,如何设计高能效的片上存储架构已成为重要挑战.为解决这些问题,国内外研究者讨论了大量的新型非易失性存储技术,它们具有非易失性、低功耗和高存储密度等优良特性.为探索spin-transfer torque RAM(STT-RAM),phase change memory(PCM),resistive RAM(RRAM)和domain-wall memory(DWM)四种新型非易失性存储器(non-volatile memory, NVM)架构缓存的方法,对比了其与传统存储器件的物理特性,讨论了其架构缓存的优缺点和适用性,重点分类并总结了其架构缓存的优化方法和策略,分析了其中针对新型非易失性存储器写功耗高、写寿命有限和写延迟长等缺点所作出的关键优化技术,最后探讨了新型非易失性存储器件在未来缓存优化中可能的研究方向.
    相关文章 | 计量指标
    被引次数: Baidu(14)
    2. 多核处理器目录缓存结构设计
    王恩东,唐士斌,陈继承,王洪伟,倪璠,赵雅倩
    计算机研究与发展    2015, 52 (6): 1242-1253.   doi: 10.7544/issn1000-1239.2015.20150140
    摘要856)   HTML6)    PDF (3171KB)(773)   
    随着物联网、云计算与网络舆情分析等应用的快速发展,大数据处理的应用已经成为数据中心的核心负载.数据中心服务器普遍采用多核处理器,而目录缓存作为多核处理器结构中维护缓存一致性的关键部件,对其结构研究(如稀疏目录)更多地关注于目录缓存的容量与可扩展性,更适合处理高性能计算等计算密集型应用.然而,当多核处理器执行延迟敏感的大数据应用程序时,目录缓存的高访存延迟严重制约了数据中心的服务质量.针对该问题,新型主从目录缓存结构优化了数据访问过程中的一致性协议通路,其中主目录区分共享与私有数据,管理私有数据的访存操作,降低私有数据的访存延迟,提高了从目录的容量利用率;从目录维护共享数据的缓存一致性,采用有限位标签结构,提高了从目录的存储效率.实验在Simics+GEMS模拟平台上对大数据程序测试集Cloudsuite-v1.0进行评估.结果表明在以大数据应用程序为主的运行环境下,与2倍容量的稀疏目录相比,主从目录缓存结构降低了24.39%的硬件开销,降低了28.45%的缓存缺失延时,提升了3.5%的处理器IPC;与缓存内目录相比,主从目录结构虽然损失了5.14%的缓存缺失延时与1.1%的处理器IPC,但是降低了42.59%的硬件开销.
    相关文章 | 计量指标
    被引次数: Baidu(1)
    3. MACT:高通量众核处理器离散访存请求批量处理机制
    李文明,叶笑春,王达,郑方,李宏亮,林晗,范东睿,孙凝晖
    计算机研究与发展    2015, 52 (6): 1254-1265.   doi: 10.7544/issn1000-1239.2015.20150154
    摘要963)   HTML2)    PDF (5554KB)(748)   
    网络服务等新型高通量应用的迅速兴起给传统处理器设计带来了巨大的挑战.高通量众核处理器作为面向此类应用的新型处理器结构成为研究热点.然而,随着片上处理核数量的剧增,加之高通量应用的数据密集型特点,“存储墙”问题进一步加剧.通过分析高通量应用访存行为,发现此类应用存在着大量的细粒度访存,降低了访存带宽的有效利用率.基于此分析,在高通量处理器设计中通过添加访存请求收集表(memory access collection table, MACT) 硬件机制,结合消息式内存机制,用于收集离散的访存请求并进行批量处理.MACT硬件机制的实现,提高了访存带宽的有效利用率,同时也提高了执行效率;并通过时间窗口机制,确保访存请求在最晚期限之前发送出去,保证任务的实时性.实验以典型高通量应用WordCount,TeraSort,Search为基准测试程序.添加MACT硬件机制后,访存数量减少约49%,访存带宽提高约24%,平均执行速度提高约89%.
    相关文章 | 计量指标
    4. 一种多线程程序内存系统模拟器Trace驱动仿真方法
    朱鹏飞,卢天越,陈明宇
    计算机研究与发展    2015, 52 (6): 1266-1277.   doi: 10.7544/issn1000-1239.2015.20150160
    摘要972)   HTML0)    PDF (3681KB)(652)   
    伴随大数据计算时代的到来,片上多核处理器为提高多线程程序服务器吞吐率发挥巨大作用,同时其内存系统的访问延迟越来越影响系统性能.目前,路径驱动(trace-driven)仿真方法比执行驱动(execution-driven)运行速度快,被内存系统研究者广泛采用.但是路径驱动在仿真并发线程时,会同时导致宏观和微观的访存错位.而实际多线程程序运行过程中,不会发生这种访存错位行为.通过理论分析和计算,访存错位引起路径驱动的仿真结果存在明显偏差.针对上述问题,提出了一种方法来避免路径驱动仿真发生宏观和微观访存错位,精确回放采集阶段的多线程程序行为.实验数据显示,在避免宏观访存trace错位后,多线程程序的多个仿真指标出现最高10.22%的变化;对于部分访存密集型的多线程程序,避免微观访存trace错位可以使算数平均IPC出现大于50%的变化.为研究交互线程的内存系统行为提供一种更加准确的路径驱动方法.
    相关文章 | 计量指标
    5. 一种基于重复数据删除技术的云中云存储系统
    毛波,叶阁焰,蓝琰佳,张杨松,吴素贞
    计算机研究与发展    2015, 52 (6): 1278-1287.   doi: 10.7544/issn1000-1239.2015.20150139
    摘要1052)   HTML1)    PDF (3517KB)(851)   
    随着云存储技术的快速发展和应用,越来越多的企业和用户都开始将数据从本地转移到云存储服务提供商进行存储.但是,在享受云存储高质量服务的同时,将数据仅仅存储于单个云存储服务商中会带来一定的风险,例如云存储服务提供商的垄断、数据可用性和安全性等问题.为了解决这个问题,提出了一种基于重复数据删除技术的云中云存储系统架构,首先消除云存储系统中的冗余数据量,然后基于重复数据删除集中的数据块引用率将数据块以复制和纠删码2种数据布局方式存储在多个云存储服务提供商中.基于复制的数据布局方式易于实现部署,但是存储开销大;基于纠删码的数据布局方式存储开销小,但是需要编码和解码,计算开销大.为了充分挖掘复制和纠删码数据布局的优点并结合重复数据删除技术中数据引用的特点,新方法用复制方式存储高引用数据块,用纠删码方式存储其他数据块,从而使系统整体性能和成本达到较优.通过原型系统的实现和测试验证了相比现有云中云存储策略,新方法在性能和成本上都有大幅度提高.
    相关文章 | 计量指标
    被引次数: Baidu(23)
    6. 异构云计算体系结构及其多资源联合公平分配策略
    王金海,黄传河,王晶,何凯,史姣丽,陈希
    计算机研究与发展    2015, 52 (6): 1288-1302.   doi: 10.7544/issn1000-1239.2015.20150168
    摘要936)   HTML1)    PDF (4971KB)(1123)   
    资源分配策略是当前云计算研究领域中的一个重要研究热点,异构云计算体系结构下的复杂应用问题研究中,最基本的问题在于如何将总体有限的资源分配给多个租户或应用,以达到效率或收效最大化.但是,在经典的资源分配问题中,任务或者用户往往是“贪婪”的;因此,在总体资源有限的前提下,资源分配的公平性就显得尤为重要.为了满足不同的任务需求,达到多种资源分配的公平性,设计了一个虚拟化的异构云计算体系结构,提出了该体系结构下基于占优资源的多资源联合公平分配算法(maximizing multi-resource fairness based on dominant resource, MDRF),并且证明了算法的帕累托等相关属性;给出了占优资源熵(dominant resource entropy, DRE)和占优资源权重(dominant resource weight, DRW)的定义,占优资源熵更加精确地刻画了用户资源请求与任务所调度到的服务器资源之间的适应程度,使系统的自适应能力更强同时提高了资源利用率.占优资源权重保障了用户优先获取资源的优先次序,协同所采用保障公平性的Max-Min Fairness策略,使资源的分配更加有序.实验表明,我们的策略有更高的系统资源利用率,并且使需求与供给更加匹配,进而使用户的占优资源获取更多,提高了服务质量.
    相关文章 | 计量指标
    被引次数: Baidu(24)
    7. EOFDM:一种面向众核架构的最低能耗搜索方法
    朱亚涛,张帅,王达,叶笑春,张洋,胡九川,张志敏,范东睿,李宏亮
    计算机研究与发展    2015, 52 (6): 1303-1315.   doi: 10.7544/issn1000-1239.2015.20150153
    摘要717)   HTML0)    PDF (4170KB)(666)   
    面向能耗优化的面积(核数)-功率(频率)分配问题是当前众核处理器研究热点之一.通过性能-功耗模型了解其在核数-频率空间的分布规律,然后在核数和频率级别这2个维度上通过实测执行逐步搜索,可以获取“核数-频率”配置的最优解,从而达到能耗优化的目的;然而本领域现有方法在核数-频率空间内实测搜索最低能耗时收敛速度慢、搜索开销大、可扩展性差.针对此问题,提出了一种基于求解最优化问题的经典数学方法——可行方向法的最低能耗搜索方法(energy-efficient optimization based on feasible direction method, EOFDM),每次执行都能从核数和频率2个维度上同时减小搜索空间,在迭代执行中快速收敛至最低能耗点.该方法与现有研究中最优的启发式爬山法(hill-climbing heuristic, HCH)进行了对比实验,平均执行次数、执行时间和能耗分别降低39.5%,46.8%,48.3%,提高了收敛速度,降低了搜索开销;当核数增加一倍时,平均执行次数、执行时间和能耗分别降低48.8%,51.6%,50.9%;当频率级数增加一倍时,平均执行次数、执行时间和能耗分别降低45.5%,49.8%,54.4%,在收敛速度、搜索开销和可扩展性方面均有提高.
    相关文章 | 计量指标
    8. 面向高性能计算的众核处理器轻量级错误恢复技术研究
    郑方,沈莉,李宏亮,谢向辉
    计算机研究与发展    2015, 52 (6): 1316-1328.   doi: 10.7544/issn1000-1239.2015.20150119
    摘要875)   HTML0)    PDF (3340KB)(702)   
    随着半导体技术进步,单个芯片上集成大量核心的众核处理器已经广泛应用于高性能计算领域.相比多核处理器,众核处理器能提供更好的计算密度和能效比,但同时也面临越来越严重的可靠性挑战.需要设计高效的处理器容错机制,有效保证课题运行效率的同时不带来较大的芯片功耗和面积开销.在一款自主众核处理器DFMC(deeply fused and heterogeneous many-core)原型基础上,根据核心上运行的应用程序是否具有关联性特征,提出并实现了面向众核处理器的独立和协同2种轻量级错误恢复技术.其中,协同恢复技术由集中部件进行管理,通过协同恢复总线互连,出错时将与错误相关联的多个核心快速回卷到正确状态.2种错误恢复技术中,保留和恢复过程均通过定制的指令实现,恢复所需要的信息保留在运算核心内部,以保证对课题性能的影响最小化.实验表明,通过上述技术只增加了1.257%的芯片面积,可解决自主众核处理器约80%的瞬时错误,且对课题性能、芯片时序和功耗影响很小,可有效地提高众核处理器的容错能力.
    相关文章 | 计量指标
    被引次数: Baidu(1)
    9. Paleyfly:一种可扩展的高速互连网络拓扑结构
    雷斐,董德尊,庞征斌,廖湘科,杨明英
    计算机研究与发展    2015, 52 (6): 1329-1340.   doi: 10.7544/issn1000-1239.2015.20150162
    摘要1131)   HTML0)    PDF (4758KB)(917)   
    高速互连网络是高性能计算系统的重要组成部分.随着网络规模需求的扩大,如何搭建更大规模的网络是高速互连网络拓扑结构设计的关键.因此,提出一种新型层次化的拓扑结构Paleyfly(PF),其结合了Paley图强正则的特性和Random Regular(RR)图支持任意规模大小的特点.相比其他新型高速互连网络拓扑结构,Paleyfly能够有效解决在路由芯片端口数受限的背景下,Dragonfly(DF)可扩展性受限、Fat tree(Ft)物理成本高、RR结构物理布局难、路由表规模大等问题.同时,根据强正则属性在路由策略上负载均衡的优势,提出了4种路由策略来解决网络的拥塞问题.最后,通过模拟器实验比较分析PF结构与其他拓扑结构及PF结构不同路由策略的性能,验证了PF结构在不同规模以及不同通信模式配置下网络延迟优于RR结构.
    相关文章 | 计量指标
    被引次数: Baidu(2)
    10. 蚁群:一种新型的高效多用计算平台
    谢向辉,钱磊,吴东,原昊,李祥
    计算机研究与发展    2015, 52 (6): 1341-1350.   doi: 10.7544/issn1000-1239.2015.20150201
    摘要974)   HTML1)    PDF (3407KB)(768)   
    在科学计算和大数据处理应用需求的推动下,高性能计算机的性能不断提升、系统规模日益扩大,系统功耗越来越成为制约能力提升的重要瓶颈.在深入分析现有4类高性能计算机的基础上探讨了2项关键技术:1)可重构微服务器(reconfigurable micro server, RMS)技术.解决单个计算节点在领域应用加速能力、系统功耗和体积间的平衡兼顾问题.2)自治与分治相结合的集群构造技术.解决基于微小型化计算节点的大规模计算平台构造与扩展性问题.在此基础上,提出了一种新型的高效多用计算平台架构——“蚁群”,构建了包含2 048个低功耗、微小型化RMS计算节点的蚁群平台原型系统,并实现了大规模指纹实时比对和多RMS节点协同排序2个典型应用.测试表明,单个RMS节点的指纹比对性能是Xeon单核的34倍,功耗仅5W,整个原型系统可实现千万量级指纹库的数百并发实时查询;蚁群平台的数据排序性能功耗比是GPU平台的10倍以上,有效提升数据排序的效率.
    相关文章 | 计量指标
    11. 通过非易失存储和检查点优化缓解日志开销
    万虎,徐远超,闫俊峰,孙凤芸,张伟功
    计算机研究与发展    2015, 52 (6): 1351-1361.   doi: 10.7544/issn1000-1239.2015.20150171
    摘要909)   HTML2)    PDF (4980KB)(843)   
    在文件系统进行用户数据和元数据的持久化过程中,如果出现异常掉电或系统崩溃,可能导致文件系统出现数据的不一致性问题.现有的Ext4文件系统通过写前日志(write-ahead logging, WAL)技术结合事务机制来保证持久化操作的一致性.写前日志技术将文件系统元数据写入磁盘2次,元数据的粒度小、数量大、重复度高,影响了程序的性能,也缩短了Flash存储介质的使用寿命.针对这一问题,提出了使用新型非易失存储(non-volatile memory, NVM)作为存放日志的独立外部设备,并通过存取指令(load/store)接口直接访问;同时使用倒序扫描(reverse scan)技术对检查点(checkpoint)流程进行优化,减少同一数据块的重复写操作.实验结果表明,使用NVM作为外部日志分区,对于写操作比重较大的程序,在HDD上带宽提升接近50%;在SSD上带宽提升达到23%;在checkpoint时使用倒序扫描之后,写入次数降低明显,带宽提升接近20%.
    相关文章 | 计量指标
    被引次数: Baidu(4)
    12. 2015面向应用领域需求的体系结构前言
    刘志勇,唐志敏,窦勇
    计算机研究与发展    2015, 52 (6): 1223-1224.  
    摘要602)   HTML1)    PDF (397KB)(594)   
    不断扩展的计算机应用领域和日益更新的计算需求对计算机体系结构提出新的要求和挑战,应用需求和工艺技术持续地对计算机体系结构的变革提供挑战性的需求和发展的机会。本专辑希望通过分析重要应用领域的应用特征对计算机体系结构提出的需求,论述体系结构研究和设计中的重要的科学问题和关键技术,报导体系结构研究和开发中的新技术、新方法、新系统,交流思想和成果,促进计算机体系结构的研究与发展。专辑的组织获得研究工作者的广泛响应与支持。本期专题共计收录了11篇论文,重点关注多核处理器的调度、存储、能耗控制、文件系统、模拟器等研究内容,同时也关注了云计算平台体系结构研究问题,在一定程度上反映了当前国内研究单位在计算机体系结构领域的主要研究方向。
    相关文章 | 计量指标