Please wait a minute...
ISSN 1000-1239 CN 11-1777/TP

当期目录

2005年 第42卷 第6期    出版日期:2005-06-15
论文
基于InfiniBand的高性能计算机技术研究
谢向辉 彭龙根 吴志兵 卢德平
2005, 42(6):  905-912. 
摘要 ( 506 )   HTML ( 0)   PDF (523KB) ( 615 )  
相关文章 | 计量指标
网络性能一直是制约高性能计算技术发展的瓶颈,无论是面向计算的网络还是面向存储的网络,通信速度的发展远落后于CPU的发展. InfiniBand互连结构能够缩短网络和CPU之间的性能差距,使高性能计算机的性能趋于平衡. 2000年在InfiniBand协议发展初期,国家并行计算机工程技术研究中心就在国家“八六三”计划的支持下开始对InfiniBand协议展开了深入研究,旨在改进高性能计算特别是集群系统的互连性能,研制出符合InfiniBand标准规范的高性能互连部件,并最终开发出了具有自主知识产权的InfiniBand互连网络产品.论述了以自行研制的InfiniBand部件技术为基础的高性能集群计算机系统的组成、结构和应用,并对系统性能进行了实验分析.
基于CC-NUMA结构的IO系统设计
吴吉庆, 刘衡竹, 王海涛,
2005, 42(6):  913-917. 
摘要 ( 598 )   HTML ( 0)   PDF (259KB) ( 475 )  
相关文章 | 计量指标
在被高性能计算采用较多的CC-NUMA结构中,IO资源的常见组织形式是分散在各计算结点下,由各结点分散管理.这种组织形式有一些潜在的问题.首先对这些问题进行了分析,然后利用现有的IO链路技术和存储网络技术,提出了一种新的IO系统结构,并介绍了关键模块的设计.经过功能分析表明,新的IO系统结构能取得较高的性能,为全局共享分布并行IO技术的发展提供了参考.
计算机外设部件网格使能协议——gDevice
张跃冬, 杨 毅, 樊建平, 马 捷,
2005, 42(6):  918-923. 
摘要 ( 477 )   HTML ( 0)   PDF (337KB) ( 495 )  
相关文章 | 计量指标
网格计算机是计算机体系结构未来的发展方向之一,网格使能部件是构成网格计算机系统的重要元素.网格使能部件具有网格实体、功能服务、智能互连3大特征,计算机部件网格使能中的关键问题包括设备描述、互连互通、资源共享与复用、安全等诸多方面. gDevice协议是一个用来解决计算机外设部件网格使能问题的协议.在网格计算机控制台系统Grid Console中,该协议已经得到了部分验证.
一种高性能大数模幂协处理器SEA
赵学秘 陆洪毅 戴 葵 童元满 王志英
2005, 42(6):  924-929. 
摘要 ( 496 )   HTML ( 0)   PDF (387KB) ( 771 )  
相关文章 | 计量指标
大数模幂是许多公钥算法中的主要操作和计算瓶颈. SEA是一种针对大数模幂的高性能协处理器,其主要采用如下3种加速方法:①采用二进制并行模幂算法(PBME)和以基数长度为处理字长的高基数Montgomery算法(RBHRMMM);②将算法映射到脉动阵列处理结构,并交替计算平方和乘以掩盖RBHRMMM算法中的相关,同时应用定向技术消除PBME算法中的相关;③基于“先拆分乘法、后将累加压缩”的思想优化关键路径. SEA完成1024b完整大数模幂仅需72738个时钟周期,采用基于标准单元的正向设计流程实现,其面积为4.2×4.2mm\+2,等效门数为739933. 目前,SEA已经在0.18μm 1P6M CMOS工艺上流片成功,主频133MHz,峰值功耗为962.26mW,使用SEA后,完成一次1024b RSA签名仅需316.9μs.
一种面向生物信息学的可重构加速卡的设计与实现
张佩珩 刘新春 江先阳
2005, 42(6):  930-937. 
摘要 ( 496 )   HTML ( 0)   PDF (480KB) ( 672 )  
相关文章 | 计量指标
人类基因组测序工作完成后,对基因数据的处理和分析能力提出了更高的要求.生物信息学的基本研究方法之一就是计算,其算法的特点是数据量较大、算法比较简单、运算类型单一、重复性较强、潜在的并行度较高.用现有的大规模并行机或超级服务器等通用系统解决这些问题,既浪费系统的资源,使用维护也比较复杂,有些问题甚至无法在限定的时间内完成.提出了一种比较通用的算法可重构硬件加速卡的体系结构,以全局Smith-Waterman算法为例,阐述了从算法到硬件实现的映射过程,并指出了将其他类型算法映射到该加速卡上的可行性.
基于网络内容的无阻塞近似流分类的并行建模
李旭东 徐 扬 李 竞 刘 斌
2005, 42(6):  938-944. 
摘要 ( 310 )   HTML ( 1)   PDF (378KB) ( 505 )  
相关文章 | 计量指标
针对大字符集语言的特点,提出一种并行硬件模型实现基于网络内容的近似流分类.由于采用并行设计和流水线设计,该模型在大规则库下仍有较好的性能,并可适用于高速网络.该并行模型有如下特点:①通过采用不同的规则组合器可完成插入、删除、替代和交换错误的近似匹配;②通过配置参数,可灵活控制近似匹配的程度;③可直接应用于大字符集语言下的网络内容流分类;④针对中文环境做了概率建模,分析了并行硬件模型对网络分组的匹配概率,证明该模型在一般情况下具有较好的可应用性.
一种基于GPU硬件加速计算的辐射度实现方法
胡 伟 秦开怀
2005, 42(6):  945-950. 
摘要 ( 579 )   HTML ( 0)   PDF (407KB) ( 540 )  
相关文章 | 计量指标
提出一种新的基于GPU(graphics processing unit)的辐射度方法.该方法利用可编程图形处理单元GPU的并行计算能力,将辐射度方法中形状因子计算以及线性方程组求解的全过程完全在可编程图形硬件中完成,避免了原有基于GPU的辐射度方法需要CPU参与的问题,绕开了计算机主内存与GPU纹理内存之间数据交换的瓶颈;在基于半立方体法的形状因子计算和绘制过程中,解决了基于GPU硬件加速的遍历、分类和累加问题.此外,该方法采用新的矩阵和向量在GPU中的存储方法,利用GPU实现Jacobi迭代法快速求解线性方程组.实验结果证明,该方法能够快速有效地实现辐射度的计算和绘制.
基于硬件实现的用于定长匹配的PATRICIA算法
李 鑫 胡铭曾 季振洲
2005, 42(6):  951-957. 
摘要 ( 517 )   HTML ( 0)   PDF (410KB) ( 514 )  
相关文章 | 计量指标
PATRICIA算法是一种经典的信息检索算法,但是插入性能差、硬件实现困难.研究发现,PATRICIA算法在用于定长匹配时如果不保持NBT值的有序性,可以有效地降低硬件设计复杂度,提高插入性能.提出了一种易于硬件实现的定长匹配PATRICIA算法,证明了该算法是时间性能最优的二叉trie算法.针对状态检测技术中的状态表操作,设计了专用硬件结构实现该算法.理论和实验结果表明,该算法易于硬件实现,能够有效地对千兆网络环境的状态表进行操作.
系统域网络适配器设计
杨晓君, 张佩珩, 苗彦超, 孙凝晖, 郭黎利,
2005, 42(6):  958-964. 
摘要 ( 460 )   HTML ( 1)   PDF (404KB) ( 498 )  
相关文章 | 计量指标
作为系统域网络接入设备,适配器的功能和性能对整个机群系统的性能有着至关重要的影响.鉴于嵌入式技术的发展,提出了基于Intel IOP310 I/O处理器的曙光4000A超级计算机DCNet系统域网络适配器设计.适配器在原嵌入式系统基础上将本地内存总线扩展为用于网络互连的局部总线,并基于该总线设计实现了网络接口部件. DCNet适配器不但实现了与Myrinet,SCI和QsNet适配器相近的性能,而且证明了基于嵌入式系统和内存总线扩展网络接口方法实现高性能适配器是有效可行的.
使用多级交换网络进行高性能路由器设计
管剑波 孙志刚 卢锡城
2005, 42(6):  965-970. 
摘要 ( 492 )   HTML ( 0)   PDF (361KB) ( 590 )  
相关文章 | 计量指标
拓扑结构和路由算法是影响多级交换网络性能的重要因素.在比较多种多级互连拓扑属性的基础上,提出将3D Torus结构应用于大规模交换网络设计.然后针对3D Torus交换网络中报文路由面临的两个关键问题:多路径负载均衡和报文保序,提出一种基于维序的多路径路由算法DMR(dimension-order-based multi-path routing).该算法可在保证报文顺序的同时在多条路径上平衡负载,提高交换网络吞吐率.最后通过模拟验证了算法的性能,并与维序路由和随机路由算法进行了比较.模拟结果表明,DMR算法的性能优于维序路由算法,能够达到随机路由算法性能水平,同时具有随机路由算法所不具备的报文保序特性.
基于智能网卡支持的并行通信协议
林 基, 周小成, 孟 丹,
2005, 42(6):  971-978. 
摘要 ( 493 )   HTML ( 0)   PDF (404KB) ( 520 )  
相关文章 | 计量指标
网络通信系统是机群的一个重要组成部分,也是影响机群整机处理效率的关键因素.随着单个结点计算能力的增强,网络通信能力也需要相应地提高.一种提高网络通信能力的方法是引入多个网卡同时进行消息发送,即并行通信.通常,并行通信是基于RMA机制实现的,对于小于17KB的消息,由于RMA机制的握手过程使得并行通信性能的提高很有限.提出了基于智能网卡支持的并行通信协议.该协议将消息重组所需的握手过程下移到网卡上实现,从而减少了握手开销,扩展了并行通信的范围.实验数据表明,与基于RMA机制的并行协议相比,该协议提高了3KB~17KB消息段的通信性能;对应用程序,如FT程序,该协议将其执行时间减少了9.4%,而基于RMA机制的并行协议只减少了7.8%. 最后分析了限制并行通信性能提高的主要因素.
一体化机群操作系统Phoenix
孟 丹, 詹剑锋, 王 磊, 涂碧波, 张志宏,
2005, 42(6):  979-986. 
摘要 ( 404 )   HTML ( 0)   PDF (488KB) ( 528 )  
相关文章 | 计量指标
从操作系统的角度完备地定义了一体化机群功能软件Phoenix的体系结构,将机群操作系统分为异构资源、机群操作系统核心、用户环境3个层次,综合用户环境的核心需求,定义了机群操作系统核心的结构,并且基于组服务保证了机群操作系统核心的容错和可扩展特性.在机群操作系统核心的基础上构造了满足于不同用户需求的用户环境. Phoenix在曙光4000A高性能计算机系统上得到了应用.
一个适合大规模集群并行计算的检查点系统
周恩强 卢宇彤 沈志宇
2005, 42(6):  987-992. 
摘要 ( 596 )   HTML ( 0)   PDF (316KB) ( 740 )  
相关文章 | 计量指标
分布式检查点系统是大规模并行计算系统容错的重要手段.协议开销和检查点映像存储成为困扰并行检查点系统可伸缩性的两大瓶颈.针对并行应用程序的执行特征和高性能集群的体系结构特点,C系统分别采用动态虚连接技术和分布存储检查点映像的方法来有效降低协同式检查点的开销,增强检查点系统的可伸缩性.初步测试结果表明,C系统的设计策略适合大规模并行计算的容错.
DCFT-Kernel:一种基于组服务的机群容错管理系统的设计与实现
黄 伟, 詹剑锋, 樊建平,
2005, 42(6):  993-999. 
摘要 ( 527 )   HTML ( 1)   PDF (341KB) ( 518 )  
相关文章 | 计量指标
高可用和容错已经成为衡量机群系统(简称机群)的一个重要指标,随着机群的规模越来越庞大,如何实现大规模机群下的容错管理软件成为了技术难点.以传统分布式系统中的组通信技术为基础,采用将复杂的系统“分而治之”的思想,提出了组服务技术,可以解决容错管理软件的可扩展性和高可用性.同时,在组服务技术的基础上,结合实时的事件服务技术实现了一个大规模机群下的容错管理系统DCFT-Kernel,介绍了实现组服务和DCFT-Kernel的主要技术问题,并且对DCFT-Kernel的性能进行了分析.
LUNF——基于节点失效特征的机群作业调度策略
武林平, 孟 丹, 梁 毅, 涂碧波, 王 磊,
2005, 42(6):  1000-1005. 
摘要 ( 542 )   HTML ( 0)   PDF (346KB) ( 574 )  
相关文章 | 计量指标
良好的可扩展性使得人们可通过扩大机群系统的规模来达到所需要的计算能力,但随着机群系统节点数目的增多,节点失效对机群系统性能的影响已经成为大规模机群系统使用过程中一个不可回避的问题.机群作业调度作为机群操作系统软件的重要组成部分,完成高效资源管理与合理作业调度,机群作业调度系统功能上可分为作业选取策略和节点分配策略两部分.结合机群系统节点失效的特征,提出了正常运行时间最长节点优先(longest uptime node first, LUNF)的节点分配策略.仿真结果表明,相对于节点随机分配策略,LUNF策略的作业平均响应时间与作业平均slowdown降低10%左右.
基于主动TCP连接复制的高性能高可用MySQL数据库集群
邵志远 金 海 唐晓辉
2005, 42(6):  1006-1012. 
摘要 ( 628 )   HTML ( 0)   PDF (358KB) ( 587 )  
相关文章 | 计量指标
提出一种基于主动TCP连接复制的高性能高可用MySQL数据库集群解决方案.该方案采用集群技术对并发的多个TCP连接进行原子多播转换和复制以达到连接容错的效果,同时,对连接流中的只读操作进行分流以达到提高性能的目的.该方案将对TCP连接进行复制的技术应用于MySQL数据库集群中,从而实现了数据库集群整体的高可用性和高性能.经过原型系统的实现和测试,证明了该方案在复制过程中对数据库写操作造成了较小的性能损耗,同时极大地提高了数据库集群的只读查询性能.
曙光4000A中网格路由器的实现
杨卫兵, 孙凝晖, 陈明宇, 孙小涓,
2005, 42(6):  1013-1018. 
摘要 ( 482 )   HTML ( 0)   PDF (295KB) ( 499 )  
相关文章 | 计量指标
网格技术的发展带来了机群系统体系结构和使用环境的变化,这些变化在系统上引入了一些新的问题,包括安全、可控、高效的服务接入和细粒度的访问控制.传统的服务接入系统中,有些在身份认证强度上、有些在访问控制和服务分发的粒度上不能满足网格环境下使用高性能计算机的需求.讨论了一种服务接入部件——网格路由器,力图解决这些问题.
DCFS2的元数据一致性策略
熊 劲, 范志华, 马 捷, 唐荣锋, 李 晖, 孟 丹,
2005, 42(6):  1019-1027. 
摘要 ( 643 )   HTML ( 0)   PDF (524KB) ( 701 )  
相关文章 | 计量指标
随着集群应用对机群文件系统的性能、容量和规模等需求的日益增长,采用多元数据服务器是机群文件系统发展的必然趋势.基于多元数据服务器的分布式元数据处理是文件系统研究的一个重要问题.机群文件系统DCFS2采用分布式日志技术和改进的两阶段提交协议解决了分布式元数据处理下元数据的一致性问题.性能测试结果表明,DCFS2所采用的基于分布式日志的元数据处理策略能够提供高的I/O性能,并能够保证在元数据服务器失效后文件系统快速恢复.
大容量、高性能、高扩展能力的蓝鲸分布式文件系统
杨德志, 黄 华, 张建刚, 许 鲁,
2005, 42(6):  1028-1033. 
摘要 ( 594 )   HTML ( 2)   PDF (363KB) ( 847 )  
相关文章 | 计量指标
应用需求和计算机技术的发展使网络化存储系统成为网络服务器系统中I/O子系统研究的热点.作为网络存储系统关键部件,分布式文件系统的研究具有非常重要的意义. 蓝鲸分布式文件系统(BWFS)是国家高性能计算机工程技术研究中心基于对国内外现有研究成果的分析和研究,自主设计实现的分布式文件系统.它着重于大容量、高I/O吞吐率和高扩展能力等方面特性. BWFS已经用到BW1K网络存储系统中,并通过BW1K的初步评测数据验证了这些特性.
蓝鲸分布式文件系统的分布式分层资源管理模型
黄 华, 张建刚, 许 鲁,
2005, 42(6):  1034-1038. 
摘要 ( 509 )   HTML ( 0)   PDF (312KB) ( 580 )  
相关文章 | 计量指标
为了高效地管理海量分布式存储资源,蓝鲸分布式文件系统抛弃了传统的集中式资源管理方式,实现了分布式分层资源管理模型.该模型可以管理多个存储服务器,还能支持多个元数据服务器组成的集群进行分布式元数据处理,支持各种元数据和数据的负载平衡策略.同时,该模型中的带外数据传输功能克服了系统的性能瓶颈,提高了系统支持并发访问的能力.理论分析和实际测试结果都表明此模型能够满足多种不同的需求,提供很好的性能和良好的扩展性.
网络RAID存储系统边界性能研究
崔宝江, 刘 军, 王 刚, 刘 璟,
2005, 42(6):  1039-1046. 
摘要 ( 630 )   HTML ( 0)   PDF (470KB) ( 507 )  
相关文章 | 计量指标
目前针对网络存储系统性能的研究大都集中在定性研究方面,缺乏有效的定量分析方法和模型.在有限容量闭合排队网络理论的基础上,提出了网络RAID存储系统性能的定量分析模型.并提出了一种新的计算有限容量闭合排队网络系统边界性能的分析方法-APBA法,和其他近似分析方法相比,APBA法的计算时间复杂度更低.测试结果表明,通过利用APBA方法,由网络RAID存储系统的性能定量分析模型获得的系统性能值,可以有效反映网络RAID存储系统在轻载区、重载区和过载区的性能边界,以及系统的最大负载量.
分子空间结构比较方法优化与点部署的并行实现
郎显宇, 牛北方, 沈 斌, 陆忠华, 迟学斌,
2005, 42(6):  1047-1052. 
摘要 ( 395 )   HTML ( 0)   PDF (381KB) ( 600 )  
相关文章 | 计量指标
分子空间结构相似性比较的指标函数可以定量地描述两个分子空间结构相似性大小,但难题在于如何确定分子初始相对位置,以保证得到全局最优叠合.由于以往都是利用程序随机生成初始相对位置,所以没有规则也不确定.为保证得到全局最优叠合,需要大量的初始相对位置优化计算.利用“均匀设计”的实验设计手段,在空间规则地筛选部署分子初始相对位置,使其具有代表性和均匀分布性,这样只需少数确定数目的初始相对位置,便可以稳定地得到指标函数的全局最优解.而后利用并行处理方法,把初始相对位置集合部署在Np个处理器上同时工作,大幅度地减少了运行时间,并输出与串行执行相同的运算结果.
曙光4000H生物信息处理专用计算机的高性能算法研究
冯圣中, 谭光明, 徐 琳, 孙凝晖, 徐志伟,
2005, 42(6):  1053-1058. 
摘要 ( 505 )   HTML ( 0)   PDF (394KB) ( 568 )  
相关文章 | 计量指标
曙光4000H生物信息处理专用计算机基于现代计算机体系结构和可重构计算器件,分别通过I/O延迟隐藏、细粒度并行以及并行流水等技巧优化设计了BLAST、动态规划、RNA二级结构预测等有代表性的3类算法,并开发C模拟器进行了性能评价,结果表明,上述算法大幅度提高了计算机处理能力.
气象资料三维变分同化阶段区域分解并行实现
张卫民 朱小谦 赵 军
2005, 42(6):  1059-1064. 
摘要 ( 545 )   HTML ( 1)   PDF (322KB) ( 666 )  
相关文章 | 计量指标
变分同化由于能明显改善同化质量,正在成为数值天气预报的主流同化方法.研究三维变分同化的并行计算,提出了三维变分同化的阶段区域分解、观测资料的自适应划分算法、计算与通信重叠的矩阵转置和周边区域通信以及文件I/O方法,在此基础上实现了MPI并行三维变分原型系统,在由8个双CPU节点组成的Linux机群上并行加速比达到了11.9.
基于动态profiling技术的流水粒度调优
马 琳, 陈 莉, 冯晓兵,
2005, 42(6):  1065-1072. 
摘要 ( 468 )   HTML ( 0)   PDF (468KB) ( 490 )  
相关文章 | 计量指标
结点间流水是解决数据分布和计算分割不一致时的一种重要的并行发掘技术.结点间流水通过计算与通信的重叠获得并行度.精确的流水粒度是获得良好的流水性能的关键.流水分块取决于很多因素,如程序规模、程序的访问模式、结点规模、结点的计算能力和存储体系、通信系统的性能、通信库开销等等.提出了动态profiling方式并实现在流水粒度的推导中,运行时信息收集部分典型分块,结合代价模型推导流水粒度,该模型考虑局部性优化;探索如何减少插桩执行的开销的同时保证代价模型的精度.实验证明,这种方式有更好的适应性,能获得较好的流水并行.
数值并行计算可扩展性评价与测试
迟利华 刘杰 胡庆丰
2005, 42(6):  1073-1078. 
摘要 ( 604 )   HTML ( 1)   PDF (303KB) ( 734 )  
相关文章 | 计量指标
分析了几种可扩展性能评价模型存在的问题,针对实际评价与测试的需要,提出了一种基于等平均负载的数值并行计算可扩展性评价模型.该评价模型对可扩展性能加速比和可扩展性进行了重新定义,给出了使用该模型的进行可扩展加速比和可扩展性测试的方法,结合曲线拟合或并行计算时间模型可以预测并行系统的可扩展性,对NPB BT,SP和矩阵乘法进行了可扩展性预测.
国产万亿次机群系统NPB性能测试分析
袁 伟, 张云泉, 孙家昶, 李玉成,
2005, 42(6):  1079-1084. 
摘要 ( 676 )   HTML ( 0)   PDF (360KB) ( 608 )  
相关文章 | 计量指标
对3个国产万亿次机群系统进行了NPB性能测试分析,重点研究大规模并行处理时(处理器数目达到上千个)的性能特点和趋势.分析了不同的处理器、互连网络等系统配置对NPB性能的影响,发现NPB的8个程序在3个万亿次机器上的性能特点和表现并不一致,表明国产高性能机群在设计上正在逐渐走出同质化的趋势,向多样化发展.进一步分析表明,目前NPB程序的可扩展性可以达到几百个处理器,但尚不能达到上千个处理器,NPB程序能发挥出的系统峰值的百分比仍然徘徊在10%左右,机群系统的并行可扩展性和应用程序对机器运算潜能的利用还需要进一步提高.对于处理器数目达到上千个的万亿次机群系统来说,对集合通信和细粒度通信能力的支持亟需提高.
基于Linux集群电磁散射并行计算实现
韩明华 彭宇行 李思昆 陈福接
2005, 42(6):  1085-1088. 
摘要 ( 427 )   HTML ( 0)   PDF (250KB) ( 506 )  
相关文章 | 计量指标
工业应用,特别是军事应用对计算电磁学(CEM)的需求提出挑战,解决电大尺寸电磁散射问题(物理尺寸/λ1)的有效方法是采用并行计算技术.给出了MLFMA算法基于Linux集群技术的并行实现,并给出了电大尺寸目标电磁散射的计算实例.由于这种并行化方法只是充分利用已有的工作站,编程容易,所以是一种值得推广的并行化实现方法.
曙光4000A应用软件二进制兼容性测试与性能评价研究
李根国 李丽君
2005, 42(6):  1089-1091. 
摘要 ( 350 )   HTML ( 0)   PDF (196KB) ( 568 )  
相关文章 | 计量指标
对工程科学计算的主要大型商业软件(用户只能购买二进制执行码),如Nastran,Ansys,LS-Dyna,Fluent等在曙光4000A超级服务器上进行了移植和性能测试.结果表明,商业化应用软件都能在曙光4000A上运行,表明曙光4000A具有良好的兼容性和可扩展性.