Please wait a minute...
ISSN 1000-1239 CN 11-1777/TP

当期目录

2018年 第55卷 第2期    出版日期:2018-02-01
综述
2018面向新型硬件的数据管理专题前言
孟小峰, 陈世敏, 罗琼
2018, 55(2):  227-228. 
摘要 ( 690 )   HTML ( 5)   PDF (418KB) ( 1056 )  
相关文章 | 计量指标
数据特性和硬件特征是高效数据管理的两个关键因素。一方面,随着大数据时代的到来,数据管理系统需要支持越来越海量、高速、多样的数据。各种新的数据管理技术纷纷涌现,不仅包括对传统的关系型数据库系统的扩展,而且包括多种新型的大数据系统,例如NoSQL系统,NewSQL系统等。数据的种类不仅有传统的关系型数据,而且有图类型、JSON树状数据等多种非传统数据类型。另一方面,计算机系统的硬件正在经历着深远的变化。更大容量的主存、NVM技术等正改变着存储系统的面貌。GPU、FPGA、专用加速硬件正逐渐由专用领域走向通用计算,对数据的运算和管理发挥着越来越重要的影响。因此,如何把这两者相结合,利用新型的存储和计算硬件高效地支持数据管理的需求成为一个重要的学术课题。许多基本问题还有待探索,包括系统架构、数据存储、索引、查询处理、能源效率等。鉴于此,本刊出版“面向新型硬件的数据管理”专题,侧重面向新硬件的数据库技术、面向新硬件的大数据系统、软硬件协同设计(Co-Design)的数据处理等方面,探讨面向新型硬件的数据管理基础理论研究及其应用,讨论该领域内最新的突破性进展,交流新的学术思想和新方法,展望未来的发展趋势。本专题出版7篇文章,内容涵盖面向新型非易失存储NVM的数据管理和面向新型加速硬件的数据管理两大方面,并反映了国内学术领域和阿里、华为等产业界在面向新型硬件的数据管理方面的主要工作。
软件技术
NV-Shuffle:基于非易失内存的Shuffle机制
潘锋烽, 熊劲
2018, 55(2):  229-245.  doi:10.7544/issn1000-1239.2018.20170742
摘要 ( 765 )   HTML ( 1)   PDF (6147KB) ( 654 )  
相关文章 | 计量指标
Shuffle是大数据处理过程中一个极为重要的阶段.不同类型的Task(或者Stage)之间通过Shuffle进行数据交换.在Shuffle过程中数据需要进行持久化,以达到避免重计算和容错的目的.因此Shuffle的性能是决定大数据处理性能的关键因素之一.由于传统Shuffle阶段的数据通过磁盘文件系统进行持久化,所以影响Shuffle性能的一个重要因素是I/O开销,尤其是对基于内存计算的大数据处理平台,例如Spark,Shuffle阶段的磁盘I/O可能拖延数据处理的时间.而非易失内存(NVM)具有读写速度快、非易失性以及高密度性等诸多优点,它们为改变大数据处理过程中对磁盘I/O的依赖、克服目前基于内存计算的大数据处理中的I/O性能瓶颈提供了新机会.提出一种基于NVM的Shuffle优化策略——NV-Shuffle.NV-Shuffle摒弃了传统Shuffle阶段采用文件系统的存储方式,而使用类似于Memory访问的方式进行Shuffle数据的存储与管理,避免了文件系统的开销,并充分发挥NVM的优势,从而减少Shuffle阶段的耗时.在Spark平台上实现了NV-Shuffle,实验结果显示,对于Shuffle-heavy类型的负载,NV-Shuffle可节省大约10%~40%的执行时间.
面向大数据处理的基于Spark的异质内存编程框架
王晨曦, 吕方, 崔慧敏, 曹婷, JohnZigman, 庄良吉, 冯晓兵
2018, 55(2):  246-264.  doi:10.7544/issn1000-1239.2018.20170687
摘要 ( 828 )   HTML ( 0)   PDF (5066KB) ( 621 )  
相关文章 | 计量指标
随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量密度受限于工艺瓶颈,无法满足内存计算快速增长的内存需求,因此研发人员将目光逐渐移向了新型的非易失性内存(non-volatile memory, NVM).由DRAM和NVM共同构成的异质内存,具有低成本、低功耗、高容量密度等特点,但由于NVM读写性能较差,如何合理布局数据到异质内存是一个关键的研究问题.系统分析了Spark应用的访存特征,并结合OpenJDK的内存使用特点,提出了一套管理数据在DRAM和NVM之间布局的编程框架.应用开发者通过对本文提供接口的简单调用,便可将数据合理布局在异质内存之中.仅需20%~25%的DRAM和大量的NVM,便可以达到使用等量的DRAM时90%左右的性能.该框架可以通过有效利用异质内存来满足内存计算不断增长的计算规模.同时,“性能/价格”比仅用DRAM时提高了数倍.
基于高性能SOC FPGA阵列的NVM验证架构设计与验证
刘珂, 蔡晓军, 张志勇, 赵梦莹, 贾智平
2018, 55(2):  265-272.  doi:10.7544/issn1000-1239.2018.20170695
摘要 ( 875 )   HTML ( 3)   PDF (3108KB) ( 520 )  
相关文章 | 计量指标
新型非易失性存储器(non-volatile memory, NVM)技术日渐成熟,延迟越来越低,带宽越来越高,未来将不仅有可能取代以动态随机存储器(dynamic random access memory, DRAM)为代表的易失型存储设备在主存中的垄断地位,还有可能取代传统Flash和机械硬盘作为外存服务未来的计算机系统.如何综合各类新型存储的特性,设计高能效的存储架构,实现可应对大数据、云计算所需求的新型主存系统已经成为工业界和学术界的研究热点.提出基于高性能SOC FPGA阵列的NVM验证架构,互联多级FPGA,利用多层次FPGA结构扩展链接多片NVM.依据所提出的验证架构,设计了基于多层次FPGA的主从式NVM控制器,并完成适用于该架构的硬件原型设计.该架构不仅可以实现测试同类型多片NVM协同工作,也可以进行混合NVM存储管理方案验证.
基于Multi-GPU平台的大规模图数据处理
张珩, 张立波, 武延军
2018, 55(2):  273-288.  doi:10.7544/issn1000-1239.2018.20170697
摘要 ( 839 )   HTML ( 2)   PDF (5112KB) ( 924 )  
相关文章 | 计量指标
在GPU高性能节点上构建高效的大规模图数据的算法和系统已经日益成为研究热点,以GPU协处理器为计算核心不仅能够提供大规模线程的并行环境,也能提供高吞吐的内存和缓存访问机制.随着图的规模增大,相对大小局限的GPU的设备访存空间逐渐不能满足缓存整个图数据的应用需求,也催生了大量以单节点上外存I/O优化(out-of-core graph)为主要研究方向的大规模图数据处理系统.为了应对这一瓶颈,现有的算法和系统研究采用对图切分的压缩数据形式(即shards)用以数据传输和迭代计算.然而,这类研究扩展到Multi-GPU平台上往往性能的局限性表现在对PCI-E带宽的高依赖性,同时也由于Multi-GPU上任务负载不均衡而缺乏一定的可扩展性.为了应对上述挑战,提出并设计了基于Multi-GPU平台的支持高效、可扩展的大规模图数据处理系统GFlow.GFlow提出了全新的适用于Multi-GPU下的图数据Grid切分策略和双层滑动窗口算法,在将图的属性数据(点的状态集合、点/边权重值)缓存于各GPU设备之后,顺序加载图的拓扑结构数据(点/边集合)值各GPU中.通过双层滑动窗口,GFlow动态地加载数据分块从SSD存储至GPU设备内存,并顺序化聚合并应用处理过程中各GPU所生成的Updates.通过在9个现实图数据集上的实验结果可以看出,GFlow在Multi-GPU平台下相比其他支持外存图(out-of-core graph)处理的相关系统性能表现更为优异,对比CPU下的GraphChi和X-Stream分别提升25.6X和20.3X,对比GPU下支持外存图数据处理的GraphReduce系统单GPU提升1.3~2.5X.同时GFlow可扩展性在Multi-GPU上也表现良好.
CPU和DRAM加速任务划分方法:大数据处理中Hash Joins的加速实例
吴林阳, 罗蓉, 郭雪婷, 郭崎
2018, 55(2):  289-304.  doi:10.7544/issn1000-1239.2018.20170842
摘要 ( 912 )   HTML ( 4)   PDF (5194KB) ( 469 )  
相关文章 | 计量指标
硬件加速器能够有效地提高当前计算机系统的能效.然而,传统的硬件加速器(如GPU,FPGA和定制的加速器)和内存是相互分离的,加速器和内存之间的数据移动难以避免,这使得如何降低加速器和内存之间数据移动的开销成为极具挑战性的问题.随着靠近数据的处理技术(near-data processing)和3D堆叠DRAM的出现,我们能够将硬件加速器集成到3D堆叠DRAM中,使得数据移动的开销大大降低.然而,由于3D堆叠DRAM对面积、功耗和散热具有严格的限制,所以不可能将一个功能复杂的硬件加速器完整地集成到DRAM中.因此,在设计内存端的硬件加速器时,应该考虑将加速任务在CPU和加速器之间合理地进行划分.以加速大数据系统中的一个关键操作hash joins为例子,阐述了CPU和内存端加速任务划分的设计思想.以减少数据移动为出发点,设计了一个包含内存端定制加速器和处理器端SIMD加速单元的混合加速系统,并对应用进行分析,将加速任务划分到不同的加速器.其中,内存端的加速器用于加速数据移动受限的执行阶段,而处理器端SIMD加速单元则用于加速数据移动开销较低成本的执行阶段.实验结果表明:与英特尔的Haswell处理器和Xeon Phi相比,设计的混合加速系统的能效分别提升了47.52倍和19.81倍.此外,提出的以数据移动为驱动的方法很容易扩展于指导其他应用的加速设计.
面向数据库的持久化事务内存
HillelAvni, 王鹏
2018, 55(2):  305-318.  doi:10.7544/issn1000-1239.2018.20170863
摘要 ( 866 )   HTML ( 4)   PDF (3702KB) ( 537 )  
相关文章 | 计量指标
硬件事务内存(hardware transactional memory, HTM)和可字节寻址的非易失性内存(nonvolatile memory, NVM)已经可以在新的计算机设备中使用.使用HTM确保一致性和隔离性,使用NVM确保持久性,组合使用两者可以实现满足原子性、一致性、隔离性和持久性(atomicity, consistency, isolation and durability, ACID)特性的事务.ACID事务在数据库中非常有价值,但由于数据库事务通常较大,其面临的挑战是HTM固有的容量限制和争用水平.首先提出了一种通过HTM进行ACID事务处理的软硬件解决方案——持久化HTM(persistent HTM, PHTM).使用2种方法来消除PHTM的局限性:1)持久化混合事务内存(persistent hybrid TM, PHyTM),允许PHTM事务与支持任意大小的纯软件事务(software transactional memory, STM)并发执行;2)分离事务执行(split transaction execution, STE)算法,该算法为关系数据库事务量身定制,解决了大多数事务超过PHTM的容量限制的问题.简而言之,讨论了利用NVM将HTM扩展到ACID数据库事务的问题.
X-DB:软硬一体的新型数据库系统
张铁赢, 黄贵, 章颖强, 王剑英, 胡炜, 赵殿奎, 何登成
2018, 55(2):  319-326.  doi:10.7544/issn1000-1239.2018.20170868
摘要 ( 3310 )   HTML ( 23)   PDF (2166KB) ( 1754 )  
相关文章 | 计量指标
数据库领域经历了3次发展时期:第1个时期起源于Codd提出的关系模型,奠定了数据库理论和系统的基础,并造就了早期的数据库商业巨头IBM DB2,Microsoft SQLServer和Oracle等;第2个时期由互联网的快速发展所推动,催生了NoSQL数据库系统,这一类数据库系统关注于系统可扩展性,但是牺牲了数据库的事务特性和SQL功能;第3个重要时期是以新硬件为基础的现代数据库时期,阿里巴巴数据库系统X-DB便属于这一时期的现代数据库.X-DB基于阿里巴巴大规模业务需求,充分利用新硬件的特性,围绕存储、网络、多核、并行和异构计算进行软硬一体协同设计,同时兼容MySQL生态,重塑关系型数据库体系结构.
综述
边缘计算:平台、应用与挑战
赵梓铭, 刘芳, 蔡志平, 肖侬
2018, 55(2):  327-337.  doi:10.7544/issn1000-1239.2018.20170228
摘要 ( 4143 )   HTML ( 76)   PDF (2284KB) ( 2530 )  
相关文章 | 计量指标
随着万物联网的趋势不断加深,智能手机、智能眼镜等端设备的数量不断增加,使数据的增长速度远远超过了网络带宽的增速;同时,增强现实、无人驾驶等众多新应用的出现对延迟提出了更高的要求.边缘计算将网络边缘上的计算、网络与存储资源组成统一的平台为用户提供服务,使数据在源头附近就能得到及时有效的处理.这种模式不同于云计算要将所有数据传输到数据中心,绕过了网络带宽与延迟的瓶颈,引起了广泛的关注.首先介绍边缘计算的概念,并给出边缘计算的定义;随后,比较了当前比较有代表性的3个边缘计算平台,并通过一些应用实例来分析边缘计算在移动应用和物联网应用上的优势;最后阐述了当前边缘计算面临的挑战.
移动机会网络中接触时间感知的协作缓存策略
郑啸, 高汉, 王修君, 秦锋
2018, 55(2):  338-345.  doi:10.7544/issn1000-1239.2018.20160929
摘要 ( 858 )   HTML ( 0)   PDF (1585KB) ( 464 )  
相关文章 | 计量指标
数据访问效率一直都是移动机会网络研究中的一个备受关注的问题.协作缓存技术经常被用来提高网络数据访问效率,但是该类网络中节点的强自主移动性和有限的接触时间使得传统的缓存技术无法得到有效应用.首先提出一个新的度量节点在协作缓存中重要程度的指标,即节点重要度.基于此指标,利用贪心算法选择初始缓存节点;利用缓存节点相遇的机会,进行缓存数据的主动再分配.为了适应节点间有限的接触时间,提出了数据分片策略,并使用随机线性网络编码方法对分片进行编码,以解决数据恢复时的赠券收集问题.此外为每个节点确定了缓存边界来限制缓存数据量,从而合理利用缓存空间.最后,通过实验验证了提出的缓存协议能够有效地提高数据访问效率.
基于流量特征的OpenFlow南向接口开销优化技术
郑鹏, 胡成臣, 李昊
2018, 55(2):  346-357.  doi:10.7544/issn1000-1239.2018.20160743
摘要 ( 1073 )   HTML ( 8)   PDF (5655KB) ( 524 )  
相关文章 | 计量指标
软件定义网络(software defined networking, SDN)分离的数据平面和控制平面,给网络管理带来了开放性和灵活性.但同时控制器与交换机之间的接口(控制器南向接口)需要更频繁的交互各种消息以实现对网络的控制.一方面,数据平面触发Table-Miss的数据包需要通过Packet-In消息往返于交换机与控制器之间,时延增大的同时也给控制器南向接口带来繁重的通信开销,数据平面和控制平面之间的交互容易成为网络性能的瓶颈.另一方面,控制器在下发新的流表项时,由于缺乏新表项对应的数据流特征信息,易出现已有的大流表项被下发的小流表项替换的情况,造成冗余的Flow-Mod消息(流表更新消息)和Packet-In消息,进一步加重了南向接口的通信开销,降低了网络的整体性能.提出一种基于流量特征的OpenFlow南向接口开销优化技术uFlow,在控制器上通过对Packet-In消息中数据流量特征的识别以及对小流的直接转发,达到消除南向接口冗余开销的目的.对uFlow的原型系统进行了实现,并通过真实网络中的流量对uFlow优化效果进行了验证.实验结果显示:与传统的OpenFlow网络处理方式相比,uFlow消除了冗余的交换机流表项更新,显著地降低了OpenFlow南向接口的交互开销:在不同的网络负载和流表容量的情况下,uFlow平均能减少70%以上的Flow-Mod消息.
软件技术
服务接口测试自动化工具的研究
卓欣欣, 白晓颖, 许静, 李恩鹏, 刘喻, 康介恢, 宋文莉
2018, 55(2):  358-376.  doi:10.7544/issn1000-1239.2018.20160721
摘要 ( 647 )   HTML ( 10)   PDF (6341KB) ( 714 )  
相关文章 | 计量指标
在面向服务的架构中,软件功能通常被封装为服务,并以开放可编程接口的方式提供应用.因此,服务接口的正确性和可靠性对于服务理解、重用和集成至关重要.随着软件即服务的思想被广为认可,互联网上越来越多的软件应用以服务接口方式提供开放式访问.面对众多的服务接口,如何进行高效且有效的测试是一个亟待解决的问题.为此,提出了一种基于模型驱动的自动化测试方法,首先采用接口语义契约模型对被测服务接口建模,然后基于接口模型和测试覆盖率需求为单个服务和组合服务生成测试数据和测试用例.在此基础上,设计并实现了AutoTest自动化测试工具,该工具采用多种算法用于优化测试用例生成,且支持图形化测试计划编排和跨语言测试代码生成.实验结果表明,AutoTest能够有效支持大批量测试用例的设计和生成,根据OED(正交实验设计)算法生成的测试用例与IPO组合算法得到的用例相比,具有更为理想的测试覆盖率.
基于事务的分布式虚拟化环境下服务替换方法
邹世辰, 王慧强, 吕宏武, 冯光升, 林俊宇
2018, 55(2):  377-390.  doi:10.7544/issn1000-1239.2018.20160925
摘要 ( 552 )   HTML ( 0)   PDF (3492KB) ( 408 )  
相关文章 | 计量指标
分布式虚拟化环境的动态性与异构性,随时会导致运行在其上的服务组合中出现失效等情况,从而导致整个业务流程中断,极大影响整个系统的可信性.作为应对服务失效最常用的方法,现有的服务替换方法由于缺少事务支持,会导致替换后的服务组合的一致性与正确性缺乏保障.对此,以服务组合事务级属性为核心,提出一种基于事务补偿的分布式虚拟化环境下服务替换方法.首先,提出了一个支持事务级属性的层次化服务组合模型,然后根据服务间数据依赖关系来识别服务事务粒度,最后基于事务粒度识别与服务补偿机制,提出了一种服务组合失效处理方法,促使服务组合的可信性增强演化.实验结果证明,该方法保证了替换过程中服务组合的事务原子性和数据一致性,具有良好的扩展性.
基于密度峰值聚类的动态群组发现方法
王海艳, 肖亦康
2018, 55(2):  391-399.  doi:10.7544/issn1000-1239.2018.20160928
摘要 ( 781 )   HTML ( 0)   PDF (2030KB) ( 471 )  
相关文章 | 计量指标
近年来,群组推荐由于其良好的实用价值得到了广泛关注.群组发现作为群组推荐的前提环节,其发现结果对推荐效果有着至关重要的影响,群组相似度越高,推荐的效果和稳定性越好.针对现有群组发现方法中存在忽略用户倾向具有时间迁移性和群组可重叠性展开研究,提出了一种基于密度峰值聚类的动态群组发现方法.该方法首先通过动态泊松分解得到量化的用户动态倾向,然后通过高阶奇异值分解预测不同的时间节点下用户对不同项目的倾向,并根据计算所得的用户倾向构建高相似度用户集合,最后利用改进的基于密度峰值的聚类算法对用户集合进行划分,实现群组发现.仿真实验对比结果表明:上述基于密度峰值聚类的群组发现方法具有更好的群组推荐效果.
基于OpenMP 4.0的发动机燃烧模拟软件异构并行优化
杨梅芳, 车永刚, 高翔
2018, 55(2):  400-408.  doi:10.7544/issn1000-1239.2018.20160872
摘要 ( 721 )   HTML ( 1)   PDF (2149KB) ( 377 )  
相关文章 | 计量指标
LESAP是一个超燃冲压发动机燃烧数值模拟软件,可模拟发动机燃烧室内的燃烧化学反应与超声速流动,具有实际工程应用价值,其计算量巨大.面向通用CPU与Intel集成众核协处理器(many integrated core, MIC)构成的新型异构众核平台,使用新的OpenMP 4.0编程标准,实现了LESAP软件面向异构并行平台的移植,并采用SIMD向量化、数据传输优化、基于网格块划分的负载均衡等技术进行了性能优化.性能测试结果表明异构版本比纯CPU版本性能更佳.在天河二号超级计算机的1个结点(含2个12核的Intel Xeon E5-2692 CPU加3块Intel Xeon Phi 31S1P协处理器)上,对一个实际超燃发动机燃烧数值模拟问题,网格规模为532万单元时,每时间步的平均执行时间从原来纯CPU版的64.72s减少到21.06s,性能加速比达到约3.07.
面向GPU的单颗粒冷冻电镜软件RELION并行与优化
苏华友, 温文, 李东升
2018, 55(2):  409-417.  doi:10.7544/issn1000-1239.2018.20160873
摘要 ( 2605 )   HTML ( 16)   PDF (2838KB) ( 786 )  
相关文章 | 计量指标
单颗粒冷冻电镜是结构生物学研究的重要手段之一,基于贝叶斯理论的冷冻电镜3维图像数据处理软件RELION(regularized likelihood optimization)具有很好的性能和易用性,受到广泛关注.然而其计算需求极大,限制了RELION的应用.针对RELION算法的特点,研究了基于GPU 的并行优化问题.首先全面分析了RELION的原理、RELION程序的算法结构及性能瓶颈;在此基础上,针对GPU细粒度体系结构对程序进行优化设计,提出了基于GPU的多级并型模型.为了获得良好的性能,对RELION的数据结构进行重组.为了避免GPU存储空间不足的问题,设计了自适应并行框架.实验结果表明:基于GPU的RELION实现可以获得良好的性能,相比于单CPU,整个应用的加速比超过36倍,计算密集型算法的加速比达到75倍以上.在多GPU上的测试结果表明基于GPU的RELION具有很好的可扩展性.
针对天河2号的一种嵌套剖分负载平衡算法
刘旭, 杨章, 杨扬
2018, 55(2):  418-425.  doi:10.7544/issn1000-1239.2018.20160877
摘要 ( 748 )   HTML ( 1)   PDF (2628KB) ( 395 )  
相关文章 | 计量指标
天河2号等亿亿次计算机上的大规模异构协同计算对负载平衡算法提出了3方面要求:低算法复杂度、适应多级嵌套的数据传输系统和支撑异构协同计算.通过组合3级嵌套负载平衡算法框架、贪婪剖分算法和内外子区域剖分算法,设计了一种能够同时满足这3方面要求的负载平衡算法.模型测试表明,算法可以达到90%以上的负载平衡效率.天河2号上32个节点的测试表明,算法能够保证通信开销较小.5个典型应用在天河2号上最大93.6万核的测试表明,算法能够支撑应用高效扩展,并行效率最高可达80%.
系统结构
RPRU:一种面向处理器的比特抽取与移位统一架构
马超, 戴紫彬, 李伟, 南龙梅, 金羽
2018, 55(2):  426-437.  doi:10.7544/issn1000-1239.2018.20160775
摘要 ( 642 )   HTML ( 1)   PDF (5075KB) ( 390 )  
相关文章 | 计量指标
比特抽取与循环移位操作都可以利用位级置换完成.目前,它们在硬件实现时,大都采用分离的、各自独立的设计方式,这造成了硬件逻辑资源的浪费.尽管有些研究成果将它们统一设计,但是实现路由算法的电路却是独立的,逻辑资源消耗较多.因此,通过研究循环移位和比特抽取这2种比特级操作在多级动态互连网络Inverse Butterfly中的映射原理,并结合该网络的自路由和递归特性,提出了一种针对这2种操作的统一路由算法.该算法不仅具有较高的并行性,而且硬件实现简洁,利于处理器架构集成.在此基础上,构造了一种可重构比特抽取-移位硬件单元(reconfigurable parallel bit extraction-rotation hardware unit, RPRU),并对其关键路径电路进行了优化设计.然后,在CMOS 90nm工艺下完成了逻辑综合.实验结果表明:利用该路由算法所构造的硬件单元与以往同类设计相比,面积减少了近30%.
基于代理的并行文件系统元数据优化与实现
易建亮, 陈志广, 肖侬, 卢宇彤
2018, 55(2):  438-446.  doi:10.7544/issn1000-1239.2018.20160796
摘要 ( 739 )   HTML ( 3)   PDF (2409KB) ( 415 )  
相关文章 | 计量指标
在高性能计算环境中,并行文件系统面临百万量级的客户端,这些客户端往往在同一时间段内发出大量并发I/O请求,使元数据服务器承载巨大的压力.另一方面,这些客户端发出的并发读写请求往往指向同一目录,导致很难将元数据负载调度到多个服务器上.为此,提出在并行文件系统的客户端和元数据服务器之间增加一级代理(proxy),并给出相应的优化措施降低元数据服务器的负载.在元数据代理上实现2方面的优化:1)由于高性能计算程序往往并发访问大量的文件,可以考虑通过元数据聚合将大量请求合并成1个请求发送到元数据服务器上,降低元数据服务器的负载;2)高性能计算程序的并发I/O往往指向同一目录,而传统的元数据负载均衡机制一般采用子树划分的方法将元数据负载调度到多个元数据服务器上,无法实现针对同一目录元数据操作的负载均衡,通过代理将针对同一目录的元数据操作调度到多个元数据服务器上,实现细粒度的负载均衡.