Please wait a minute...
ISSN 1000-1239 CN 11-1777/TP

当期目录

2013年 第50卷 第1期    出版日期:2013-01-15
系统结构
基于存储结构重配置的分布式存储系统节能算法
廖 彬, 于 炯, 孙 华, 年 梅,
2013, 50(1):  3-18. 
摘要 ( 790 )   HTML ( 6)   PDF (3127KB) ( 1073 )  
相关文章 | 计量指标
作为云计算底层核心基础设施,分布式数据存储系统是各种云计算服务的基础,是云计算重要的组成部分.然而随着系统规模的不断扩大以及设计时对能耗因素的忽略使其暴露出高能耗问题.由于存在数据可用性要求,使其并不能简单采用已有节能技术解决能耗问题,保证数据可用性成为设计分布式存储系统节能算法的前提.对系统与数据的可用性进行了建模,并通过对存储结构与机制、节点状态与数据块可用性之间的关系的研究提出构造数据块可用性度量矩阵解决数据可用性完全覆盖问题.定义了分布式存储系统的节能模型,将RACK划分为Active-Zone与Sleep-Zone两个存储区域,根据不同数据的访问频率与规律计算活动因子以配置数据的存储区域,通过数据中心负载规律适时对Sleep-Zone区域中的服务器进行休眠处理以达到节能的目的.实验结果表明:算法在适应数据访问规律与可用性保证前提下,能够提高分布式存储系统的能耗利用率,并且当系统负载与数据平均活动因子越低时算法节能效率越高.
组合盘节能缓存替换机制
杨良怀, 周 健, 龚卫华, 陈立军,
2013, 50(1):  19-36. 
摘要 ( 512 )   HTML ( 1)   PDF (2407KB) ( 492 )  
相关文章 | 计量指标
利用组合盘(由固态盘和硬盘构成)进行节能是近年来的一个研究热点.对基于文件粒度的组合盘节能缓存机制开展了研究,利用能量代价模型改编FBR,提出了基于频率和能量的替换算法FEBR;同时,基于滑动窗口机制提出了考虑硬盘寿命的自适应磁盘电源管理机制;为探索现有缓存算法在新硬件结构上的适用性,对过去提出的一系列缓存替换算法在能效、性能、硬盘寿命影响等方面进行了较为全面的比较和评价.通过对收集的4个真实用例数据进行一系列比较实验,得到了如下结论:组合盘节能是可行的,可达70%~80%节能效果;联机替换算法FEBR,FBR以及GDS在所有评价的算法中具有总体最优效果,FEBR略优于FBR和GDS,能耗代价模型可以用于指导算法;所提自适应磁盘管理机制能够较好控制硬盘寿命.
混合S-RAID:一种适于连续数据存储的节能数据布局
刘靖宇, 郑 军, 李元章, 孙志卓, 王文明, 谭毓安,
2013, 50(1):  37-48. 
摘要 ( 628 )   HTML ( 1)   PDF (3183KB) ( 587 )  
相关文章 | 计量指标
存储系统规模的日益增大,其高能耗成为一个无法忽视的问题,因此对存储系统的节能研究十分重要.提出一种由SSD固态盘与普通磁盘组成的混合S-RAID结构,通过关闭部分处于空闲状态的磁盘,达到节能效果.混合S-RAID将包括超级块在内的少量随机读写数据放在由SSD组成的RAID 1中,将连续数据放在由普通磁盘组成的S-RAID中,S-RAID对磁盘分组,连续数据访问模式下只有一个组处于活动状态,关闭处于空闲状态的磁盘组.在仅增加少量成本的前提下,提高了存储系统的节能效果.混合S-RAID适用于各种以连续数据访问为主要特征的应用环境.实验表明,由12块普通磁盘和两块SSD固态盘组成的混合S-RAID 5与同级别RAID 5相比,能耗仅为RAID 5的28%.
综述
闪存存储系统综述
陆游游, 舒继武,
2013, 50(1):  49-59. 
摘要 ( 1036 )   HTML ( 12)   PDF (2024KB) ( 1179 )  
相关文章 | 计量指标
闪存因其低延迟、高并发、低能耗、体积小等特点受到了广泛关注.首先讨论了简单利用闪存固态盘替换传统磁盘的方式隐藏了闪存特性,限制了软件系统对闪存特性充分利用的不足.然后,分析并比较了现有包括闪存加速卡、闪存阵列、基于闪存的分布式集群系统等基于存储介质直接构建的闪存存储系统的特点,归纳了其通过改变硬件接口、调整软件或控制器管理模块、匹配处理器与I/O处理能力等方式实现系统低延迟、高可靠、低能耗等特性的优化方法.然后重点讨论了闪存存储系统3个方面的关键技术:基于I/O栈调整与重构的存储性能优化、系统级可靠性、体积与能耗.最后总结了闪存存储系统的现状与特点,并指出未来可能的研究方向.
系统结构
GC-RAIS:一种基于垃圾回收感知的固态盘阵列
吴素贞, 陈晓熹, 毛 波,
2013, 50(1):  60-68. 
摘要 ( 617 )   HTML ( 1)   PDF (2284KB) ( 593 )  
相关文章 | 计量指标
垃圾回收操作会显著影响固态盘的性能,进而导致固态盘阵列的性能波动.为此,提出一种基于垃圾回收感知的磁盘阵列(GC-RAIS),充分利用固态盘的高随机读特性和固态盘阵列中的热备份盘,以减轻垃圾回收操作对固态盘阵列性能波动的负面影响.当固态盘阵列中某个固态盘正在处理垃圾回收操作时,对于到达该固态盘的读请求采用重构方式处理,即读取同一条带上其他固态盘上的数据重构得到,而对于到达该固态盘的写请求则将写数据临时存放在热备盘中,并更新相应的校验信息.当垃圾回收过程结束后,将被重定向的写数据写回到正确的固态盘中.仿真实验结果表明相对局部垃圾回收LGC策略和全局垃圾回收GGC策略,GC-RAIS分别减少用户I/O请求的平均响应时间达55%和25%.
NVMMDS——一种面向非易失存储器的元数据管理方法
蔡 涛 牛德姣 刘扬宽 李 帅 鞠时光
2013, 50(1):  69-79. 
摘要 ( 586 )   HTML ( 1)   PDF (2975KB) ( 681 )  
相关文章 | 计量指标
元数据管理方法是影响文件系统性能的重要因素.针对现有元数据管理方法存在的查找性能低、适应性差和丢失元数据等问题,设计了面向非易失存储器的元数据管理方法(NVMMDS).首先针对元数据的访问特性和管理要求,给出了NVMMDS的结构和元数据管理流程,混合使用非易失存储器和DRAM存储元数据,为提高元数据查找性能和避免丢失元数据奠定了基础;设计了基于NVBB树的元数据查找算法和基于主动写回的元数据缓存算法,提高了元数据的查找性能,增强了元数据管理方法的适应能力,避免了元数据丢失问题.与现有元数据管理方法进行了分析和比较,在单机文件系统ReiserFs和分布式文件系统pNFS中实现了NVMMDS原型,使用FileBench和多个标准数据集进行了测试与分析,验证了NVMMDS能提高文件系统最大35%的操作处理速度和I/O性能.
一种用磁盘备份SSD的高性能可靠存储系统
陈志广 肖 侬 刘 芳 杜溢墨
2013, 50(1):  80-89. 
摘要 ( 715 )   HTML ( 0)   PDF (1660KB) ( 566 )  
相关文章 | 计量指标
固态盘(solid state drive, SSD)因为其优越的性能已被大量部署于当前的存储系统中.但是,由于寿命有限,SSD的可靠性受到广泛的质疑.磁盘阵列(redundant arrays of inexpensive disk, RAID)是一种传统的用来提高可靠性的手段,但并不适用于SSD.这项工作提出一种基于SSD和磁盘的混合存储系统,构建该系统的主要思想是SSD响应所有I/O请求,从而获得较高的性能;磁盘备份所有数据,从而保证系统的可靠性.但是,磁盘的I/O性能显著低于SSD,构建该系统的问题在于磁盘能否及时地备份SSD上的数据.为了解决这一问题,从两方面提出优化:在延迟方面,采用非易失主存弥补磁盘与SSD的延迟差距;在带宽方面,采用两种措施:1)在单块磁盘内部重组I/O请求,使磁盘尽可能的顺序读写;2)采用多块磁盘备份多块SSD,通过将一块SSD上的写请求分散到多块磁盘上,有效应对单块SSD上出现的突发写请求.通过原型系统实现表明,该混合系统是可行的:磁盘能够为SSD提供实时的数据备份;与其他系统相比,该混合系统取得较高的性价比.
一种基于流水线的重复数据删除系统读性能优化方法
李 超, 王树鹏, 云晓春, 周晓阳, 陈 明,
2013, 50(1):  90-100. 
摘要 ( 579 )   HTML ( 0)   PDF (2835KB) ( 533 )  
相关文章 | 计量指标
重复数据删除技术已逐渐应用到以云计算为代表的主存储系统中,这些系统对读响应时间的高要求使读性能成为重复数据删除系统中需要解决的重要问题,而已有研究对如何提高重复数据删除系统读性能关注很少.针对这一问题,对重复数据删除系统中读取流程和性能瓶颈进行了量化分析,提出了一种基于流水线的数据读取模型,然后通过并行计算机制对模型进行了进一步的优化.基于这一模型设计实现了实验系统,通过实验证明:对于网络安全监测日志文本数据和虚拟机镜像文件,应用此模型后,重复数据删除系统读速度的提高可达5倍以上;基于流水线的数据读取模型适用性强,对提高不同消冗率的数据读速度均有明显作用.
FAIDA:一种快速精确的图像消冗方法
陈 明, 王树鹏, 云晓春, 吴广君, 李 超,
2013, 50(1):  101-110. 
摘要 ( 888 )   HTML ( 2)   PDF (3206KB) ( 521 )  
相关文章 | 计量指标
重复数据删除能够有效地提高存储利用率,现已在备份、归档系统中得到良好应用.然而这种基于比特流的Hash匹配策略对很多应用来说过于严格,例如重复图像删除.为了解决该问题,提出了一种快速精确的图像消冗方法.该方法首先根据Web图像特点给出重复图像定义,然后将图像消冗分为两个阶段.在重复图像发现阶段利用感知Hash等多重过滤技术提高图像检索速度和精度,在重复图像消冗阶段利用模糊逻辑推理选取质心图像以实现消冗.实验结果表明,该方法不仅具有快速、精确的重复图像消冗能力,而且在质心图像的选择上也能满足用户的感知要求.
支持高并发数据流处理的MapReduce中间结果缓存
亓开元, 韩燕波, 赵卓峰, 房 俊,
2013, 50(1):  111-121. 
摘要 ( 1264 )   HTML ( 1)   PDF (2072KB) ( 724 )  
相关文章 | 计量指标
针对面向大规模历史数据的高并发数据流处理需求,为改进MapReduce的实时处理能力,提出了一种内存Hash B树、外存SSTable文件的keyvalue中间结果缓存,该结构具有可划分性、可扩展性和高效性.在此基础上,利用B树的平衡性特征提出了一种基于概率的B树构造算法和多路查询算法,利用读写开销估算和缓冲区信息改造了外存文件读写策略和内外存替换算法,进一步优化了中间结果的高并发读写性能.算法分析和实验证明了该缓存的有效性.
一种基于点路结合的骨干网P2P缓存部署方法
翟海滨, 蒋 海, 孙 毅, 李 军, 李忠诚,
2013, 50(1):  122-135. 
摘要 ( 675 )   HTML ( 0)   PDF (4298KB) ( 508 )  
相关文章 | 计量指标
P2P应用的广泛流行给ISP骨干网络带来了前所未有的流量压力,P2P缓存(peer-to-peer caching)技术是目前缓解这种流量压力的最有效手段之一,缓存部署方法对P2P缓存系统的运行效率有重要影响.已有缓存部署方法分为两类:基于骨干节点的部署方法(node-based cache deployment, NCD)和基于骨干链路的部署方法(link-based cache deployment, LCD).在不同的P2P流量分布情形下,NCD与LCD各有优劣,但是,这两类方法未能充分发挥缓存的性能.提出一种基于点路结合的骨干网P2P缓存部署方法(node-Link based cache deployment, NLCD),根据缓存部署过程中P2P流量分布和缓存存储状态的动态变化,灵活选择骨干节点或骨干链路作为部署位置.建立了以网络负载最小化为目标的缓存部署模型,基于该模型将P2P缓存部署问题建模为一个最优化问题,由于流量分布和缓存状态会在部署过程中不断变化,不具有最优子结构性质.证明了该最优化问题为NP完全问题,并设计了一种启发式贪婪算法进行求解.实验结果表明,针对典型的H&S型、Ladder型骨干网络拓扑,使用NLCD的平均链路使用率比使用LCD低5%~15%,比使用NCD低7%~30%.
综述
安全云存储系统与关键技术综述
傅颖勋, 罗圣美, 舒继武,
2013, 50(1):  136-145. 
摘要 ( 1382 )   HTML ( 11)   PDF (1438KB) ( 1766 )  
相关文章 | 计量指标
随着云存储的迅猛发展,越来越多的用户选择使用云存储存放自己的资料.云存储的最大特点在于存储即服务,用户可以通过公有API将自己的数据上传到云端保存.但由于用户丧失了对数据的绝对控制权,一些数据安全的隐患也由此产生.为了消除安全隐患,并在保证安全性的同时尽可能地提高系统的服务质量,近年来国内外机构作了大量研究,从而开启了云存储中的一个研究方向——安全云存储系统.首先介绍了云存储系统的安全需求,然后阐述了安全云存储系统的研究现状,并总结了现有安全云存储系统中的一些关键技术的现状与不足之处,其中包括密钥分发与管理、基于属性的加密机制、基于数据密文的搜索机制与删冗机制、数据的持有性证明与恢复以及数据的可信删除等;最后指出了安全云存储系统未来的研究方向.
大数据管理:概念、技术与挑战
孟小峰 慈 祥
2013, 50(1):  146-169. 
摘要 ( 8034 )   HTML ( 266)   PDF (3405KB) ( 266933 )  
相关文章 | 计量指标
云计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来.数据从简单的处理对象开始转变为一种基础性资源,如何更好地管理和利用大数据已经成为普遍关注的话题.大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生.对大数据的基本概念进行剖析,并对大数据的主要应用作简单对比.在此基础上,阐述大数据处理的基本框架,并就云计算技术对于大数据时代数据管理所产生的作用进行分析.最后归纳总结大数据时代所面临的新挑战.
论文
面向多线程程序基于效用的Cache优化策略
唐轶轩, 吴俊敏, 陈国良, 隋秀峰, 黄 景,
2013, 50(1):  170-180. 
摘要 ( 881 )   HTML ( 0)   PDF (4915KB) ( 469 )  
相关文章 | 计量指标
为了提供高速的数据访问,多核处理器常使用Cache划分机制来分配二级Cache资源,但传统的共享Cache划分算法大多是面向多道程序的,忽略了多线程负载中共享和私有数据访问模式的差别,使得共享数据的使用效率降低.提出了一种面向多线程程序的Cache 管理机制UPP,它通过监控Cache 中共享、私有数据的效用信息,为每个线程以及共享数据分配Cache 空间,使得各个线程以及共享数据的边际效用最大化,从而提高负载的整体性能.另外,UPP还考虑了程序中数据的使用频率以及临近性信息,通过提升、动态插入策略过滤低重用数据,从而使得高频数据块留在Cache中.通过实验表明,其性能相对于基于LRU的纯共享Cache结构和基于公平的静态Cache划分结构均有提升.
一种快速有效的L2 Cache可靠性预测方法
成 玉, 马安国, 王永文, 唐遇星, 张民选,
2013, 50(1):  181-187. 
摘要 ( 621 )   HTML ( 1)   PDF (1755KB) ( 503 )  
相关文章 | 计量指标
随着集成电路工艺的不断进步,微处理器的软错误问题日益突出.体系结构弱点因子AVF(architectural vulnerability factor)作为可靠性评估指标之一,常用于软错误的评估.AVF在程序执行过程中呈现明显的动态变化特性,使得基于AVF预测的动态容错管理技术成为当前软错误研究领域的热门课题.即根据AVF的变化来动态选择是否对微处理器部件进行容错设计,从而在满足软错误可靠性要求的前提下尽量降低容错技术的开销.因此,基于L2 Cache AVF的动态特性研究,提出使用贝叶斯累加树模型BART(Bayesian additive regression trees)对L2 Cache AVF进行准确预测,并使用块搜索(bump hunting)技术来提取由少数几个性能参数组成的、对具有高L2 Cache AVF的执行阶段进行判定的规则,从而实现了对L2 Cache AVF的快速有效预测.
面向图像转置和分块处理的一种高效内存访问策略
沈煌辉, 王贞松, 郑为民,
2013, 50(1):  188-196. 
摘要 ( 703 )   HTML ( 0)   PDF (1721KB) ( 680 )  
相关文章 | 计量指标
图像转置和图像分块处理在目前图像处理过程中是经常用到的两种操作.对于实时图像处理,图像转置和图像分块的效率直接影响到实时性,而图像转置和图像分块的效率和内存访问效率密切相关.而访存效率与计算机体系结构、存储器结构和实际操作策略有直接的关系.根据存储器的读写特性提出一种分段存储的高效内存访问策略,通过理论分析得出合理的分段长度,即图像转置时分段长度的选择与DDR2 SDRAM的型号有关;而图像分块时分段长度的选择则与数据块的大小有关.结合工程实际应用还推导了普适的总线地址与存储器物理地址之间的映射,同时给出了一种硬件实现方式,针对不同的应用,仅需要替换地址映射模块,具有一定的通用性和扩展性.分段存储方法已经在SAR实时成像压缩系统中得到有效的验证.
支持分布式存储删冗的相似文件元数据集合索引
孙 竞 余宏亮 郑纬民
2013, 50(1):  197-205. 
摘要 ( 539 )   HTML ( 0)   PDF (1805KB) ( 780 )  
相关文章 | 计量指标
分布式存储技术因其良好的可扩展性、高性价比在当前云存储系统和企业存储中心得到广泛应用.在分布式存储系统中进行内嵌删冗可以有效降低系统存储开销,提高数据存取效率,实现内嵌删冗的关键在于高性能和可扩展的元数据索引方法.该方法应确保删冗操作不影响存储性能.通过分析影响索引性能的关键因素,提出一种分布式相似文件元数据集合索引的构建方法.该方法使用位置敏感Hash函数,将具有相同数据片的相似文件元数据组成集合并建立索引,使一个文件所有数据片元数据检索只需要访问一次外存,有效提高元数据检索效率.并且所生成的索引具有良好可扩展性和很小的内存开销,适合在采用分布式存储结构的云存储系统或者企业存储系统中进行应用.
基于取指执行时序范畴的多核共享Cache干扰分析
陈芳园, 张冬松, 刘 聪, 王志英,
2013, 50(1):  206-217. 
摘要 ( 510 )   HTML ( 0)   PDF (1622KB) ( 475 )  
相关文章 | 计量指标
在多核结构中,获得并行应用线程的安全、精确的最坏情况执行时间(worst case execution time, WCET)的最大挑战之一在于共享资源的竞争冲突检测.在共享Cache的多核处理器中,线程在共享Cache中的指令可能被其他并行线程的指令替换,从而导致了线程间在共享Cache上的干扰,因此多核结构下线程WCET需要考虑并行线程间在共享Cache上的干扰.在现有的简单地址映射干扰分析基础上,考虑了指令取指执行时序因素对干扰的影响,提出了非干扰状态的充分不必要条件,根据指令的取指执行时序范畴判断线程在共享Cache上的干扰状态.通过排除非干扰状态,可以进一步精确多核结构中线程的WCET估值.理论分析证明了该方法的有效性.实验结果表明,与当前现有的考虑执行周期和基于逻辑访问先后顺序的方法相比,基于时序方法下的WCET估值分别可以提高12%和7%的精确度.
采用高维路由节点构建直连式可扩展路由器
张小平 段武清 李孟涵 赵有健
2013, 50(1):  218-224. 
摘要 ( 702 )   HTML ( 0)   PDF (1821KB) ( 497 )  
相关文章 | 计量指标
可扩展路由器是当前核心路由器研究的热点,直连式可扩展路由器是可扩展路由器研究的一种重要分支.但是,目前直连式可扩展路由器的研究局限于采用低维路由节点的方式进行扩展,这种方式构建的路由器其可扩展互连结构的网络直径增长较快而等分带宽增长较慢.针对该问题,提出采用高维路由节点构建直连式可扩展路由器的思想,认为构建直连式可扩展路由时,路由节点的维要根据路由节点的交换容量和分组延时决定.在分组延时小于某个界的情况下,路由节点的交换容量越大它的维也应该越高这样才能使路由器的可扩展互连结构有最大的等分带宽和最小的网络直径,使路由器在满足分组延时要求的情况下具有最大的交换容量.从理论上分析了该思想的可行性,仿真结果进一步验证了理论分析的正确性.