ISSN 1000-1239 CN 11-1777/TP

    2021大数据时代的存储系统与智能存储技术专题

    默认 最新文章 浏览次数
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 大数据时代的存储系统与智能存储技术专题前言
    舒继, 王意洁, 吴晨涛
    计算机研究与发展    2021, 58 (2): 291-292.   doi: 10.7544/issn1000-1239.2021.qy0202
    摘要719)   HTML17)    PDF (212KB)(382)   
    随着大数据时代的到来,各领域的数据呈现出爆炸式增长态势,数据资源得到了各行各业的广泛关注.如何挖掘大数据价值,进而充分发挥大数据效益?大数据的4V特征使得数据获取、数据存储、数据搜索、数据共享、数据分析、数据可视化等各个环节对存储系统构建带来了新的技术挑战.同时,伴随着人工智能的崛起,智能存储与智能分析逐渐成为发挥大数据效益的有效技术途径.基于上述背景,为促进存储领域技术交流,《计算机研究与发展》推出了本期“大数据时代的存储系统与智能存储技术”专题.本专题收录了9篇论文,分别展示了大数据存储和智能存储等存储领域研究热点的研究现状和最新研究成果,希望能为从事相关工作的读者提供借鉴和帮助.
    相关文章 | 计量指标
    2. 基于多级网络编码的多副本云数据存储
    徐光伟, 史春红, 冯向阳, 罗辛, 石秀金, 韩松桦, 李玮
    计算机研究与发展    2021, 58 (2): 293-304.   doi: 10.7544/issn1000-1239.2021.20200340
    摘要238)   HTML8)    PDF (2658KB)(167)   
    云数据存储的快速发展对数据的可用性提出了较高要求.目前,主要采用纠删码计算数据编码块进行分布式冗余数据存储来保证数据的可用性.虽然这种数据编码技术保证了存储数据的安全性并减少了额外的存储空间,但在损坏数据恢复时会产生较大的计算和通信开销.提出一种基于多级网络编码的多副本生成和损坏数据恢复算法.算法基于多级网络编码对纠删码的编码矩阵进行改进形成多级编码矩阵,利用其级联性生成多级编码(hierarchical coding, HC码)来构成多副本数据,使得各副本之间存在编码关系.在损坏数据恢复时,利用数据所有者提供的数据编码信息和云存储中保存的数据块直接计算进行恢复,从而避免从云存储中远程下载数据.理论分析和实验表明,所提算法在相同的存储空间下显著减少了损坏数据恢复时的通信开销并提高了数据的可用性.
    相关文章 | 计量指标
    3. 基于蚁群优化算法的纠删码存储系统数据更新方案
    李乾, 胡玉鹏, 叶振宇, 肖叶, 秦拯
    计算机研究与发展    2021, 58 (2): 305-318.   doi: 10.7544/issn1000-1239.2021.20200383
    摘要241)   HTML6)    PDF (4536KB)(143)   
    由于纠删码具备高可用性和高存储空间有效性的特点,采用纠删码为大规模分布式存储系统提供数据持久性已成为事实标准.然而,纠删码的密集型更新操作将导致大量的数据传输和I/O开销.如何减少数据传输量,优化现有网络资源的利用率,以提高纠删码的更新效率,成为纠删码存储系统面临的重要挑战.然而,在多重服务质量(quality of service, QoS)指标下,目前对纠删码更新效率的优化研究很少.针对此问题,提出一种基于蚁群优化算法的多数据节点更新方案(ant colony optimization algorithm based multiple data nodes update scheme, ACOUS),采用2阶段数据更新方式以优化多数据节点更新过程.具体而言,基于多目标蚁群优化更新路由算法(multi-objective ant colony optimization update routing algorithm, MACOU)所构建的多目标更新树,2阶段数据更新方式能有效地进行数据增量收集和校验增量分发.大量的实验结果表明,在典型的数据中心网络拓扑结构下,与TA-Update方案相比,所提方案能够在保证算法收敛的前提下,以可忽略的计算开销为代价,将更新时延降低26%~37%.
    相关文章 | 计量指标
    4. 面向跨数据中心网络的节点约束存储转发调度方法
    林霄, 姬硕, 岳胜男, 孙卫强, 胡卫生
    计算机研究与发展    2021, 58 (2): 319-337.   doi: 10.7544/issn1000-1239.2021.20200384
    摘要213)   HTML4)    PDF (6089KB)(117)   
    借助海量数据中心存储,通过存储转发(store-and-forward, SnF)调度大数据传输,已被证明能有效解决跨数据中心间大数据传输难题.然而,多数现有调度方法将数据途经的所有网络节点(例如数据中心)均纳入SnF调度决策,导致其计算复杂度过高,难以为大规模网络提供实时调度服务.针对跨数据中心光网络场景,给出SnF模型,量化分析存储节点数量对调度问题性能与复杂度的影响.研究表明:在一定条件下,无需将所有节点都纳入调度决策也可获得良好的调度性能.由此,提出了节点约束SnF调度方法.该方法的特点在于:1)仅将部分数据途经节点纳入调度决策,降低调度问题求解难度;2)引入拓扑抽象,将被选节点间链路状态压缩,缩小调度问题规模、提高算法求解效率.仿真结果表明:在阻塞率和算法计算时间方面,该方法优于现有调度方法.
    相关文章 | 计量指标
    5. 基于语义相似性的跨模态图文内容筛选存储机制研究
    刘渝, 郭婵, 冯树耀, 周可, 肖志立
    计算机研究与发展    2021, 58 (2): 338-355.   doi: 10.7544/issn1000-1239.2021.20200388
    摘要188)   HTML4)    PDF (5307KB)(167)   
    随着多媒体数据的爆发式增长,云端数据呈现出大规模多模态混合并存的特性.服务于数据分析的传统存储系统因为缺乏数据的语义管理而面临读取延时超长的挑战.针对图像和文本2种模态数据,在传统存储系统之上提出一种跨模态图文数据内容筛选存储机制(cross-modal image and text content sifting storage, CITCSS),用于提供大规模在线相似性内容筛选服务,从存储系统层面缓解数据分析时必须从存储中读出所有数据的读带宽压力.机制分为离线与在线2个阶段.离线阶段中,引入基于自监督的生成对抗式Hash方法,系统利用这种方法生成语义元数据.然后,将元数据注入独立的元数据空间.最后,根据相似性Hash码间汉明距离能够度量语义距离的特点,利用Neo4j图数据库构建Hash元数据图谱,并在语义图谱中建立Hash码与存储路径之间的映射.在线阶段中,用户发送与分析相关的图像或文本,存储系统首先转化数据为Hash码.然后,在筛选半径内通过Hash元数据图谱寻找相似节点,进而找到相似文件的底层存储路径返回筛选数据.实验结果表明,与传统语义存储系统相比,CITCSS在召回率超过98%的性能下,读取延迟相对降低了99.07%~99.77%.
    相关文章 | 计量指标
    6. 基于持久化内存的索引设计重新思考与优化
    韩书楷, 熊子威, 蒋德钧, 熊劲
    计算机研究与发展    2021, 58 (2): 356-370.   doi: 10.7544/issn1000-1239.2021.20200394
    摘要280)   HTML6)    PDF (4151KB)(273)   
    非易失性内存(non-volatile memory, NVM)是近几年来出现的一种新型存储介质.一方面,同传统的易失性内存一样,它有着低访问延迟、可字节寻址的特性;另一方面,与易失性内存不同的是,掉电后它存储的数据不会丢失,此外它还有着更高的密度以及更低的能耗开销.这些特性使得非易失性内存有望被大规模应用在未来的计算机系统中.非易失性内存的出现为构建高效的持久化索引提供了新的思路.由于非易失性硬件还处于研究阶段,因此大多数面向非易失性内存的索引研究工作基于模拟环境开展.在2019年4月英特尔发布了基于3D-XPoint技术的非易失性内存硬件apache pass (AEP),这使得研究人员可以基于真实的硬件环境去进行相关研究工作.首先评测了真实的非易失性内存器件,结果显示AEP的写延迟接近DRAM,而读延迟是DRAM的3~4倍.基于对硬件的实际评测结果,研究发现过去很多工作对非易失性内存的性能假设存在偏差,这使得过去的一些工作大多只针对写性能进行优化,并没有针对读性能进行优化.因此,重新审视了之前研究工作,针对过去的混合索引工作进行了读优化.此外,还提出了一种基于混合内存的异步缓存方法.实验结果表明,经过异步缓存方法优化后的混合索引读性能是优化前的1.8倍,此外,经过异步缓存优化后的持久化索引最多可以降低50%的读延迟.
    相关文章 | 计量指标
    7. 基于持久性内存的单向移动B+
    闫玮, 张兴军, 纪泽宇, 董小社, 姬辰肇
    计算机研究与发展    2021, 58 (2): 371-383.   doi: 10.7544/issn1000-1239.2021.20200403
    摘要179)   HTML6)    PDF (1088KB)(112)   
    由新型非易失存储介质构成的持久性内存(persistent memory, PM)具有扩展性强、按字节访问与静态能耗低等特性,为未来主存与辅存融合提供了强大的契机.然而由于LLC(last level cache)具有易失性且与主存交互粒度通常为64B,而PM的原子持久化操作粒度为8B.因此,数据从LLC更新到PM的过程中,若发生故障,则可能破坏更新操作的失败原子性,进而影响原始数据的完整性.为了保证更新操作的失败原子性,目前研究主要采用显式调用持久化指令与内存屏障指令,将数据有序地持久化到PM上,但该操作会造成显著的开销,在索引更新中尤为明显.在对索引进行更新时,往往会涉及到索引结构的变化,该变化需要大量的有序持久化开销.研究旨在减少基于PM的B\++树在更新过程中为保证失败原子性而引入的持久化开销.通过分析B\++树节点利用率、不同更新模式下持久化开销以及更新操作之间的关系,提出了一种基于节点内数据真实分布的数据单向移动算法.通过原地删除的方式,减少删除带来的持久化开销.利用删除操作在节点内留下的空位,减少后续插入操作造成的数据移动,进而减少数据持久化开销.基于上述算法,对B\++树的重均衡操作进行优化.最后通过实验证明,相较于最新基于PM的B\++树,提出的单向移动B\++树能够显著提高单一负载与混合负载性能.
    相关文章 | 计量指标
    8. 一种基于RDMA多播机制的分布式持久性内存文件系统
    陈茂棠, 郑圣安, 游理通, 王晶钰, 闫田, 屠要峰, 韩银俊, 黄林鹏
    计算机研究与发展    2021, 58 (2): 384-396.   doi: 10.7544/issn1000-1239.2021.20200369
    摘要303)   HTML8)    PDF (1879KB)(228)   
    持久性内存技术与远程直接内存访问(remote direct memory access, RDMA)技术的发展,为高效分布式系统的设计提供了新的思路.然而,现有的基于RDMA的分布式系统没有充分利用RDMA的多播能力,难以解决1对多传输场景下的多拷贝文件数据传输问题,严重影响了系统性能.针对此问题,提出一种基于RDMA多播机制的分布式持久性内存文件系统(RDMA multicast transmission based distributed persistent memory file system, MTFS),通过低延迟多播通信机制充分利用RDMA多播能力,将数据高效传输到多个数据节点,从而避免了多拷贝传输操作带来的高延迟.为提升传输操作灵活性,MTFS设计了多模式多播远程过程调用(remote procedure call, RPC)机制,实现了RPC请求自适应识别,并通过优化返回机制将部分传输操作移出关键路径,进一步提升传输效率.同时MTFS提供了轻量级一致性保障机制,通过设计故障恢复功能、数据校验系统、重传策略与窗口机制,当节点出现崩溃时进行快速恢复,并在传输出现错误时实现数据精准检测与纠正,保证了数据的可靠性和一致性.实验证明,MTFS在各测试集上相比现有系统GlusterFS吞吐量提升了10.2~219倍.在Redis数据库的工作负载下,MTFS相比于NOVA取得了最高10.7%的性能提升,并在多线程测试中取得了良好的可扩展性.
    相关文章 | 计量指标
    9. 一种多核友好的持久性内存键值系统
    汪庆, 朱博弘, 舒继武
    计算机研究与发展    2021, 58 (2): 397-405.   doi: 10.7544/issn1000-1239.2021.20200381
    摘要241)   HTML4)    PDF (765KB)(238)   
    相比于传统内存,持久性内存具有容量大和非易失的特点,这为构建大规模键值存储系统提供了新的机遇.然而,在多核服务器架构下设计持久性内存键值系统面临着诸多挑战,包括并发控制带来的CPU缓存抖动、对持久性内存有限写带宽的消耗和竞争以及持久性内存高延迟带来的线程冲突加剧.提出一种多核友好的持久性内存键值系统(multicore-friendly persistent memory key-value store, MPKV),通过设计高效并发控制方法和减少对持久性内存的写操作,充分提高多核并发性能.为避免锁资源带来的额外持久性内存写带宽消耗,MPKV引入了易失性锁管理机制,将写锁资源从索引中分离,在DRAM(dynamic RAM)中单独维护它们.为保证崩溃一致性和提高并发查询性能,MPKV引入了2阶段原子写机制,利用CPU提供的原子写操作指令将系统从一个一致性状态原子地切换到另一个一致性状态,并支持了无锁查询.基于易失性锁管理机制,MPKV还提出一种并发写消除机制,以提高更新操作之间的并发效率.当出现2个冲突的更新操作时,并发写消除机制让其中一个操作直接返回,不做任何持久性内存的分配与写操作.实验显示,MPKV相比于pmemkv具有更良好的性能以及多核扩展性.其中,在18线程环境下,MPKV的吞吐达到pmemkv的1.7~6.2倍.
    相关文章 | 计量指标
    10. 基于持久性内存和SSD的后端存储MixStore
    屠要峰, 陈正华, 韩银俊, 陈兵, 关东海
    计算机研究与发展    2021, 58 (2): 406-417.   doi: 10.7544/issn1000-1239.2021.20200389
    摘要267)   HTML8)    PDF (1157KB)(190)   
    持久性内存(persistent memory, PMEM)同时具备内存的低时延字节寻址和磁盘的持久化特性,将对现有软件架构体系产生革命性的变化和深远的影响.分布式存储在云计算和数据中心得到了广泛的应用,然而现有的以Ceph BlueStore为代表的后端存储引擎是面向传统机械盘和固态硬盘(solid state disk, SSD)设计的,其原有的优化设计机制不适合PMEM特性优势的发挥.提出了一种基于持久性内存和SSD的后端存储MixStore,通过易失区段标记和待删除列表技术实现了适用于持久性内存的并发跳表,用于替代RocksDB实现元数据管理机制,在保证事务一致性的同时,消除了BlueStore的compaction所引发的性能抖动等问题,同时提升元数据的并发访问性能;通过结合元数据管理机制的数据对象存储优化设计,把非对齐的小数据对象存放在PMEM中,把对齐的大块数据对象存储在SSD上,充分发挥了PMEM的字节寻址、持久性特性和SSD的大容量低成本优势,并结合延迟写入和CoW(copy-on-write)技术实现数据更新策略优化,消除了BlueStore的WAL日志引起的写放大,提升小数据写入性能.测试结果表明,在同样的硬件环境下,相比BlueStore,MixStore的写吞吐提升59%,写时延降低了37%,有效地提升了系统的性能.
    相关文章 | 计量指标