ISSN 1000-1239 CN 11-1777/TP

    2020大数据与智能存储系统前沿技术专题

    默认 最新文章 浏览次数
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 2020大数据与智能存储系统前沿技术专题前言
    舒继武, 王意洁
    计算机研究与发展    2020, 57 (2): 241-242.   doi: 10.7544/issn1000-1239.2020.qy0201
    摘要1494)   HTML159)    PDF (192KB)(802)   

          近年来,随着国家和社会信息化发展的不断加速,对信息存储提出了越来越高的要求. 一方面,大数据时代,数据存储的规模和处理需求越来越高,亟需新型存储系统和技术以提供更高的性能和更好的可扩展性. 另一方面,由于各种人工智能系统及相关技术的出现,现有的存储技术和系统难以满足上层系统和技术的需求. 因此,存储系统结构技术研究面临诸多新的机遇和挑战.

          基于上述背景,为促进存储领域技术交流,《计算机研究与发展》推出了本期“大数据与智能存储系统前沿技术”专题. 本期专题收录了8篇论文,分别展示了新型存储优化和大数据存储等存储领域研究热点的研究现状和最新研究成果,希望能为从事相关工作的读者提供借鉴和帮助.

    相关文章 | 计量指标
    2. 面向非易失内存写优化的重计算方法
    张铭, 华宇, 刘璐荣, 胡蓉, 李子怡
    计算机研究与发展    2020, 57 (2): 243-256.   doi: 10.7544/issn1000-1239.2020.20190524
    摘要650)   HTML17)    PDF (2602KB)(442)   
    非易失存储(non-volatile memory, NVM)技术的兴起给计算机存储系统带来了很多机遇与挑战.与DRAM相比,NVM作为持久性内存具有非易失、低能耗以及高存储密度等优点,但同时它也具有擦/写次数有限以及写操作延迟高等缺点,故以NVM为内存的系统需要减少对内存的写操作,以提升NVM寿命和系统性能.为了解决这个问题,提出了基于结点出度的重计算方法(re-computation scheme based on the out degree of computing nodes, ROD),由于CPU与内存间的性能差距会导致CPU计算资源的浪费,为此ROD方法选择性地丢弃本需要存储到内存的计算结果,需要时再重新计算得到,利用计算换存储的方式减少写NVM的次数.实验采用powerstone测试集,在搭载了NVMain的Gem5模拟器中对ROD方法与贪心重计算方法和以存储为主导的无重计算方法做性能对比.结果表明ROD方法相比于存储主导的方法平均减少44.3%(最高68.5%)的写操作.ROD方法的运行耗时比存储主导的方法平均减少28.1%(最高68.6%),比贪心重计算的方法平均减少9.3%(最高19.4%).
    相关文章 | 计量指标
    3. 基于冲突检测的高吞吐NVM存储系统
    蔡涛, 王杰, 牛德姣, 刘佩瑶, 陈福丽
    计算机研究与发展    2020, 57 (2): 257-268.   doi: 10.7544/issn1000-1239.2020.20190526
    摘要544)   HTML14)    PDF (2727KB)(225)   
    非易失性存储器(non-volatile memory, NVM)是解决计算机系统存储墙问题的有效手段,但现有的I/O栈缺乏相应的适应和优化机制,特别是基于文件系统的锁机制是影响NVM存储系统性能的重要因素.将存储系统访问请求的管理嵌入到存储设备中,利用NVM存储设备自主管理访问请求,使用基于冲突检测的方法代替基于文件系统的现有锁机制,提高操作系统执行访问请求的并发度,缓解设备接口带来的瓶颈问题.给出了高吞吐NVM存储系统的结构,设计了一种基于二维链表的访问请求管理方法减少访问请求管理中的冲突,一种基于冲突检测的访问请求调度算法用于管理NVM存储设备中共享的访问请求,并给出了新访问请求提交和已有访问请求释放流程,并基于Intel的开源NVM存储设备模拟器PMEM实现了HTPM的原型系统,使用Filebench中的多种负载和Fio测试了HTPM的吞吐率和I/O性能,实验结果表明:HTPM相比PMEM最大能提高31.9%的IOPS值和21.4%的I/O性能.
    相关文章 | 计量指标
    4. 新型存储设备上重复数据删除指纹查找优化
    何柯文, 张佳辰, 刘晓光, 王刚
    计算机研究与发展    2020, 57 (2): 269-280.   doi: 10.7544/issn1000-1239.2020.20190543
    摘要512)   HTML13)    PDF (1942KB)(287)   
    指纹查找部分是I/O密集型工作负载,即外存存储设备的性能是指纹查找的性能瓶颈.因此关注重复数据删除系统的指纹查找部分,对比了传统的勤奋指纹查找算法和致力于减少磁盘访问次数的懒惰指纹查找算法,分析了2种方法在傲腾固态硬盘(Optane solid state drive, Optane SSD)和持久性内存(persistent memory, PM)两种新型存储设备上的性能表现,并给出了优化建议.对勤奋指纹查找算法和懒惰指纹查找算法的时间进行建模,分析得出了指纹查找算法在新型存储设备下的3点优化结论:1)应减少统一查找的指纹数;2)在较快设备上应减少懒惰指纹查找中局部性环的大小,并且局部性环大小存在一个最优值;3)在快速设备上,勤奋指纹查找的效果要优于懒惰指纹查找.最终,在实际机械硬盘(hard disk drive, HDD)、Optane SSD和PM模拟器上实验验证了模型的正确性.实验结果显示,快速设备上指纹查找的时间相较于HDD减少90%以上,并且采用勤奋算法要优于懒惰算法,局部性环最优值前移的现象,也与模型理论优化结果吻合.
    相关文章 | 计量指标
    5. 一种持久性内存文件系统数据页的混合管理机制
    陈游旻, 朱博弘, 韩银俊, 屠要峰, 舒继武
    计算机研究与发展    2020, 57 (2): 281-290.   doi: 10.7544/issn1000-1239.2020.20190574
    摘要503)   HTML15)    PDF (1047KB)(259)   
    英特尔于2019年4月正式发布基于3D-Xpoint技术的傲腾持久性内存(Optane DC persistent memory),这为构建高效的持久性内存存储系统提供了新的机遇.然而,现有的存储系统软件并不能很好地利用其字节寻址特性,持久性内存性能很难充分发挥.提出一种文件系统数据页的混合管理机制HDPM,通过选择性使用写时复制机制和日志结构管理文件数据,充分发挥持久性内存字节可寻址特性,从而避免了传统单一模式在非对齐写或者小写造成的写放大问题.为避免影响读性能,HDPM引入逆向扫描机制,实现日志结构重构数据页时不引入额外数据拷贝.HDPM还提出一种多重垃圾回收机制进行日志清理.当单个日志结构过大时,通过读写流程主动回收日志结构;当持久性内存空间受限时,则通过后台线程使用免锁机制异步释放日志空间.实验显示,HDPM相比于NOVA文件系统,单线程写延迟降低达58%,且读延迟不受影响;Filebench多线程测试显示,HDPM相比于NOVA提升吞吐率33%.
    相关文章 | 计量指标
    6. 基于生成矩阵变换的跨数据中心纠删码写入方法
    包涵, 王意洁, 许方亮
    计算机研究与发展    2020, 57 (2): 291-305.   doi: 10.7544/issn1000-1239.2020.20190542
    摘要368)   HTML6)    PDF (4535KB)(170)   
    近年来,为了避免数据因数据中心故障而永久丢失,各大机构开始尝试采用容错技术将数据存放在跨数据中心存储系统中.作为一种具有高容错性和低冗余度的容错技术,纠删码被广泛应用于单数据中心存储系统中.然而,在跨数据中心存储系统中,已有纠删码写入方法的网络资源消耗量大、编码效率低且传输效率低,这使得跨数据中心纠删码的写入速度难以适应于日益增长的数据生成速度.为提高跨数据中心纠删码的写入速度,提出了一种基于生成矩阵变换的跨数据中心纠删码写入方法(cross-datacenter erasure code writing method based on generator matrix transformation, CREW).通过对传输拓扑和生成矩阵进行优化,CREW可使写入过程中需要长距离传输的数据块尽可能地少,从而达到降低网络资源消耗量的目的.通过在数据中心间采用分布式的数据传输和数据编码、在各数据中心内部采用集中式的数据传输和数据编码,CREW可在编码效率和传输效率间取得较好权衡.在跨数据中心环境下的实验表明:与2种广泛使用的传统纠删码写入方法相比,CREW的写入速度提高了36.3%~57.9%;与现有的跨数据中心纠删码写入方法IncEncoding相比,CREW的写入速度提高了32.4%.
    相关文章 | 计量指标
    7. 基于“采集—预测—迁移—反馈”机制的主动容错技术
    杨洪章, 杨雅辉, 屠要峰, 孙广宇, 吴中海
    计算机研究与发展    2020, 57 (2): 306-317.   doi: 10.7544/issn1000-1239.2020.20190549
    摘要720)   HTML25)    PDF (1574KB)(316)   
    硬盘故障是数据中心最主要的故障,严重影响了可靠性.传统的数据容错技术一般都是通过增加数据冗余来实现的,存在缺陷.主动容错技术通过预测硬盘故障提前将数据迁移,成为研究热点.现有技术大多研究硬盘故障预测,缺乏采集、迁移、反馈的研究,难以商用.提出“采集—预测—迁移—反馈”全流程主动容错机制,包括:分时硬盘信息采集方法、滑动窗口记录合并及样本构建方法、多类型硬盘故障预测方法、多盘联合数据迁移方法、预测结果二级验证及快速反馈方法.测试表明:采集硬盘信息对业务影响仅0.96%,硬盘故障预测召回率达94.66%,数据修复时间较传统方法减少55.10%.该工作已在中兴通讯的数据中心稳定商用,满足了主动容错技术在高可靠、高智能、低干扰、低成本、广适用等核心目标.
    相关文章 | 计量指标
    8. 基于收益模型的Spark SQL数据重用机制
    申毅杰, 曾丹, 熊劲
    计算机研究与发展    2020, 57 (2): 318-332.   doi: 10.7544/issn1000-1239.2020.20190563
    摘要448)   HTML14)    PDF (3529KB)(233)   
    通过数据分析发现海量数据中的潜在价值,能够带来巨大的收益.Spark具有良好的系统扩展性与处理性能,因而被广泛运用于大数据分析.Spark SQL是Spark最常用的编程接口.在数据分析应用中存在着大量的重复计算,这些重复计算不仅浪费系统资源,而且导致查询运行效率低.但是Spark SQL无法感知查询语句之间的重复计算.为此,提出了基于收益模型的、细粒度的自动数据重用机制Criss以减少重复计算.针对混合介质,提出了感知异构I/O性能的收益模型用于自动识别重用收益最大的算子计算结果,并采用Partition粒度的数据重用和缓存管理,以提高查询效率和缓存空间的利用率,充分发挥数据重用的优势.基于Spark SQL和TachyonFS,实现了Criss系统.实验结果表明:Criss的查询性能比原始Spark SQL提升了46%~68%.
    相关文章 | 计量指标
    9. 基于地理空间大数据的高效索引与检索算法
    赵慧慧, 赵凡, 陈仁海, 冯志勇
    计算机研究与发展    2020, 57 (2): 333-345.   doi: 10.7544/issn1000-1239.2020.20190565
    摘要630)   HTML28)    PDF (4069KB)(475)   
    近年来,随着智能目标识别、电子传感器、协同控制以及计算机网络等先进技术的快速发展,智能交通系统实现了质的飞越,现代智能交通系统可以实现车、路、云端于一体的智能交通运输管理平台.但智能交通系统依赖于每天产生的大量的2维地理空间信息数据,因此,如何对大规模的地理空间数据进行高效的存储和查询对智能交通系统未来的普及和发展具有重要意义.然而,由于城市交通信息的复杂性、数据量大、更新速度快等特征,当前的空间索引技术很难针对2维地理空间信息数据进行高效的检索.为了优化空间大数据下2维地理空间信息数据的存储组织结构、提高检索效率,提出了一种对2维地理空间信息数据进行多层切片递归的空间索引树构造算法(multi-layer slice recursive, MSR).提出的算法首先对地图数据第1维度进行排序划分切片,生成FD(first division)切片;然后对FD切片中的地图数据进行第2维度排序,生成SD(second division)切片,在SD切片中对当前切片和相邻切片划分空间对象;最后对空间对象长度与节点容量比较进行数据聚类操作,通过判断所有切片是否完成聚类操作,自下而上递归生成MSR 树.实验表明,MSR算法构建的2维空间存储结构的查询性能优于现在最具代表性的空间索引技术基于R树的批量加载算法(sort tile recursive, STR)、STR-网格混合算法(str-grid)及高效几何范围查询算法(efficient geometric range query, EGRQ).
    相关文章 | 计量指标