前言

近年来,随着国家和社会信息化发展的不断加速,对信息存储提出了越来越高的要求.一方面,大数据时代,数据存储的规模和处理需求越来越高,亟需新型存储系统和技术以提供更高的性能和更好的可扩展性.另一方面,由于各种人工智能系统及相关技术的出现,现有的存储技术和系统难以满足上层系统和技术的需求.因此,存储系统结构技术研究面临诸多新的机遇和挑战.

基于上述背景,为促进存储领域技术交流,《计算机研究与发展》推出了本期“大数据与智能存储系统前沿技术”专题.本期专题收录了8篇论文,分别展示了新型存储优化和大数据存储等存储领域研究热点的研究现状和最新研究成果,希望能为从事相关工作的读者提供借鉴和帮助.

张铭等作者的论文“面向非易失内存写优化的重计算方法”深入分析了非易失存储技术的优缺点,并针对其擦写次数有限以及写操作延迟高等缺点,研究提出了基于结点出度的重计算方法ROD,利用计算换存储的方式减少写NVM 的次数,以实现性能提升.

蔡涛等作者的论文“基于冲突检测的高吞吐NVM存储系统”深入分析了目前影响NVM存储系统性能的主要因素,将存储系统访问请求的管理嵌入到存储设备中,利用NVM 存储设备自主管理访问请求,使用基于冲突检测的方法代替基于文件系统的现有锁机制,通过提高操作系统执行访问请求的并发度,缓解设备接口带来的瓶颈问题,从而实现高吞吐的NVM 存储系统.

何柯文等作者的论文“新型存储设备上重复数据删除指纹查找优化”深入研究了重复数据删除系统的指纹查找问题,针对新型存储设备(固态硬盘和持久性内存)的特点,给出了指纹查找的优化设计.

陈游旻等作者的论文“一种持久性内存文件系统数据页的混合管理机制”针对持久性内存的特点,提出了一种文件系统数据页的混合管理机制,通过选择性使用写时复制机制和日志结构管理文件数据,以充分发挥持久性内存字节可寻址特性,避免传统单一模式在非对齐写或者小写造成的写放大问题.

包涵等作者的论文“基于生成矩阵变换的跨数据中心纠删码写入方法”深入分析了数据中心容灾的现实需求和纠删码存储的技术特点,针对跨数据中心的纠删码写入效率问题,研究提出了一种基于生成矩阵变换的跨数据中心纠删码写入方法,有效兼顾纠删码的编码效率和传输效率,从而提升跨数据中心的纠删码写入速度.

杨洪章等作者的论文“基于‘采集-预测-迁移-反馈’机制的主动容错技术”针对数据中心频繁出现的硬盘故障问题,采用预测硬盘故障、提前迁移数据的思想,设计了“采集-预测-迁移-反馈”全流程主动容错机制,主动避免硬盘故障对数据中心系统性能的影响.

申毅杰等作者的论文“基于收益模型的Spark SQL数据重用机制”关注大数据分析中的重复计算问题,研究提出了基于收益模型的、细粒度的自动数据重用机制,以提高查询效率和缓存空间的利用率,充分发挥数据重用的优势.

赵慧慧等作者的论文“基于地理空间大数据的高效索引与检索算法”深入研究了地理空间大数据的特点,针对高效检索的现实需求,提出了一种对二维地理空间信息数据进行多层切片递归的空间索引树构造算法,为数据查询提供有效支撑.

本专题所录用的8篇论文中,4篇论文重点关注如何利用新型存储设备的特点优化提升存储系统的性能,另外4篇论文重点关注基于数据中心的大数据存储系统的可靠性和可用性问题.既关注前沿热点,又关注实用系统.由于稿源丰富和专题篇幅有限等原因,本专题无法全面覆盖存储领域各方面的最新研究进展,不当之处请同行学者批评指正!感谢各位作者、审稿专家和编辑部的全力支持和辛勤付出!

舒继武 (清华大学)

王意洁(国防科技大学)2020年1月