ISSN 1000-1239 CN 11-1777/TP

    2022存储系统与智能处理专题

    默认 最新文章 浏览次数
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 低CPU开销的低延迟存储引擎
    廖晓坚, 杨者, 杨洪章, 屠要峰, 舒继武
    计算机研究与发展    2022, 59 (3): 489-498.   doi: 10.7544/issn1000-1239.20210574
    摘要519)      PDF (770KB)(278)   
    近些年来,固态存储的硬件处理速率得到了极大改善.一块超低延迟的固态存储盘能在10 μs内处理4 KB大小的数据.加速I/O收割过程以构建低延迟的存储引擎是存储系统研究中的一个重要研究课题.传统存储系统通过硬件中断机制收割I/O,却引入了额外的上下文切换开销,延长了整体I/O处理时间.现有工作使用轮询机制以消除上下文切换,却要付出高昂的CPU开销.提出了一种低CPU开销的低延迟存储引擎NIO(nimble I/O),以充分发挥高性能固态存储盘的低延迟优势.NIO的核心思想是将大小I/O处理路径分离;大I/O使用硬件中断机制;小I/O引入惰性轮询机制,先睡眠一个变长时间间隔再持续轮询.NIO进一步提出了事务感知的I/O收割机制以降低事务的延迟,以及动态调整机制以应对上层应用负载以及设备内部活动的动态变化.实验显示在动态负载下,NIO与基于轮询的存储引擎性能相当,并能减少至少59%的CPU占用率.
    相关文章 | 计量指标
    2. 一种基于时间戳的高扩展性的持久性软件事务内存
    刘超杰, 王芳, 邹晓敏, 冯丹
    计算机研究与发展    2022, 59 (3): 499-517.   doi: 10.7544/issn1000-1239.20210565
    摘要298)      PDF (4326KB)(200)   
    新兴的非易失性内存(non-volatile memory, NVM)具有字节寻址、持久性、大容量和低功耗等优点,然而,在NVM上进行并发编程往往比较困难,用户既要保证数据的崩溃一致性又要保证并发的正确性.为了降低用户开发难度,研究人员提出持久性事务内存方案,但是现有持久性事务内存普遍存在扩展性较差问题.测试发现限制扩展性的关键因素在于全局逻辑时钟和冗余NVM写操作.针对这2个方面,提出了线程逻辑时钟方法,通过允许每个线程拥有一个独立时钟,消除全局逻辑时钟中心化问题;提出了缓存行感知的双版本方法,为数据维护2个版本,通过循环更新这2个版本来保证数据的崩溃一致性,从而消除冗余的NVM写操作.基于所提出的这2个方法,实现了一个基于时间戳的高扩展的持久性软件事务内存(scalable durable transactional memory, SDTM),对比测试显示,在YCSB负载下,与DudeTM和PMDK相比,SDTM的性能最多分别提高了2.8倍和29倍.
    相关文章 | 计量指标
    3. 基于近端策略优化的阻变存储硬件加速器自动量化
    魏正, 张兴军, 卓志敏, 纪泽宇, 李泳昊
    计算机研究与发展    2022, 59 (3): 518-532.   doi: 10.7544/issn1000-1239.20210551
    摘要154)      PDF (5749KB)(118)   
    卷积神经网络在诸多领域已经取得超出人类的成绩.但是,随着模型存储开销和计算复杂性的不断增加,限制处理单元和内存单元之间数据交换的“内存墙”问题阻碍了其在诸如边缘计算和物联网等资源受限环境中的部署.基于阻变存储的硬件加速器由于具有高集成度和低功耗等优势,被广泛应用于加速矩阵-向量乘运算,但是其不适合进行32 b浮点数计算,因此需要量化来降低数据精度.手工为每一层确定量化位宽非常耗时,近期的研究针对现场可编程门阵列(field programmable gate array, FPGA)平台使用基于深度确定性策略梯度(deep deterministic policy gradient, DDPG)的强化学习来进行自动量化,但需要将连续动作转换为离散动作,并通过逐层递减量化位宽来满足资源约束条件.基于此,提出基于近端策略优化(proximal policy optimization, PPO)算法的阻变存储硬件加速器自动量化,使用离散动作空间来避免动作空间转换步骤,设计新的奖励函数使PPO自动学习满足资源约束的最优量化策略,并给出软硬件设计改动以支持混合精度计算.实验结果表明:与粗粒度的量化相比,提出的方法可以减少20%~30%的硬件开销,而不引起模型准确度的过多损失.与其他自动量化相比,提出的方法搜索时间短,并且在相同的资源约束条件下可以进一步减少约4.2%的硬件开销.这为量化算法和硬件加速器的协同设计提供了参考.
    相关文章 | 计量指标
    4. 基于自选尾数压缩的高能效浮点忆阻存内处理系统
    丁文隆, 汪承宁, 童薇
    计算机研究与发展    2022, 59 (3): 533-552.   doi: 10.7544/issn1000-1239.20210580
    摘要148)      PDF (3743KB)(111)   
    矩阵向量乘法(matrix-vector multiplication, MVM)运算是高性能科学线性系统求解的重要计算内核.Feinberg等人最近的工作提出了将高精度浮点数部署在忆阻阵列上的方法,显示出其在加速科学MVM运算方面的巨大潜力.由于科学计算不同类型的应用对于求解精度的要求各不相同,为具体应用提供合适的计算方式是进一步降低系统能耗的有效途径.展示了一种拥有尾数压缩与对齐位优化策略的系统,在实现高精度浮点数忆阻MVM运算这一基本功能的前提下,能够根据具体应用的求解精度要求选择合适的浮点数尾数压缩位数.通过忽略浮点数尾数权重较小的部分低位与冗余的对齐位的阵列激活,减小运算时阵列及外围电路的能耗.评估结果表明:当忆阻器求解相对于软件基线平均分别有0~10\+\{-3\}数量级的求解残差时,平均运算阵列能耗与模数转换器能耗相对于已有的优化前的系统分别减少了5%~65%与30%~55%.
    相关文章 | 计量指标
    5. 耐久性感知的持久性内存异地更新
    蔡长兴, 杜亚娟, 周泰宇
    计算机研究与发展    2022, 59 (3): 553-567.   doi: 10.7544/issn1000-1239.20210541
    摘要122)      PDF (1984KB)(72)   
    持久性内存具有非易失性、可字节寻址、随机读写速度快、能耗低以及可扩展性强等优良特性,为大数据存储和处理提供了新的机遇.然而,持久性内存系统的故障一致性问题为其广泛推广应用带来挑战.现有一致性保证的研究工作通常以增加额外读写为代价,对持久性内存系统的性能和寿命在时间和空间维度产生了一定的影响.为了降低该影响,提出一种耐久性感知的持久性内存异地更新机制(endurance aware out-of-place update for persistent memory, EAOOP).通过软件透明的异地更新技术,为持久性内存提供耐久性感知的内存管理,将数据交替刷新至原始数据区域和更新数据区域.EAOOP既保证了系统的故障一致性,又避免了冗余的数据合并操作.同时,为了高效利用内存空间,在后台执行轻量级垃圾回收,处理更新数据区域的旧数据,减少了额外的写放大和带宽占用,从而进一步降低了对持久性内存寿命和性能的影响.实验显示,EAOOP相比于现有工作,具有更高的性能和更少的开销.其中,事务处理吞吐量提升了1.6倍,总线延迟和写数量分别减少了27.3%和32.4%.
    相关文章 | 计量指标
    6. 基于DRAM牺牲Cache的异构内存页迁移机制
    裴颂文, 钱艺幻, 叶笑春, 刘海坤, 孔令和
    计算机研究与发展    2022, 59 (3): 568-581.   doi: 10.7544/issn1000-1239.20210567
    摘要204)      PDF (2837KB)(149)   
    当海量数据请求访问异构内存系统时,异构内存页在动态随机存储器(dynamic random access memory, DRAM)和非易失性存储器(non-volatile memory, NVM)之间进行频繁的往返迁移.然而,应用于传统内存页的迁移策略难以适应内存页“冷”“热”度的快速动态变化,这使得从DRAM迁移至NVM的“冷”页面可能在短时间内变“热”从而产生大量冗余的迁移操作.当前的相关研究都仅着眼于正在执行迁移的页面而忽视了等待迁移和完成迁移的页面,且判断“冷”“热”程度的标准不一,使得冗余的迁移大量产生.因此,提出了一个基于DRAM牺牲Cache的异构内存页迁移机制(VC-HMM),使用非易失性存储器中工艺较为成熟的相变存储器(phase change memory, PCM),通过在DRAM和PCM之间增加一个由DRAM构成的小容量牺牲Cache将系统主存DRAM中变“冷”的页面迁移到牺牲Cache中,以避免主存页面在短时间内再次变“热”而造成的冗余迁移.同时,还使得迁回PCM的部分页面不需要写回,减少PCM存储单元的写入操作次数,延长PCM的使用寿命.另外,对于不同的工作负载,VC-HMM可以自适应设置迁移操作的参数,增加迁移的合理性.实验结果表明:与其他迁移策略(CoinMigrator,MQRA,THMigrator)相比,VC-HMM平均减少了至少62.97%的PCM写操作次数、22.72%的平均访问时延、38.37%的重复迁移操作以及3.40%的系统能耗.
    相关文章 | 计量指标
    7. RS类纠删码的译码方法
    唐聃, 蔡红亮, 耿微
    计算机研究与发展    2022, 59 (3): 582-596.   doi: 10.7544/issn1000-1239.20210575
    摘要135)      PDF (2885KB)(48)   
    RS(Reed-Solomon)码可以根据应用环境构造出任意容错能力的码字,有很好的灵活性,且使用RS纠删码作为容错方法的存储系统能达到理论最优的存储效率.但是,与异或(exclusive-OR, XOR)类纠删码相比,RS类纠删码译码计算的时间开销过大,这又很大程度上阻碍了它在分布式存储系统中的使用.针对这一问题,提出了一类RS纠删码的译码方法,该方法完全抛弃了当前大多RS类纠删码译码方法中普遍使用的矩阵求逆运算,仅使用计算复杂度更小的加法和乘法,通过构造译码变换矩阵并在此矩阵上执行相应的简单的矩阵变换,能够直接得出失效码元由有效码元组成的线性组合关系,从而降低译码计算复杂度.最后,通过理论证明了该方法的正确性,并且针对每种不同大小的文件,进行3种不同大小文件块的划分,将划分得到的数据块进行实验,实验结果表明:在不同的文件分块大小情况下,该新译码方法较其他方法的译码时间开销更低.
    相关文章 | 计量指标
    8. 近数据计算下键值存储中Compaction并行优化方法
    孙辉, 娄本冬, 黄建忠, 赵雨虹, 符松
    计算机研究与发展    2022, 59 (3): 597-616.   doi: 10.7544/issn1000-1239.20210577
    摘要134)      PDF (8746KB)(59)   
    大规模非结构化数据的爆炸式增长给传统关系型数据库带来了极大的挑战.基于日志结构合并树(log-structured merge tree, LSM-tree)的键值存储系统已被广泛应用,并起到重要的作用,原因在于基于LSM-tree的键值存储能够将随机写转化为顺序写,从而提升性能.然而,LSM-tree键值存储也存在一些性能问题.一方面,键值存储利用compaction操作更新数据,保持系统平衡,但造成严重的写放大问题.另一方面,以传统计算为中心的架构下,compaction操作带来大量的数据传输,影响了系统性能.以数据为中心的近数据计算模型(near-data processing, NDP)为基础,利用该模型下主机端与近数据计算使能设备端的并行资源,提出基于系统并行与流水线并行的compaction优化方法(collaborative parallel compaction optimization for LSM-tree key-value stores, CoPro).当处理compaction操作时,CoPro主机端与NDP设备端协同执行compaction卸载任务.此外,进一步提出基于决策组件的CoPro+,根据系统资源变化以及负载键值对中值大小的变化来动态调整并行度,使NDP架构中计算资源的使用更加高效.在搭建的硬件平台上验证了CoPro的有效性.
    相关文章 | 计量指标