• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

新型存储设备上重复数据删除指纹查找优化

何柯文, 张佳辰, 刘晓光, 王刚

何柯文, 张佳辰, 刘晓光, 王刚. 新型存储设备上重复数据删除指纹查找优化[J]. 计算机研究与发展, 2020, 57(2): 269-280. DOI: 10.7544/issn1000-1239.2020.20190543
引用本文: 何柯文, 张佳辰, 刘晓光, 王刚. 新型存储设备上重复数据删除指纹查找优化[J]. 计算机研究与发展, 2020, 57(2): 269-280. DOI: 10.7544/issn1000-1239.2020.20190543
He Kewen, Zhang Jiachen, Liu Xiaoguang, Wang Gang. Fingerprint Search Optimization for Deduplication on Emerging Storage Devices[J]. Journal of Computer Research and Development, 2020, 57(2): 269-280. DOI: 10.7544/issn1000-1239.2020.20190543
Citation: He Kewen, Zhang Jiachen, Liu Xiaoguang, Wang Gang. Fingerprint Search Optimization for Deduplication on Emerging Storage Devices[J]. Journal of Computer Research and Development, 2020, 57(2): 269-280. DOI: 10.7544/issn1000-1239.2020.20190543
何柯文, 张佳辰, 刘晓光, 王刚. 新型存储设备上重复数据删除指纹查找优化[J]. 计算机研究与发展, 2020, 57(2): 269-280. CSTR: 32373.14.issn1000-1239.2020.20190543
引用本文: 何柯文, 张佳辰, 刘晓光, 王刚. 新型存储设备上重复数据删除指纹查找优化[J]. 计算机研究与发展, 2020, 57(2): 269-280. CSTR: 32373.14.issn1000-1239.2020.20190543
He Kewen, Zhang Jiachen, Liu Xiaoguang, Wang Gang. Fingerprint Search Optimization for Deduplication on Emerging Storage Devices[J]. Journal of Computer Research and Development, 2020, 57(2): 269-280. CSTR: 32373.14.issn1000-1239.2020.20190543
Citation: He Kewen, Zhang Jiachen, Liu Xiaoguang, Wang Gang. Fingerprint Search Optimization for Deduplication on Emerging Storage Devices[J]. Journal of Computer Research and Development, 2020, 57(2): 269-280. CSTR: 32373.14.issn1000-1239.2020.20190543

新型存储设备上重复数据删除指纹查找优化

基金项目: 国家自然科学基金项目(U1833114,61872201,61702521,61602266);天津市自然科学基金项目(17JCYBJC15300,16JCYBJC41900);天津市人工智能重大专项项目(18ZXZNGX00140,18ZXZNGX00200);中央高校基本科研业务费专项资助项目
详细信息
  • 中图分类号: TP391

Fingerprint Search Optimization for Deduplication on Emerging Storage Devices

Funds: This work was supported by the National Natural Science Foundation of China (U1833114, 61872201, 61702521, 61602266), the Natural Science Foundation of Tianjin (17JCYBJC15300, 16JCYBJC41900), the Artificial Intelligence Major Project of Tianjin (18ZXZNGX00140, 18ZXZNGX00200), and the Fundamental Research Funds for the Central Universities.
  • 摘要: 指纹查找部分是I/O密集型工作负载,即外存存储设备的性能是指纹查找的性能瓶颈.因此关注重复数据删除系统的指纹查找部分,对比了传统的勤奋指纹查找算法和致力于减少磁盘访问次数的懒惰指纹查找算法,分析了2种方法在傲腾固态硬盘(Optane solid state drive, Optane SSD)和持久性内存(persistent memory, PM)两种新型存储设备上的性能表现,并给出了优化建议.对勤奋指纹查找算法和懒惰指纹查找算法的时间进行建模,分析得出了指纹查找算法在新型存储设备下的3点优化结论:1)应减少统一查找的指纹数;2)在较快设备上应减少懒惰指纹查找中局部性环的大小,并且局部性环大小存在一个最优值;3)在快速设备上,勤奋指纹查找的效果要优于懒惰指纹查找.最终,在实际机械硬盘(hard disk drive, HDD)、Optane SSD和PM模拟器上实验验证了模型的正确性.实验结果显示,快速设备上指纹查找的时间相较于HDD减少90%以上,并且采用勤奋算法要优于懒惰算法,局部性环最优值前移的现象,也与模型理论优化结果吻合.
    Abstract: Fingerprint search part is I/O intensive, and the performance of the external storage device is the bottleneck of fingerprint search. Therefore, this paper focuses on the fingerprint search of data deduplication system. This paper compares the traditional eager deduplication algorithm with lazy deduplication algorithms that reduce the number of disk accesses, and studies deduplication algorithm on the emerging storage devices: Optane SSD and persistent memory, and gives optimization suggestions. In this paper, we model the fingerprint search delay of the eager deduplication algorithm and the lazy deduplication algorithm, and three conclusions under the new storage device are obtained through the modeling results: 1) The number of fingerprints for batched search should be reduced; 2) The local ring size should be reduced on faster devices, and the local loop size has an optimal value; 3) On fast devices, the eager fingerprint lookup is better than the lazy fingerprint lookup. Finally, the experimental results verify the correctness of our model on the actual HDD, Optane SSD and emulated persistent memory. The eager algorithm is better than the lazy algorithm on the emerging storage devices, and the locality ring optimal value is advanced, which basically conforms to the conclusions of the proposed model.
  • 期刊类型引用(27)

    1. 高改梅,张瑾,刘春霞,党伟超,白尚旺. 基于区块链与CP-ABE策略隐藏的众包测试任务隐私保护方案. 计算机应用. 2024(03): 811-818 . 百度学术
    2. 景旭,邢胜飞. 基于PBFT的猕猴桃溯源联盟链应用访问控制方案. 农业机械学报. 2023(01): 183-195 . 百度学术
    3. 宋智明,余益民,王贵文,陈韬伟. 基于区块链智能合约的数字身份可验证凭证零知识认证和管理架构. 信息安全学报. 2023(01): 55-77 . 百度学术
    4. 田秀霞,杨明夷. 家庭物联网中基于智能合约的访问控制机制. 计算机工程. 2023(03): 18-28 . 百度学术
    5. 王少泫,彭俊利. 云存储数据安全技术研究. 网络安全技术与应用. 2023(06): 69-72 . 百度学术
    6. 王茜,朱俊伟,张晓东. 电子材料可控共享控制模型——基于政务联盟链. 计算机应用与软件. 2023(07): 342-349 . 百度学术
    7. 谢毅,张晓燕,黄娟娟,吴谋凡,陈林. 基于区块链可信认证的准入管控技术应用. 数字通信世界. 2023(11): 133-135 . 百度学术
    8. 刘孝保,孙海彬,阴艳超,姚廷强,杨林. 面向制造业产业链图状区块链模型. 计算机集成制造系统. 2023(12): 4267-4281 . 百度学术
    9. 陈立全,贾继广,王泽雨,于坤良. 基于区块链上策略密文检索的属性访问控制方案. 密码学报. 2023(06): 1165-1182 . 百度学术
    10. 孔祥科,李树彬,李青桐. 物联网环境下共享停车区块链模型研究. 山东建筑大学学报. 2022(01): 92-99 . 百度学术
    11. 张金龙,员青泽. 一种云计算系统信任度访问控制方法仿真. 计算机仿真. 2022(02): 472-475+486 . 百度学术
    12. 李叶宏. 基于区块链技术的司法执行创新研究. 西北民族大学学报(哲学社会科学版). 2022(02): 76-86 . 百度学术
    13. 张晓东,陈韬伟,余益民,王会源. 基于区块链和密文属性加密的访问控制方案. 计算机应用研究. 2022(04): 986-991 . 百度学术
    14. 刘炜,盛朝阳,佘维,田钊. 基于智能合约的分类分级属性访问控制方法. 计算机应用研究. 2022(05): 1313-1318 . 百度学术
    15. MIAO Siwei,ZHANG Xiaojuan,LIU Zhe. Fine-Grained Access Control Mechanism of Energy Internet. Wuhan University Journal of Natural Sciences. 2022(03): 231-239 . 必应学术
    16. 刘峰,杨杰,齐佳音. 区块链密码学隐私保护技术综述. 网络与信息安全学报. 2022(04): 29-44 . 百度学术
    17. 刘奇旭,靳泽,陈灿华,高新博,郑宁军,方仪伟,冯云. 物联网访问控制安全性综述. 计算机研究与发展. 2022(10): 2190-2211 . 本站查看
    18. 吴斌,严建峰. 基于区块链技术的分布式可信网络接入认证. 计算机仿真. 2021(01): 277-281 . 百度学术
    19. 姚中原,潘恒,祝卫华,斯雪明. 区块链物联网融合:研究现状与展望. 应用科学学报. 2021(01): 174-184 . 百度学术
    20. 闾海荣,姜楠,许瑞坤,周容辰. 区块链在物联网中的应用态势分析. 数据与计算发展前沿. 2021(01): 34-47 . 百度学术
    21. 刘炜,彭宇飞,田钊,盛朝阳,李阳,佘维. 基于区块链的医疗信息隐私保护研究综述. 郑州大学学报(理学版). 2021(02): 1-18 . 百度学术
    22. 沈海波,陈强,黄海. 语义区块链研究综述. 计算机应用研究. 2021(07): 1937-1942 . 百度学术
    23. 郭显,王雨悦,冯涛,曹来成,蒋泳波,张迪. 基于区块链的工业控制系统角色委派访问控制机制. 计算机科学. 2021(09): 306-316 . 百度学术
    24. 梁晓艳,杜瑞忠. IoT下CapBAC规则语义表示及其时间间隔粗糙性分析. 通信学报. 2021(09): 43-53 . 百度学术
    25. 魏占祯,彭星源,赵洪. SDN中基于用户信任度的资源访问控制方案. 信息网络安全. 2021(10): 33-40 . 百度学术
    26. 王金威. 基于IPv6环境的网络信息安全访问控制模型设计. 黑龙江工业学院学报(综合版). 2021(11): 79-84 . 百度学术
    27. 谢绒娜,李晖,史国振,郭云川,张铭,董秀则. 基于区块链的可溯源访问控制机制. 通信学报. 2020(12): 82-93 . 百度学术

    其他类型引用(40)

计量
  • 文章访问数:  1141
  • HTML全文浏览量:  2
  • PDF下载量:  368
  • 被引次数: 67
出版历程
  • 发布日期:  2020-01-31

目录

    /

    返回文章
    返回