• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

NV-Shuffle:基于非易失内存的Shuffle机制

潘锋烽, 熊劲

潘锋烽, 熊劲. NV-Shuffle:基于非易失内存的Shuffle机制[J]. 计算机研究与发展, 2018, 55(2): 229-245. DOI: 10.7544/issn1000-1239.2018.20170742
引用本文: 潘锋烽, 熊劲. NV-Shuffle:基于非易失内存的Shuffle机制[J]. 计算机研究与发展, 2018, 55(2): 229-245. DOI: 10.7544/issn1000-1239.2018.20170742
Pan Fengfeng, Xiong Jin. NV-Shuffle: Shuffle Based on Non-Volatile Memory[J]. Journal of Computer Research and Development, 2018, 55(2): 229-245. DOI: 10.7544/issn1000-1239.2018.20170742
Citation: Pan Fengfeng, Xiong Jin. NV-Shuffle: Shuffle Based on Non-Volatile Memory[J]. Journal of Computer Research and Development, 2018, 55(2): 229-245. DOI: 10.7544/issn1000-1239.2018.20170742
潘锋烽, 熊劲. NV-Shuffle:基于非易失内存的Shuffle机制[J]. 计算机研究与发展, 2018, 55(2): 229-245. CSTR: 32373.14.issn1000-1239.2018.20170742
引用本文: 潘锋烽, 熊劲. NV-Shuffle:基于非易失内存的Shuffle机制[J]. 计算机研究与发展, 2018, 55(2): 229-245. CSTR: 32373.14.issn1000-1239.2018.20170742
Pan Fengfeng, Xiong Jin. NV-Shuffle: Shuffle Based on Non-Volatile Memory[J]. Journal of Computer Research and Development, 2018, 55(2): 229-245. CSTR: 32373.14.issn1000-1239.2018.20170742
Citation: Pan Fengfeng, Xiong Jin. NV-Shuffle: Shuffle Based on Non-Volatile Memory[J]. Journal of Computer Research and Development, 2018, 55(2): 229-245. CSTR: 32373.14.issn1000-1239.2018.20170742

NV-Shuffle:基于非易失内存的Shuffle机制

基金项目: 国家重点研发计划项目(2016YFB1000202);国家自然科学基金项目(61379042)
详细信息
  • 中图分类号: TP316.81.2

NV-Shuffle: Shuffle Based on Non-Volatile Memory

  • 摘要: Shuffle是大数据处理过程中一个极为重要的阶段.不同类型的Task(或者Stage)之间通过Shuffle进行数据交换.在Shuffle过程中数据需要进行持久化,以达到避免重计算和容错的目的.因此Shuffle的性能是决定大数据处理性能的关键因素之一.由于传统Shuffle阶段的数据通过磁盘文件系统进行持久化,所以影响Shuffle性能的一个重要因素是I/O开销,尤其是对基于内存计算的大数据处理平台,例如Spark,Shuffle阶段的磁盘I/O可能拖延数据处理的时间.而非易失内存(NVM)具有读写速度快、非易失性以及高密度性等诸多优点,它们为改变大数据处理过程中对磁盘I/O的依赖、克服目前基于内存计算的大数据处理中的I/O性能瓶颈提供了新机会.提出一种基于NVM的Shuffle优化策略——NV-Shuffle.NV-Shuffle摒弃了传统Shuffle阶段采用文件系统的存储方式,而使用类似于Memory访问的方式进行Shuffle数据的存储与管理,避免了文件系统的开销,并充分发挥NVM的优势,从而减少Shuffle阶段的耗时.在Spark平台上实现了NV-Shuffle,实验结果显示,对于Shuffle-heavy类型的负载,NV-Shuffle可节省大约10%~40%的执行时间.
    Abstract: In the popular big data processing platforms like Spark, it is common to collect data in a many-to-many fashion during a stage traditionally known as the Shuffle phase. Data exchange happens across different types of tasks or stages via Shuffle phase. And during this phase, the data need to be transferred via network and persisted into traditional disk-based file system. Hence, the efficiency of Shuffle phase is one of the key factors in the performance of the big data processing. In order to reducing I/O overheads, we propose an optimized Shuffle strategy based on Non-Volatile Memory (NVM)—NV-Shuffle. Next-generation non-volatile memory (NVM) technologies, such as Phase Change Memory (PCM), Spin-Transfer Torque Magnetic Memories (STTMs) introduce new opportunities for reducing I/O overhead, due to their non-volatility, high read/write performance, low energy, etc. In the big data processing platform based on memory computing such as Spark, Shuffle data access based on disks is an important factor of application performance, NV-Shuffle uses NVM as persist memory to store Shuffle data and employs direct data accesses like memory by introducing NV-Buffer to organize data instead of traditional file system.We implemented NV-Shuffle in Spark. Our performance results show, NV-shuffle reduces job execution time by 10%~40% for Shuffle-heavy workloads.
  • 期刊类型引用(30)

    1. 马超红,郝新丽,孟小峰,张旭康. 机器学习赋能的多维数据查询处理研究综述. 计算机学报. 2025(01): 100-123 . 百度学术
    2. 姜璐璐,高锦涛. 面向机器学习的数据库参数调优技术综述. 计算机工程与应用. 2024(03): 1-16 . 百度学术
    3. 刘帅,乔颖,罗雄飞,赵怡婧,王宏安. 时序数据库关键技术综述. 计算机研究与发展. 2024(03): 614-638 . 本站查看
    4. 赖思超,吴小莹,彭煜玮,彭智勇. 数据库索引调优技术综述. 计算机研究与发展. 2024(04): 929-954 . 本站查看
    5. 朱镕佳,杨宇轩,李振东,陈硕,唐朝阳,唐晓雨. 基于树莓派的智能零售系统设计. 现代信息科技. 2024(19): 189-192+198 . 百度学术
    6. 蔡盼,张少敏,刘沛然,孙路明,李翠平,陈红. 智能数据库学习型索引研究综述. 计算机学报. 2023(01): 51-69 . 百度学术
    7. 曹蓉,鲍亮,崔江涛,李辉,周恒. 数据库系统参数调优方法综述. 计算机研究与发展. 2023(03): 635-653 . 本站查看
    8. 杨荣利,王伟,杨栋,周东阳. 基于两因素模糊时间序列的一次风机指标预测. 电子设计工程. 2023(07): 91-94+99 . 百度学术
    9. 唐楚哲 ,王肇国 ,陈海波 . 机器学习方法赋能系统软件:挑战、实践与展望. 计算机研究与发展. 2023(05): 964-973 . 本站查看
    10. 张政,段怡,高志峰,张欢. 机器学习在手术中液体治疗的应用. 中国数字医学. 2023(07): 81-85 . 百度学术
    11. 杜维柱,张晓华,卢毅,王书渊,沈彦伶. 基于机器学习与数值预报技术的电网短期临近气象预警模型设计. 电子设计工程. 2023(19): 99-103 . 百度学术
    12. 曹卫东,金超. 基于birch聚类的可更新机器学习索引模型. 计算机工程与设计. 2023(11): 3328-3334 . 百度学术
    13. 王鹏. “智慧工会”实现路径. 科技资讯. 2022(02): 10-12 . 百度学术
    14. 张静,农昌瑞,张海兵,张亚周. 基于深度学习的发动机叶片故障检测技术. 航空发动机. 2022(01): 68-75 . 百度学术
    15. 孟小峰,余艳. 在跨学科交叉融合中深发展社会计算与社会智能. 计算机科学. 2022(04): 3-8 . 百度学术
    16. 欧群雍,谭同德,冯学晓. 基于机器学习的软件定义网络数据流子序列匹配算法. 国外电子测量技术. 2022(04): 70-76 . 百度学术
    17. 杜清华,张凯. 一种高效的跨平台工作流优化方法. 计算机工程. 2022(07): 13-21+28 . 百度学术
    18. 姬莉霞,赵耀,马郑祎,赵润哲,张晗. 基于iForest-BiLSTM-Attention的数据库负载预测方法. 郑州大学学报(理学版). 2022(06): 66-73 . 百度学术
    19. 张洲,金培权,谢希科. 学习索引:现状与研究展望. 软件学报. 2021(04): 1129-1150 . 百度学术
    20. 潘璇,徐思涵,蔡祥睿,温延龙,袁晓洁. 基于深度学习的数据库自然语言接口综述. 计算机研究与发展. 2021(09): 1925-1950 . 本站查看
    21. 蒙芳,翟建丽. 学习行为大数据可视化的网络数据库学习仿真. 计算机仿真. 2021(09): 216-220 . 百度学术
    22. 陈镭. 基于机器学习的数据库系统自动调参研究. 软件导刊. 2021(11): 148-151 . 百度学术
    23. 崔栋,温巧燕,张华,王华伟. QML:一种混合空间索引结构. 通信学报. 2021(12): 1-16 . 百度学术
    24. 陶镇威. 基于机器学习的Oracle数据库故障预测技术探索. 现代工业经济和信息化. 2020(02): 70-71 . 百度学术
    25. 桂树强,周实,张家季,耿欣. 基于BIM的轨道交通项目管理框架体系研究与实践. 人民长江. 2020(03): 147-152 . 百度学术
    26. 宋雨萌,谷峪,李芳芳,于戈. 人工智能赋能的查询处理与优化新技术研究综述. 计算机科学与探索. 2020(07): 1081-1103 . 百度学术
    27. 陈珂锐,孟小峰. 机器学习的可解释性. 计算机研究与发展. 2020(09): 1971-1986 . 本站查看
    28. 唐吉深,覃少华. 大型数据库重复记录检测与优化研究. 现代电子技术. 2020(17): 77-81 . 百度学术
    29. 蔡洪浩,罗应华,张荣鑫,杨喻淳. 基于机器学习的智能光电对抗系统. 电子技术与软件工程. 2020(13): 79-80 . 百度学术
    30. 陶姿邑. 基于深度学习的数据库重复记录检测算法. 微型电脑应用. 2020(12): 174-176 . 百度学术

    其他类型引用(33)

计量
  • 文章访问数:  1215
  • HTML全文浏览量:  3
  • PDF下载量:  800
  • 被引次数: 63
出版历程
  • 发布日期:  2018-01-31

目录

    /

    返回文章
    返回