• 中国精品科技期刊
  • CCF推荐A类中文期刊
  • 计算领域高质量科技期刊T1类
高级检索

基于Spark的大数据访存行为跨层分析工具

许丹亚, 王晶, 王利, 张伟功

许丹亚, 王晶, 王利, 张伟功. 基于Spark的大数据访存行为跨层分析工具[J]. 计算机研究与发展, 2020, 57(6): 1179-1190. DOI: 10.7544/issn1000-1239.2020.20200109
引用本文: 许丹亚, 王晶, 王利, 张伟功. 基于Spark的大数据访存行为跨层分析工具[J]. 计算机研究与发展, 2020, 57(6): 1179-1190. DOI: 10.7544/issn1000-1239.2020.20200109
Xu Danya, Wang Jing, Wang Li, Zhang Weigong. A Cross-Layer Memory Tracing Toolkit for Big Data Application Based on Spark[J]. Journal of Computer Research and Development, 2020, 57(6): 1179-1190. DOI: 10.7544/issn1000-1239.2020.20200109
Citation: Xu Danya, Wang Jing, Wang Li, Zhang Weigong. A Cross-Layer Memory Tracing Toolkit for Big Data Application Based on Spark[J]. Journal of Computer Research and Development, 2020, 57(6): 1179-1190. DOI: 10.7544/issn1000-1239.2020.20200109
许丹亚, 王晶, 王利, 张伟功. 基于Spark的大数据访存行为跨层分析工具[J]. 计算机研究与发展, 2020, 57(6): 1179-1190. CSTR: 32373.14.issn1000-1239.2020.20200109
引用本文: 许丹亚, 王晶, 王利, 张伟功. 基于Spark的大数据访存行为跨层分析工具[J]. 计算机研究与发展, 2020, 57(6): 1179-1190. CSTR: 32373.14.issn1000-1239.2020.20200109
Xu Danya, Wang Jing, Wang Li, Zhang Weigong. A Cross-Layer Memory Tracing Toolkit for Big Data Application Based on Spark[J]. Journal of Computer Research and Development, 2020, 57(6): 1179-1190. CSTR: 32373.14.issn1000-1239.2020.20200109
Citation: Xu Danya, Wang Jing, Wang Li, Zhang Weigong. A Cross-Layer Memory Tracing Toolkit for Big Data Application Based on Spark[J]. Journal of Computer Research and Development, 2020, 57(6): 1179-1190. CSTR: 32373.14.issn1000-1239.2020.20200109

基于Spark的大数据访存行为跨层分析工具

基金项目: 国家自然科学基金项目(61772350);北京市科技新星计划(Z181100006218093);北京未来芯片技术高精尖创新中心科研基金项目(KYJJ2018008);北京市高水平教师队伍建设计划(CIT&TCD201704082);科技创新服务能力建设-基本科研业务费(科研类)(19530050173)
详细信息
  • 中图分类号: TP391

A Cross-Layer Memory Tracing Toolkit for Big Data Application Based on Spark

Funds: This work was supported by the National Natural Science Foundation of China (61772350), the Beijing Nova Program (Z181100006218093), the Research Fund from Beijing Innovation Center for Future Chips (KYJJ2018008), the Construction Plan of Beijing High-level Teacher Team (CIT&TCD201704082), and the Capacity Building for Sci-Tech Innovation Fundamental Scientific Research Funds (19530050173).
  • 摘要: 大数据时代的到来为信息处理带来了新的挑战,内存计算方式的Spark显著提高了数据处理的性能.Spark的性能优化和分析可以在应用层、系统层和硬件层开展,然而现有工作都只局限在某一层,使得Spark语义与底层动作脱离,如操作系统参数对Spark应用层的性能影响的缺失将使得大量灵活的操作系统配置参数无法发挥作用.针对上述问题,设计了Spark存储系统分析工具SMTT,打通了Spark层、JVM层和OS层,建立了上层应用程序的语义与底层物理内存信息的联系.SMTT针对Spark内存特点,分别设计了针对执行内存和存储内存的追踪方式.基于SMTT工具完成了对Spark迭代计算过程内存使用,以及跨越Spark,JVM和OS层的执行/存储内存使用过程的分析,并以RDD为例通过SMTT分析了单节点和多节点情况下Spark中读和写操作比例,结果表明该工作为Spark内存系统的性能分析和优化提供了有力的支持.
    Abstract: Spark has been increasingly employed by industries for big data analytics recently, due to its efficient in-memory distributed programming model. Most existing optimization and analysis tool of Spark perform at either application layer or operating system layer separately, which makes Spark semantics separate from the underlying actions. For example, unknowing the impaction of operating system parameters on performance of Spark layer will lead unknowing of how to use OS parameters to tune system performance. In this paper, we propose SMTT, a new Spark memory tracing toolkit, which establishes the semantics of the upper application and the underlying physical hardware across Spark layer, JVM layer and OS layer. Based on the characteristics of Spark memory, we design the tracking scheme of execution memory and storage memory respectively. Then we analyze the Spark iterative calculation process and execution/storage memory usage by SMTT. The experiment of RDD memory assessment analysis shows our toolkit could be effectively used on performance analysis and provide guides for optimization of Spark memory system.
  • 期刊类型引用(27)

    1. 顾敏,徐雅男,王辛迪,花敏,周雯. 多用户MIMO-MEC网络中基于APSO的任务卸载研究. 无线电工程. 2024(03): 711-718 . 百度学术
    2. 王斐然,郭昕阳,张峰. 基于边缘计算的输电线路巡检设备协同调配研究. 自动化仪表. 2024(05): 123-126 . 百度学术
    3. 史晓蒙,吕晓鹏,魏健康,王凌. 基于算法组合的端边云任务处理方法. 价值工程. 2024(36): 108-112 . 百度学术
    4. 向朝参,程文辉,张昭,焦贤龙,屈毓锛,陈超,戴海鹏. 基于边缘智能计算的城市交通感知数据自适应恢复. 计算机研究与发展. 2023(03): 619-634 . 本站查看
    5. 邵梁,何星舟,尚俊娜. 边缘计算中利用改进型遗传算法的任务卸载策略. 计算机应用与软件. 2023(11): 48-57 . 百度学术
    6. 高仕斌,刘帝洋,韦晓广,康高强,罗嘉明,雷杰宇. 基于数字孪生网络的牵引供电智能运维体系与应用架构. 铁道学报. 2023(12): 1-15 . 百度学术
    7. 张彦虎,鄢丽娟,马志愤,张彦军. 一种适用于多任务多资源移动边缘计算环境下的改进粒子群算力卸载算法. 计算机与现代化. 2022(05): 54-60+67 . 百度学术
    8. 刘春林,秦进. 面向5G网络的移动边缘计算节点部署算法设计. 计算机仿真. 2022(12): 436-439+473 . 百度学术
    9. 张开强,蒋从锋,程小兰,贾刚勇,张纪林,万健. 多分辨率下资源感知的图像目标自适应缩放检测. 计算机科学. 2021(04): 180-186 . 百度学术
    10. 乐光学,陈光鲁,卢敏,杨晓慧,刘建华,黄淳岚,杨忠明. 一种基于K-shell影响力最大化的路径择优计算迁移算法. 计算机研究与发展. 2021(09): 2025-2039 . 本站查看
    11. 苏命峰,王国军,李仁发. 边云协同计算中基于预测的资源部署与任务调度优化. 计算机研究与发展. 2021(11): 2558-2570 . 本站查看
    12. 贾觐,暴占彪. 改进GA的边缘计算任务卸载与资源分配策略. 计算机工程与设计. 2021(11): 3009-3017 . 百度学术
    13. 汪小威,林宁,胡玉平. 移动边缘计算中利用BPSO的任务卸载策略. 计算机工程与设计. 2021(12): 3333-3341 . 百度学术
    14. 尹高,石远明. 移动边缘网络中深度学习任务卸载方案. 重庆邮电大学学报(自然科学版). 2020(01): 38-46 . 百度学术
    15. 丁雪乾,薛建彬. 边缘计算下基于Lyapunov优化的系统资源分配策略. 微电子学与计算机. 2020(02): 63-68 . 百度学术
    16. 白昱阳,黄彦浩,陈思远,张俊,李柏青,王飞跃. 云边智能:电力系统运行控制的边缘计算方法及其应用现状与展望. 自动化学报. 2020(03): 397-410 . 百度学术
    17. 乐光学,戴亚盛,杨晓慧,刘建华,游真旭,朱友康. 边缘计算可信协同服务策略建模. 计算机研究与发展. 2020(05): 1080-1102 . 本站查看
    18. 盛津芳,滕潇雨,李伟民,王斌. 移动边缘计算中基于改进拍卖模型的计算卸载策略. 计算机应用研究. 2020(06): 1688-1692 . 百度学术
    19. 胡锦天,王高才,徐晓桐. 移动边缘计算中具有能耗优化的任务迁移策略. 计算机科学. 2020(06): 260-265 . 百度学术
    20. 周振宇,陈亚鹏,潘超,赵雄文,张磊,汪中原. 面向智能电力巡检的高可靠低时延移动边缘计算技术. 高电压技术. 2020(06): 1895-1902 . 百度学术
    21. 吕洁娜,张家波,张祖凡,甘臣权. 移动边缘计算卸载策略综述. 小型微型计算机系统. 2020(09): 1866-1877 . 百度学术
    22. 张伟. 边缘计算的任务迁移机制研究. 软件导刊. 2020(09): 48-53 . 百度学术
    23. 路亚. MEC多服务器启发式联合任务卸载和资源分配策略. 计算机应用与软件. 2020(10): 77-84 . 百度学术
    24. 方加娟,李凯. 基于边缘云和移动辅助设备的计算卸载优化方案. 计算机应用与软件. 2020(12): 6-12 . 百度学术
    25. 危泽华,曾玲玲. 基于Stackelberg博弈论的边缘计算卸载决策方法. 数学的实践与认识. 2019(11): 91-100 . 百度学术
    26. 居晓琴. 移动边缘计算的QoE视频缓存方法. 电脑与信息技术. 2019(05): 44-47 . 百度学术
    27. 乐光学,戴亚盛,杨晓慧,朱友康,游真旭,刘建生. 边缘计算多约束可信协同任务迁移策略. 电信科学. 2019(11): 36-50 . 百度学术

    其他类型引用(65)

计量
  • 文章访问数:  1261
  • HTML全文浏览量:  3
  • PDF下载量:  699
  • 被引次数: 92
出版历程
  • 发布日期:  2020-05-31

目录

    /

    返回文章
    返回