分布式深度学习训练网络综述

朱泓睿; 元国军; 姚成吉; 谭光明; 王展; 户忠哲; 张晓扬; 安学军

doi:10.7544/issn1000-1239.2021.20190881

分布式深度学习训练网络综述

朱泓睿^1,2,
元国军¹,
姚成吉³,
谭光明¹,
王展¹,
户忠哲^1,2,3,
张晓扬^1,2,3,
安学军¹

¹(中国科学院计算技术研究所北京 100190)
²(中国科学院大学北京 100049)
³(北京旷视科技有限公司北京 100080) (zhuhongrui@ncic.ac.cn)

基金项目: 中国科学院战略性先导科技专项(B类) (XDB24050200)；国家自然科学基金面上项目(61972380，61702484)；中国科学院计算技术研究所创新课题(20166060)

详细信息

中图分类号: TP393
计量
- 文章访问数: 2248
- HTML全文浏览量: 19
- PDF下载量: 1805
出版历程
- 发布日期: 2020-12-31

Survey on Network of Distributed Deep Learning Training

¹(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190)
²(University of Chinese Academy of Sciences, Beijing 100049)
³(Megvii Inc., Beijing 100080)

Funds: This work was supported by the CAS Strategic Priority Program(B) (XDB24050200), the General Program of the National Natural Science Foundation of China (61972380, 61702484), and the Innovation Fund from the Institute of Computing Technology, Chinese Academy of Sciences (20166060).

摘要

摘要: 近年来深度学习在图像、语音、自然语言处理等诸多领域得到广泛应用，但随着人们对深度学习的训练速度和数据处理能力的需求不断提升，传统的基于单机的训练过程愈发难以满足要求，分布式的深度学习训练方法成为持续提升算力的有效途径．其中训练过程中节点间网络的通信性能至关重要，直接影响训练性能.分析了分布式深度学习中的性能瓶颈，在此基础上对目前常用的网络性能优化方案进行综述，详细阐述了目前最新的超大规模分布式训练的体系结构、优化方法、训练环境和最有效的优化方法，最后对分布式训练仍然存在的困难进行了总结，对其未来研究方向进行了展望.
- 分布式计算 /
- 深度学习 /
- 通信网络 /
- 性能优化 /
- 集合通信 /
- 集群网络
Abstract: In recent years, deep learning has achieved better results than traditional algorithms in many fields such as image, speech, and natural language processing. People are increasingly demanding training speed and data processing capabilities for deep learning. However, the calculating ability of a single server has a limit and cannot achieve human demands. Distributed deep learning training has become the most effective method to expand deep learning training computing ability. At present, distributed deep learning faces a training bottleneck due to communication problems in the network during the training process which leads the communication network to be the most influential factor. There are currently many network performance optimization researches for distributed deep learning. In this paper, the main performance bottlenecks and optimization schemes are firstly demonstrated. Then the current state-of-art ultra-large-scale distributed training architecture and methods for optimization performance are specifically analyzed. Finally, a comparative summary of each performance optimization scheme and the difficulties still existing in distributed deep learning training are given, and the future research directions are pointed out as well.
- distributed calculating /
- deep learning /
- communication network /
- performance optimization /
- collective communication /
- cluster network

HTML全文

参考文献(0)

施引文献(63)

期刊类型引用(18)

1.	罗宇哲，李玲，侯朋朋，于佳耕，程丽敏，张常有，武延军，赵琛. 面向AIoT的协同智能综述. 计算机研究与发展. 2025(01): 179-206 . 本站查看
2.	程钰. 拓扑约束下基于双过滤机制的拜占庭容错分布式学习分析. 集成电路应用. 2025(02): 102-103 . 百度学术
3.	王恩东，闫瑞栋，郭振华，赵雅倩. 分布式训练系统及其优化算法综述. 计算机学报. 2024(01): 1-28 . 百度学术
4.	黎恺嘉，贺晋，曹佳宝，张栋威，刘浩. 基于Seq-GRU的建筑能耗预测方法研究. 物联网技术. 2024(04): 55-60 . 百度学术
5.	胡涛，王中杰，张连明，陈晓锁. 基于深度学习的非结构化大数据密度聚类仿真. 计算机仿真. 2024(05): 501-505 . 百度学术
6.	巨涛，康贺廷，刘帅，火久元. 深度神经网络动态分层梯度稀疏化及梯度合并优化方法. 西安交通大学学报. 2024(09): 105-116 . 百度学术
7.	巨涛，刘帅，王志强，李林娟. 深度神经网络模型任务切分及并行优化方法. 北京航空航天大学学报. 2024(09): 2739-2752 . 百度学术
8.	房鑫，陈兵旗，彭书博，张雄楚，李永正. 基于改进YOLOv4的前方车辆检测方法. 传感器与微系统. 2024(10): 155-159 . 百度学术
9.	唐春娜. 深度学习在主机分布式集群负载均衡中的技术应用. 信息与电脑(理论版). 2024(17): 59-61 . 百度学术
10.	巨涛，刘帅，火久元，张学军. 深度神经网络模型并行自适应计算任务调度方法. 吉林大学学报(工学版). 2024(12): 3601-3613 . 百度学术
11.	巨涛，赵宇阳，刘帅，杨阳，杨文杰. 面向图片识别的深度学习模型并行优化方法. 西安交通大学学报. 2023(01): 141-151 . 百度学术
12.	王睿，王岩，尹朴，齐建鹏，孙叶桃，李倩，张易达，张梅奎. 面向边缘智能的协同训练研究进展. 工程科学学报. 2023(08): 1400-1416 . 百度学术
13.	韩忠华，黎恺嘉，周晓锋，王继娜，孙亮亮. 基于深度学习的柔性流水车间排产优化问题研究. 智能系统学报. 2023(03): 468-478 . 百度学术
14.	任刚，李鑫，刘小杰，张阳，郜广兰，肖东栩. 基于Spark大数据计算模型的遗传算法深度前馈神经网络训练算法. 河南工学院学报. 2023(05): 14-22 . 百度学术
15.	马翔，申国伟，郭春，崔允贺，陈意. 面向异构分布式机器学习的动态自适应并行加速方法. 智能系统学报. 2023(05): 1099-1107 . 百度学术
16.	彭琨，丁小波，蔡茂贞，钟地秀，黎蕴玉. 分布式图像解析系统的设计与研究. 现代计算机. 2022(11): 31-34+40 . 百度学术
17.	李新春，詹德川. 使用多分类器的分布式模型重用技术. 计算机科学与探索. 2022(10): 2310-2319 . 百度学术
18.	钟运琴，朱月琴，焦守涛. 边缘大数据分析预测建模方法研究. 高技术通讯. 2022(10): 1067-1075 . 百度学术