Dynamic Task Scheduling Model and Fault-Tolerant via Queuing Theory
-
摘要: 高效的动态任务调度和容错机制是高性能计算面临的挑战之一,已有的方法难以高效扩展到大规模环境.针对该问题,提出了基于N层排队理论的高可扩展动态任务调度模型,为程序员提供简洁的并行编程框架,有效降低了编程负担;使用泊松过程相关理论分析了任务申请的平均等待时间,通过给定的阈值进行决策分层;结合局部感知的轻量级降级模型,可有效降低大规模并行课题的容错开销,提高系统的可用性.Micro Benchmark在神威蓝光32768核环境下测试表明,对于平均执行时间为3.4s的短任务,基于N层排队理论的动态任务调度模型可扩展性很好,调度开销是传统模型的7.2%;药物软件DOCK在16384核环境下的整体性能比该软件原有的任务调度提升34.3%;局部感知的轻量级降级模型具有故障后损失小的特点,DOCK的测试表明比传统容错方法执行时间减少3.75%~5.13%.Abstract: The design of efficient dynamic task scheduling and fault-tolerant mechanism is an issue of crucial importance in high-performance computing field. Most existing methods, however, can hardly achieve good scalability on large-scale system. In this paper, we propose a scalable dynamic task scheduling model via N-level queuing theory, which dramatically reduces the programming burden by providing programmer with concise parallel programming framework. On one hand, we utilize the Poisson process theory to analyze the average wait time of tasks, and then decide the task layers according to threshold. On the other hand, we reduce the fault tolerance overhead using region-aware light-weight degradation model. Experimental results with Micro Benchmark on Bluelight system with 32768 cores show that our method achieves good scalability when the tasks take 3.4s on average and the overhead is just 7.2% of traditional model. Running on 16384 cores, pharmacological application DOCK achieves performance improvement by 34.3% with our scheduling. Moreover, the results of DOCK show our fault-tolerant model achieves 3.75%~5.13% performance improvements over traditional mechanism.
-
-
期刊类型引用(21)
1. 李禹纬,付锐,刘帆. 改进YOLOv7的轻量化交通标志检测算法. 太原理工大学学报. 2024(01): 195-203 . 百度学术
2. 李旭东 ,廖婷婷 ,乐文毅 ,曾小信 ,陈思墨 ,李宗平 . 基于YOLOv3的袋式除尘器滤袋破损自动检测方法. 烧结球团. 2024(01): 99-105 . 百度学术
3. 江金懋,钟国韵. 基于双向嵌套级联残差的交通标志检测方法. 现代电子技术. 2024(05): 176-181 . 百度学术
4. 韩长江,刘丽娟. 基于Transformer改进YOLOv5的交通标志检测算法. 信息技术. 2024(11): 21-27 . 百度学术
5. 张京淇,李超,李晓磊. 基于改进YOLOv8s的交通标志检测算法. 电脑知识与技术. 2024(30): 31-34 . 百度学术
6. 胡昭华,王莹. 改进YOLOv5的交通标志检测算法. 计算机工程与应用. 2023(01): 82-91 . 百度学术
7. 金晓康,吴瑶,施莹娟,沈才有. 基于YOLO框架的实时交通标志识别算法研究与系统实现. 软件. 2023(01): 20-23 . 百度学术
8. 刘翀豪,潘理虎,杨帆,张睿. 改进YOLOv5的轻量化口罩检测算法. 计算机工程与应用. 2023(07): 232-241 . 百度学术
9. 王能文,张涛. 改进YOLOX-S实时多尺度交通标志检测算法. 计算机工程与应用. 2023(21): 167-175 . 百度学术
10. 方猛,邹亚洲. 基于车载点云数据的道路交通指示标志检测方法. 北京测绘. 2023(08): 1121-1127 . 百度学术
11. 王浩,雷印杰,陈浩楠. 改进YOLOV3实时交通标志检测算法. 计算机工程与应用. 2022(08): 243-248 . 百度学术
12. 刘万军,李嘉欣,曲海成. 基于多尺度卷积神经网络的交通标示识别研究. 计算机应用研究. 2022(05): 1557-1562 . 百度学术
13. 张上,王恒涛,冉秀康. 基于YOLOv5的轻量化交通标志检测方法. 电子测量技术. 2022(08): 129-135 . 百度学术
14. 刘宇宸,石刚,崔青,刘明辉,郑秋萍. 改进MobileNetv3-YOLOv3交通标志牌检测算法. 东北师大学报(自然科学版). 2022(02): 53-60 . 百度学术
15. 高宇鹏,梁世军. 交通禁令标志自动图像识别方法设计与仿真. 计算机仿真. 2022(06): 123-126+145 . 百度学术
16. 闵锋,侯泽铭. 铁路接触网主要部件检测方法. 计算机工程与设计. 2022(10): 2911-2917 . 百度学术
17. 马宇,张丽果,杜慧敏,毛智礼. 卷积神经网络的交通标志语义分割. 计算机科学与探索. 2021(06): 1114-1121 . 百度学术
18. 马永杰,程时升,马芸婷,马义德. 卷积神经网络及其在智能交通系统中的应用综述. 交通运输工程学报. 2021(04): 48-71 . 百度学术
19. 张力天,孔嘉漪,樊一航,范灵俊,包尔固德. 基于宏微观因素的概率级别的车辆事故预测. 计算机研究与发展. 2021(09): 2052-2061 . 本站查看
20. 陈燕,杨志刚. 自然场景建筑工程标志信息逐级细化识别算法. 计算机仿真. 2021(08): 450-454 . 百度学术
21. 任坤,黄泷,范春奇,高学金. 基于多尺度像素特征融合的实时小交通标志检测算法. 信号处理. 2020(09): 1457-1463 . 百度学术
其他类型引用(33)
计量
- 文章访问数: 1734
- HTML全文浏览量: 1
- PDF下载量: 1439
- 被引次数: 54