集中式集群资源调度框架的可扩展性优化
毛安琪, 汤小春, 丁朝, 李战怀
2021, 58(3):
497-512.
doi:10.7544/issn1000-1239.2021.20200501
摘要
(
623 )
HTML
(
10)
PDF (2379KB)
(
300
)
相关文章 |
计量指标
集中式集群资源管理系统既能够确保全局资源状态的一致性亦拥有多种调度模型, 因此被广泛应用于实际系统中.但是, 当集中式资源管理器在接收并处理大规模的周期性心跳信息时, 由于其采用单一节点来维护全局资源状态, 所以资源管理器的负载压力急剧增加, 导致调度能力降低, 影响了集群系统的可扩展性.针对上述问题, 提出一种“没有变化就不更新”的思想, 取代集中资源管理的定时更新机制, 改善了集中式资源管理系统的可扩展性.首先, 通过计算节点引入基于差分的心跳信息处理模型, 使得未发生状态变化的节点不必发送心跳消息, 从而减少消息发送的规模和次数; 其次, 针对节点宕机监测过程, 提出基于环形监视的节点监控模型, 让各个计算节点之间互相监视对方的宕机状态, 从而将周期性监测压力转移到计算节点; 最后, 给出这2种模型在集中式资源管理系统YARN上的实现, 并针对改进前后的系统进行实验测试.通过实验验证, 当集群达到1万个节点且心跳时间间隔3 s时, 改进后YARN系统的心跳信息处理效率以及资源更新效率相比原YARN系统提高40%左右.另外, 改进后YARN系统管理集群节点规模相比原YARN系统扩大1.88倍以上.