本文全文图片
-
使用PPO微调大语言模型的流程
-
大语言模型的3种计算模式
-
使用三维并行策略加速所有PPO阶段的耗时分析
-
使用三维并行策略加速生成阶段
-
不同PPO算法中阶段间依赖关系分析
-
不同气泡填充方法下生成阶段的运算时序图
-
延迟批间流水线实例
-
延迟批间流水线并行的版本延迟
-
使用PPO和异步PPO进行微调后的模型评估奖励对比
-
吞吐量对比
-
可扩展性对比和耗时分析
-
三维并行与延迟批间流水线并行的生成效率对比
-
GPT-6B的低计算密度任务组耗时和高计算密度任务组耗时
-
对3种模型结合Pipe-RLHF和DeepSpeed推理引擎取得的微调耗时
-
同步PPO和异步PPO的训练曲线
-
不同Pmax下使用Pipe-RLHF进行模型微调的吞吐量
相关文章
-
2014, 51(11): 2547-2558. DOI: 10.7544/issn1000-1239.2014.20130750
-
2014, 51(11): 2538-2546. DOI: 10.7544/issn1000-1239.2014.20131241
-
2013, 50(8): 1762-1768.
-
2013, 50(2): 412-419.
-
2011, 48(3): 440-446.
-
2008, 45(4): 716-724.
-
2007, 44(10): 1682-1687.
-
2007, 44(3)
-
2005, 42(7): 1235-1240.
-
2005, 42(6): 1059-1064.