本文全文图片
-
Transformer模型整体架构图
-
ORCA内部碎片示意图[16]
-
vLLM总体架构[15]
-
vLLM 逻辑键值块到操作系统物理内存块的地址转换[15]
-
rManager设计架构[17]
-
LightLLM的标记级键值缓存管理[19]
-
注意力计算示意图
-
FlashAttention注意力计算示意图[24]
-
FlexGen的Z字形调度[35]
-
FlexGen注意力模块异构并行计算架构示意图[35]
-
HeteGen注意力模块异构并行计算架构示意图[36]
-
键值缓存卸载与中间结果传递重叠[38]
-
InfiniGen的总体架构[39]
-
PowerInfer的总体架构[40]
-
Mooncake的推理实例工作流[46]
-
DéjàVu的流水线故障恢复[50]
-
SeverlessLLM的总体架构[59]