本文全文图片
-
Transformer模型整体架构图
-
ORCA内部碎片示意图[16]
-
vLLM总体架构[15]
-
vLLM 逻辑键值块到操作系统物理内存块的地址转换[15]
-
rManager设计架构[17]
-
LightLLM的标记级键值缓存管理[19]
-
注意力计算示意图
-
FlashAttention注意力计算示意图[24]
-
FlexGen的Z字形调度[35]
-
FlexGen注意力模块异构并行计算架构示意图[35]
-
HeteGen注意力模块异构并行计算架构示意图[36]
-
键值缓存卸载与中间结果传递重叠[38]
-
InfiniGen的总体架构[39]
-
PowerInfer的总体架构[40]
-
Mooncake的推理实例工作流[46]
-
DéjàVu的流水线故障恢复[50]
-
SeverlessLLM的总体架构[59]
相关文章
-
2023, 60(7): 1615-1627. DOI: 10.7544/issn1000-1239.202220024
-
2022, 59(10): 2130-2163. DOI: 10.7544/issn1000-1239.20220800
-
2022, 59(2): 255-263. DOI: 10.7544/issn1000-1239.20220108
-
2020, 57(5): 1003-1021. DOI: 10.7544/issn1000-1239.2020.20190371
-
2017, 54(1): 172-183. DOI: 10.7544/issn1000-1239.2017.20150900
-
2016, 53(10): 2343-2353. DOI: 10.7544/issn1000-1239.2016.20160465
-
2016, 53(4): 904-920. DOI: 10.7544/issn1000-1239.2016.20150158
-
2013, 50(1): 136-145.
-
2011, 48(7): 1146-1154.
-
2009, 46(12): 2093-2100.