大模型推理基本概念

大模型推理引擎相关技术主要包括 vLLM、SG-Lang、Mooncake 等。这些引擎通过优化内存管理、计算效率和并行计算能力,提升了大模型的推理速度和吞吐量。重点以 vLLM 作为例子,深入地介绍大模型推理框架的底层细节和逻辑架构。

内容大纲

大纲小节链接
大模型推理框架01 大模型推理流程PPT, 视频
大模型推理框架02 大模型推理框架概述PPT, 视频
大模型推理框架03 vLLM 推理架构剖析 (待更新)PPT, 视频