分布式并行基础

分布式训练可以将模型训练任务分配到多个计算节点上,从而加速训练过程并处理更大的数据集。模型是一个有机的整体,简单增加机器数量并不能提升算力,需要有并行策略和通信设计,才能实现高效的并行训练。本节将会重点打开业界主流的分布式并行框架 DeepSpeed、Megatron-LM 的核心多维并行的特性来进行原理介绍。

内容大纲

大纲小节链接
分布式并行01 分布式并行框架介绍PPT, 视频
分布式并行02 DeepSpeed 介绍PPT, 视频
分布式并行03 优化器并行 ZeRO1/2/3 原理PPT, 视频
分布式并行04 Megatron-LM 代码概览PPT, 视频
分布式并行05 大模型并行与 GPU 集群配置PPT, 视频
分布式并行06 大模型并行与 GPU 集群配置PPT, 视频
分布式并行07 Megatron-LM TP 原理PPT, 视频
分布式并行08 Megatron-LM TP 代码解析PPT, 视频
分布式并行09 Megatron-LM SP 代码解析PPT, 视频
分布式并行10 Megatron-LM PP 基本原理PPT, 视频
分布式并行11 流水并行 1F1B/1F1B Interleaved 原理PPT, 视频
分布式并行12 Megatron-LM 流水并行 PP 代码解析PPT, 视频