NCCL（NVIDIA Collective Communications Library）详解

NCCL 是 NVIDIA 为多 GPU 和多节点系统设计的高性能集合通信库，旨在解决分布式训练中的通信瓶颈问题。其核心功能包括：

1.1 通信原语支持

NCCL 提供了多种集合通信操作（Collective Communication），广泛应用于深度学习和高性能计算场景：

AllReduce：将所有 GPU 的数据进行归约（如求和、求平均），并将结果分发到所有 GPU。 典型场景：数据并行训练中的梯度同步。
Broadcast：将一个 GPU 的数据广播到所有其他 GPU。 典型场景：模型参数初始化或全局同步。
Reduce：将所有 GPU 的数据归约到一个 GPU。 典型场景：汇总梯度到主节点。
AllGather：收集所有 GPU 的数据并拼接成一个完整的数据块。 典型场景：模型并行中同步完整模型参数。
ReduceScatter：将数据归约后均匀分散到各 GPU。 典型场景：张量并行中的梯度切片。
AllToAll：每个 GPU 向其他所有 GPU 发送和接收数据块。 典型场景：矩阵转置或分布式排序。
Point-to-Point（P 2 P）：支持自定义的点对点通信（如 ncclSend / ncclRecv）。

1.3 性能优势

拓扑感知：自动检测 GPU 间的连接方式（如 NVLink、PCIe、InfiniBand），并选择最优通信路径。
硬件加速：利用 NVLink、GPUDirect RDMA 等技术实现低延迟、高带宽通信。
并行通信：通过多线程和异步操作优化通信效率，减少 CPU 干预。
高扩展性：支持单机多卡、多机多卡的大规模分布式训练。
与主流框架集成：PyTorch、TensorFlow、DeepSpeed 等框架默认使用 NCCL 作为后端通信库。

NCCL 与 MPI 的对比

特性	NCCL	MPI
目标	专为 GPU 优化，聚焦集合通信	通用分布式计算，支持 CPU/GPU
硬件适配	支持 NVLink、InfiniBand 等	依赖 MPI 实现（如 OpenMPI）
通信效率	更低延迟、更高带宽（GPU 直接通信）	需 CPU 内存拷贝，效率较低
集成框架	PyTorch、TensorFlow 等深度学习框架	传统 HPC 框架（如 OpenFOAM）

通信原语分类

在分布式通信（如 NCCL、MPI 等）中，通信操作（Collective Communication Operations）可以根据其数据分布模式、通信对称性、参与者的角色等进行分类。理解这些分类对于优化通信性能、选择合适的算法（如 Ring vs Tree）以及设计高效的并行程序至关重要。

下面我们将从操作类型分类和对称性（Symmetric vs Asymmetric） 两个维度来详细解释。

一、通信操作的常见分类

1. 按通信模式分类

操作类型	描述	示例
Point-to-Point (P2P)	两个进程之间的直接通信	`send`, `recv`
Collective Communication	多个进程协同完成的通信操作	`AllReduce`, `Broadcast`

1. 点对点通信（Point-to-Point）

Send/Recv（发送/接收）

操作：进程 A 向进程 B 发送数据，进程 B 接收数据。
图示：
```
[进程 A] → [进程 B]
```
特点：一对一通信，数据从发送方直接传递到接收方。

我们重点讨论 Collective Communication，它又可分为以下几类：

2. 按数据流动模式分类（主要集体操作）

（1）AllReduce（全归约）

操作：所有节点互相发送数据，执行归约操作后，每个节点都获得归约结果。
图示：
```
[Node1] ↔ [Node2] ↔ [Node3]
```
每个节点的数据会被归约（如求和），并分发到所有节点。
场景：数据并行中同步梯度（如 AllReduce 是 Reduce + Broadcast 的组合）。
作用：每个进程有一个输入数据，所有进程共同计算一个归约结果（如 sum、max），然后每个进程都得到这个结果。
特点：
- 输入：每个进程有数据。
- 输出：每个进程有相同的结果。
- 对称性：高（所有进程角色相同）。
典型应用：深度学习中梯度的全局归约。
常用算法：Ring AllReduce、Tree AllReduce、CollNet。

（2）Reduce（归约）

操作：所有节点将数据发送到主节点，主节点执行归约操作（如求和、最大值）。

图示：

[Node1][Node2][Node3]
     \   |   /
      \  |  /
       \ | /
        [Root]

场景：分布式训练中归约各节点的梯度（如求和）。
作用：所有进程的数据归约到一个指定的根进程。
特点：
- 输入：每个进程有数据。
- 输出：仅根进程有结果。
- 对称性：低（根进程与其他进程角色不同）。
典型应用：统计总和、最大值等。
常用算法：Binary Tree、Pipeline Tree。

（3）Broadcast（广播）

作用：一个根进程将数据发送给所有其他进程。
特点：
- 输入：仅根进程有数据。
- 输出：所有进程都有该数据。
- 对称性：低（根进程是发送者，其他是接收者）。
典型应用：模型参数同步。
常用算法：Binomial Tree、Ring Broadcast。
操作：主节点（Root）将数据发送给所有其他节点。

图示：

    [Root]
     / | \
    /  |  \
   /   |   \
[Node1][Node2][Node3]

场景：参数初始化、全局同步（如模型并行中的参数同步）。

（4）AllGather（全收集）

操作：所有节点互相发送数据，每个节点最终拥有所有数据。
图示：
```
[Node1] ↔ [Node2] ↔ [Node3]
```
每个节点的数据会被其他节点接收并拼接。
场景：模型并行中同步所有参数（如全连接层的权重）。
作用：每个进程有一个数据块，最终所有进程都收集到所有数据块。
特点：
- 输入：每个进程有部分数据。
- 输出：每个进程有完整数据集。
- 对称性：高。
典型应用：数据并行中收集各 GPU 的梯度分片。
常用算法：Ring AllGather。

（5）ReduceScatter（归约并散播）

操作：所有节点的数据先归约（如求和），再将结果切片分发到各节点。

图示：

[Node1][Node2][Node3]
     \   |   /
      \  |  /
       \ | /
        [Root]
        / | \
       /  |  \
[Part1][Part2][Part3]

场景：分布式训练中切分归约后的梯度（如张量并行）。
作用：先对数据进行归约，然后将结果分段散播给各个进程。
特点：
- 输入：每个进程有数据。
- 输出：每个进程得到归约结果的一部分。
- 对称性：高。
典型应用：模型并行中参数的分段归约。
常用算法：Ring ReduceScatter。

（6）Gather（收集）

操作：所有节点将数据发送到主节点，主节点收集所有数据。

图示：

[Node1][Node2][Node3]
     \   |   /
      \  |  /
       \ | /
        [Root]

场景：分布式训练中收集各节点的梯度到主节点。
作用：所有进程的数据发送到一个根进程。
特点：
- 输入：每个进程有数据。
- 输出：仅根进程有完整数据。
- 对称性：低。
与 AllGather 区别：只在一个进程上收集。

（7）Scatter（散播）

操作：主节点将数据切片分发到所有节点，每个节点得到不同的数据子集。

图示：

    [Root]
     / | \
    /  |  \
   /   |   \
[Data1][Data2][Data3]

场景：模型并行中将模型参数分片加载到不同设备。
作用：根进程将数据分段发送给所有进程。
特点：
- 输入：根进程有完整数据。
- 输出：每个进程得到一部分。
- 对称性：低。

All-to-All（全交换）

操作：每个节点向其他所有节点发送数据块，同时接收来自其他节点的数据块。
图示：
```
[Node1] ↔ [Node2] ↔ [Node3]
```
每个节点发送的数据块会被其他节点接收并重新排列。
场景：矩阵转置、分布式排序（如每个节点持有矩阵的一行，All-to-All 后变为列）。

二、对称性（Symmetric Vs Asymmetric）分类

这是从进程角色是否相同的角度对通信操作进行分类。

1. 对称操作（Symmetric Operations）

定义：所有参与进程在通信中的角色是对等的，没有“根”或“主”进程。
特点：
- 所有进程同时发送和接收数据。
- 通信负载均衡。
- 更容易扩展到大规模系统。
典型操作：
- AllReduce
- AllGather
- ReduceScatter
影响：
- 适合 Ring、Pipeline 等算法，充分利用多链路带宽。
- 在 NCCL 中优先使用 Ring 或 NVLS 等对称拓扑。
- 通信延迟与数据大小和链路数相关，但不依赖特定节点。

2. 不对称操作（Asymmetric Operations）

定义：存在一个特殊角色（通常是“根”进程），其他进程围绕它进行通信。
特点：
- 根进程通常是发送者或接收者。
- 通信负载集中在根节点。
- 可能成为性能瓶颈。
典型操作：
- Broadcast（根发送）
- Reduce（根接收）
- Gather（根接收）
- Scatter（根发送）
影响：
- 倾向于使用 Tree（树形）算法，以减少根节点的直接通信压力。
- 根节点的带宽和内存成为关键瓶颈。
- 在 NCCL 中，ncclRedOp_t 操作可能指定根，影响路径选择。

三、对称性对通信算法选择的影响

特性	对称操作（如 AllReduce）	不对称操作（如 Broadcast）
算法偏好	Ring, NVLS, CollNet	Tree, Binomial Tree
负载均衡	高（所有 GPU 参与）	低（根节点压力大）
可扩展性	好（线性扩展）	较差（根节点成瓶颈）
硬件利用	充分利用 NVLink/PCIe 多路径	依赖根节点连接质量
NCCL 路径选择	多路径并行（如 Ring 分片）	单路径或树形分发

四、实际影响与优化建议

1. 性能影响

对称操作：更适合大规模训练（如 AllReduce），因为通信负载分散。
不对称操作：在小规模或初始化阶段使用较多（如 Broadcast 模型参数），但需注意根节点瓶颈。

2. 拓扑感知优化

NCCL 会根据拓扑自动选择：
- 如果所有 GPU 通过 NVLink 全互联 → 优先 Ring 或 NVLS。
- 如果跨机通信 → 可能使用 Tree 或 CollNet（依赖 InfiniBand）。
- 如果根节点带宽低 → Tree 算法可能降级为线性链。

3. 编程建议

尽量使用对称操作（如 AllReduce）替代 Reduce + Broadcast。
避免频繁使用 Gather/Scatter，除非必要。
在多机训练中，使用支持 SHARP 的 CollNet 可显著提升 Reduce/Broadcast 性能。

五、总结

所有集合操作总结：

通信原语	类型	数据流向	典型场景
Send/Recv	点对点	单向发送/接收	自定义通信
Broadcast	集合通信	Root → All Nodes	参数初始化、全局同步
Scatter	集合通信	Root → All Nodes（切片）	模型并行参数分片
Gather	集合通信	All Nodes → Root	收集梯度、分布式结果
All-Gather	集合通信	All Nodes ↔ All Nodes	全局参数同步
Reduce	集合通信	All Nodes → Root（归约）	梯度归约
All-Reduce	集合通信	All Nodes ↔ All Nodes（归约）	数据并行梯度同步
Reduce-Scatter	集合通信	All Nodes → Root → All Nodes（切片）	张量并行归约后分片
All-to-All	集合通信	All Nodes ↔ All Nodes（块交换）	矩阵转置、分布式排序

分类总结对比：

分类维度	类型	代表操作	特点	影响
通信模式	归约类	AllReduce, Reduce	数据聚合	决定是否需要根节点
	分发类	Broadcast, Scatter	数据分发	根节点为发送方
	收集类	AllGather, Gather	数据收集	根节点为接收方
对称性	对称	AllReduce, AllGather	角色对等	负载均衡，适合 Ring
	不对称	Reduce, Broadcast	有根节点	根为瓶颈，适合 Tree

拓扑与算法

在 NCCL（NVIDIA Collective Communications Library）中，网络硬件拓扑和通信算法是实现高效分布式计算的核心机制。以下是对这两类概念的详细解释：

一、网络硬件拓扑（Network Hardware Topology）

NCCL 通过自动探测或解析系统拓扑（如 XML 配置文件），构建硬件组件之间的连接关系。这些拓扑信息直接影响通信路径的选择和性能优化。常见的硬件组件包括：

GPU：计算节点的核心设备。
NIC（网络接口卡）：用于跨节点通信（如 InfiniBand 或以太网）。
PCIe 总线：GPU 与 CPU 之间的连接。
NVLink：NVIDIA GPU 之间的高速互连技术（如 V100、A100）。
NVSwitch：多 GPU 互联的交换芯片（如 NVIDIA HGX 平台）。

拓扑建模的关键概念：

Node（节点）：表示硬件组件（如 GPU、NIC、CPU 等）。
Link（链路）：两个节点之间的直接物理连接（如 PCIe 链路、NVLink）。
Path（路径）：从一个节点到另一个节点的通信路径，可能经过多个链路（如 GPU→PCIe→NIC→InfiniBand→远程 NIC→PCIe→GPU）。

NCCL 会根据拓扑信息计算最优通信路径，并存储带宽（bw）和时延（latency）等参数，用于后续通信算法的性能评估。

二、通信算法（Communication Algorithms）

NCCL 提供了多种通信算法，每种算法针对不同的硬件拓扑和通信模式进行优化。以下是主要的算法类型：

1. Ring（环形算法）

原理：将所有通信节点按环形结构连接，数据在环中逐节点传递。
特点：
- 分片传输：将大数据分片后并行传输，减少总耗时（如 RingAllreduce）。
- 低硬件依赖：适用于通用拓扑（如 PCIe、NVLink、InfiniBand）。
应用场景：
- 单机多 GPU（如 4 卡、8 卡）。
- 跨机通信（通过 InfiniBand 或以太网）。
示例：
- AllReduce：数据分片后通过环传递，最终聚合结果。
- Broadcast：源节点依次向环中下一个节点发送数据。

2. Tree（树形算法）

原理：基于树状结构，数据从根节点分发到叶子节点，或从叶子节点归约到根节点。
特点：
- 低延迟：适合小数据量的快速通信。
- 协议依赖：支持低延迟协议（LL/LL128）或常规协议（Simple）。
应用场景：
- 小规模跨机通信（如 2-8 节点）。
- 需要快速完成的同步操作（如 Broadcast）。
示例：
- Broadcast：根节点向子节点广播数据。
- Reduce：叶子节点将数据归约到根节点。

3. CollNet（集合网络算法）

原理：依赖 InfiniBand 网络和 SHARP（Scalable Hierarchical Aggregation and Reduction Protocol）技术，直接在网卡（NIC）上完成归约操作。
特点：
- 卸载计算：利用 NIC 的硬件加速能力，减少 GPU/CPU 负载。
- 高带宽：适合大规模跨机通信（如千卡集群）。
应用场景：
- 多机多卡环境（需 InfiniBand 和 Mellanox 插件支持）。
- 大规模 AllReduce 操作。
依赖：
- 插件：如 nccl-rdma-sharp-plugins（Mellanox 提供）。
- 硬件：InfiniBand 网络和支持 SHARP 的网卡。

4. NVLS（NVLink Switch 算法）

原理：利用 NVLink Switch（如 NVIDIA NVSwitch）实现多 GPU 的直接互联，形成高性能的拓扑。
特点：
- 极低延迟：NVLink 带宽（最高 500GB/s）远高于 PCIe。
- 全互联：支持 GPU 之间的直接点对点通信（无需经过 CPU）。
应用场景：
- 单机多 GPU 的高密度计算（如 NVIDIA DGX 系统）。
- 需要极致带宽的 AllReduce 操作。
依赖：
- 硬件：NVSwitch 芯片或 NVLink Switch 交换机。

5. 其他算法

CollnetChain：CollNet 的变体，用于复杂拓扑下的分段通信。
NVLSTree：结合 NVLink 和树形结构，优化跨节点通信（如多机 NVLink 互联）。

三、算法选择与性能优化

NCCL 会根据以下因素动态选择通信算法：

数据量大小：
- 小数据量：优先选择低延迟算法（如 Tree）。
- 大数据量：优先选择高带宽算法（如 Ring 或 CollNet）。
硬件拓扑：
- 单机 NVLink 互联：选择 NVLS 算法。
- 跨机 InfiniBand：选择 CollNet 或 Ring 算法。
协议优化：
- 低延迟场景：启用 LL/LL128 协议。
- 常规场景：使用 Simple 协议。

四、典型通信操作与算法映射

通信操作	常用算法	适用场景
AllReduce	Ring, CollNet, NVLS	大规模分布式训练（如深度学习）
Broadcast	Ring, Tree	参数同步或模型初始化
AllGather	Ring, Tree	数据并行中的梯度聚合
ReduceScatter	Ring, Tree	模型并行中的参数分发

五、总结

网络硬件拓扑是 NCCL 性能优化的基础，决定了可用的通信路径和带宽。
通信算法（Ring/Tree/CollNet/NVLS）针对不同场景（如单机/跨机、小数据/大数据）进行优化。
自适应选择：NCCL 通过初始化阶段的拓扑探测和性能建模，自动选择最优算法和协议，最大化通信效率。

通过合理利用这些机制，NCCL 能够在异构硬件环境中实现高效的分布式计算，成为大规模 AI 训练和 HPC 应用的核心工具。

算法选择

以 allreduce 为例：

核心功能：将全局数据规约后同步至所有节点，等价于 Reduce-Scatter + All-Gather。 工业级实现：主流框架（如 PyTorch DDP、DeepSpeed）采用 Ring All-Reduce，因其通信效率与节点数无关。

All-Reduce 算法对比与选型建议

算法	简介	优点	缺点
Ring-All-Reduce	节点被组织成一个逻辑环，数据在环中按顺序传输。	通信效率高，适用于大规模集群。每个节点只与其邻居节点通信，减少了通信开销。	在节点数量较多时，通信轮数较多，可能导致延迟增加。
Recursive Doubling	通过递归地将节点两两配对，进行数据交换和规约。	通信轮数较少，理论上通信效率高。适用于节点数量为 2 的幂次方的情况。	在节点数量不是 2 的幂次方时，可能需要额外的处理步骤。
Butterfly All-Reduce	采用蝶形拓扑结构，类似于递归加倍，但更加复杂。	通信轮数少，通信效率高。适用于高性能计算和大规模分布式系统。	实现复杂，需要精细的调度和同步。
Hierarchical All-Reduce	将节点组织成多个层次，每个层次内部进行 All-Reduce 操作，然后进行跨层次的数据交换。	可以充分利用网络拓扑结构，提高通信效率。适用于具有层次化网络拓扑的分布式系统。	实现复杂，需要精细的调度和同步。
Tree-Based All-Reduce	将节点组织成树状结构，数据在树中进行规约和分发。	实现简单，适用于节点数量较少的情况。	在节点数量较多时，通信轮数较多，可能导致延迟增加。
Rabenseifner’s Algorithm	结合了环和递归加倍的特点，先进行环式规约，再进行递归加倍的分发。	通信效率高，适用于大规模集群。	实现复杂，需要精细的调度和同步。
Naive All-Reduce	每个节点将数据发送给所有其他节点，然后每个节点对接收到的数据进行规约。	实现简单。	通信开销大，不适用于大规模集群。

当前主流的分布式训练框架大多采用Ring-All-Reduce，如 DeepSpeed、PyTorch DistributedDataParallel (DDP)、Megatron-LM 等。

在当前的深度学习分布式训练中，GPU 之间的高效通信是实现大规模并行训练的关键。其中，AllReduce 是最核心的集体通信操作之一，主要用于梯度同步，确保所有设备上的模型参数一致更新。

现代 GPU 通信方案不仅依赖于高效的算法（如 AllReduce 的不同实现），还结合了底层硬件拓扑优化、专用库（如 NCCL）以及网络技术（如 RDMA、InfiniBand），形成了一个多层次的高性能通信体系。

二、主流 AllReduce 实现方式及优缺点

以下是目前最常用的几种 AllReduce 实现策略：

1. Ring AllReduce（环形 AllReduce）

原理

将所有 GPU 组织成一个逻辑环形拓扑。
分为两个阶段：
- Scatter-Reduce：每个 GPU 只处理数据的一部分，在环中依次传递并累加。
- AllGather：将归约后的各段结果在环中广播，使每个 GPU 最终获得完整聚合结果。

优点

通信开销低：每个设备只与前后两个邻居通信，避免中心节点瓶颈。
可扩展性强：适合大规模集群，通信时间与设备数呈线性关系（O(N)）。
去中心化设计：无需参数服务器，架构简洁。

缺点

延迟敏感：通信延迟随设备数量增加而线性增长。
带宽利用率受限：虽然总带宽高，但每跳只能使用部分链路带宽。
对小消息不友好：小梯度传输时，固定延迟占比高，效率下降。

应用场景

中小型集群（如单机多卡、8 卡以内）。
Horovod 框架默认采用 Ring AllReduce + MPI。

2. Tree AllReduce（树形 AllReduce）

原理

构建一棵通信树（通常是二叉树），根节点负责聚合和分发。
归约阶段：叶子节点向上逐层聚合。
广播阶段：根节点向下广播结果。

优点

对数级延迟：通信步数为 O(log N)，适合大规模集群。
适合大消息传输：在高带宽网络下表现优异。
支持异构拓扑：可根据机器间带宽动态构建最优树结构。

缺点

中心化风险：根节点可能成为瓶颈，尤其在负载不均时。
实现复杂：需要智能构建通信树以匹配硬件拓扑。
容错性差：某个中间节点故障可能导致整个通信失败。

应用场景

多机多卡大规模训练（如上百 GPU）。
TensorFlow 的早期分布式训练采用类似策略。

3. Recursive Doubling（递归倍增）AllReduce

原理

每轮将节点两两配对进行归约，逐步扩大组规模，直到所有数据聚合完成。
然后反向广播结果。

优点

算法简单，易于并行化。
适合广播密集型操作。
在某些 MPI 实现中性能良好。

缺点

内存占用高：每轮需复制数据。
不适合大集群：通信轮数仍为 O(log N)，但常数较大。
带宽利用率不如 Ring 或 Tree。

应用场景

小规模节点间通信。
作为备选方案在特定拓扑下使用。

4. Double Binary Tree（双二叉树）AllReduce

原理

使用两棵独立的二叉树交替进行归约和广播，提升容错性和负载均衡。
袁进辉（OneFlow）团队提出并优化。

优点

高容错性：一棵树故障可切换到另一棵。
负载均衡：减少单点压力。
性能接近理论上限。

缺点

实现复杂，调试困难。
对通信库要求高。

应用场景

高可靠性要求的大规模训练系统（如 OneFlow）。

五、实际系统中的通信方案对比

系统	通信库	AllReduce 方式
PyTorch DDP	NCCL	Ring / Tree 自动选择
Horovod	NCCL + MPI	默认 Ring AllReduce
TensorFlow MirroredStrategy	NCCL	Tree-based
OneFlow	自研	Double Tree
BytePS	自研 + NCCL	分层通信（机内 NCCL，机间自研）

场景	推荐方案
单机多卡（≤8 卡）	Ring AllReduce + NCCL（PyTorch DDP）
多机多卡（数十至上百卡）	Tree AllReduce + NCCL 或 Double Tree
高带宽低延迟网络（InfiniBand）	充分利用 NCCL + RDMA
小梯度频繁通信	混合精度 + 通信计算重叠
大模型训练	分块 AllReduce + 梯度压缩

Quartz 4

Explorer

集合通信

NCCL（NVIDIA Collective Communications Library）详解

1.1 通信原语支持

1.3 性能优势

通信原语分类

一、通信操作的常见分类

1. 按通信模式分类

1. 点对点通信（Point-to-Point）

Send/Recv（发送/接收）

2. 按数据流动模式分类（主要集体操作）

（1）AllReduce（全归约）

（2）Reduce（归约）

（3）Broadcast（广播）

（4）AllGather（全收集）

（5）ReduceScatter（归约并散播）

（6）Gather（收集）

（7）Scatter（散播）

All-to-All（全交换）

二、对称性（Symmetric Vs Asymmetric）分类

1. 对称操作（Symmetric Operations）

2. 不对称操作（Asymmetric Operations）

三、对称性对通信算法选择的影响

四、实际影响与优化建议

1. 性能影响

2. 拓扑感知优化

3. 编程建议

五、总结

拓扑与算法

一、网络硬件拓扑（Network Hardware Topology）

二、通信算法（Communication Algorithms）

1. Ring（环形算法）

2. Tree（树形算法）

3. CollNet（集合网络算法）

4. NVLS（NVLink Switch 算法）

5. 其他算法

三、算法选择与性能优化

四、典型通信操作与算法映射

五、总结

算法选择

All-Reduce 算法对比与选型建议

二、主流 AllReduce 实现方式及优缺点

1. Ring AllReduce（环形 AllReduce）

原理

优点

缺点

应用场景

2. Tree AllReduce（树形 AllReduce）

原理

优点

缺点

应用场景

3. Recursive Doubling（递归倍增）AllReduce

原理

优点

缺点

应用场景

4. Double Binary Tree（双二叉树）AllReduce

原理

优点

缺点

应用场景

五、实际系统中的通信方案对比

Graph View

Table of Contents

Backlinks