https://zhuanlan.zhihu.com/p/25215761077

ncu 【【CUDA 调优指南】Roofline Model 详解】 https://www.bilibili.com/video/BV1p1rkYqESW/?share_source=copy_web&vd_source=fd37be71d17f708cc53476cbd29e590f

理解 roofline https://zhuanlan.zhihu.com/p/34204282

调试工具

以下从调试工具链、性能分析指标到实战优化流程进行深度解析：

编译与调试工具：
- nvcc：NVIDIA CUDA 编译器，支持将 .cu 文件编译为可执行文件。
- cuda-gdb：GPU 调试器，用于定位 Kernel 中的错误。
性能分析工具：
- Nsight Compute：分析 Kernel 性能瓶颈（如内存带宽、计算效率）。
- Nsight Systems：系统级性能分析，监控 CPU-GPU 交互和内存传输。

性能分析示例：

# 编译时添加调试信息
nvcc -g -G vectorAdd.cu -o vectorAdd
 
# 使用cuda-gdb调试
cuda-gdb vectorAdd
 
# 使用Nsight Compute分析性能
nv-nsight-cu-cli ./vectorAdd

一、调试工具链（Debugging Tools）

1. CUDA-GDB：内核级调试

https://zhuanlan.zhihu.com/p/444172426

功能：在 GPU 上设置断点、检查变量、单步执行内核。
使用场景：定位内核逻辑错误（如数组越界、未初始化变量）。

使用示例：

nvcc -g -G my_kernel.cu -o my_app  # 编译时启用调试信息
cuda-gdb ./my_app                  # 启动调试器
(gdb) break my_kernel              # 设置断点
(gdb) run                          # 运行程序
(gdb) thread 1                     # 切换到特定线程
(gdb) print array[threadIdx.x]     # 查看变量值

2. Nsight Compute：性能调试

功能：捕获内核执行时的详细状态，定位性能异常（如未对齐内存访问）。

关键命令：

ncu --launch-skip 10 --launch-count 1 -o profile ./my_app  # 分析第11次启动的内核

调试视图：
- Source Code：显示每行代码对应的硬件指标（如内存访问延迟）。
- Register/Shared Memory Usage：检查寄存器溢出或共享内存浪费。

3. CUDA-MEMCHECK：内存错误检测

功能：检测内存访问越界、未初始化内存、内存泄漏等问题。

使用示例：

cuda-memcheck ./my_app  # 标准内存检查
cuda-memcheck --leak-check full ./my_app  # 完整内存泄漏检查

典型错误：

错误类型	示例输出	原因
`Invalid __global__ write`	`CUDA-MEMCHECK detected 1 error`	写入越界（如 `array[N]` 访问）
`Uninitialized read`	`GPU memory access fault`	使用未初始化的指针

二、性能分析核心指标（Key Metrics）

1. 计算指标

SM 利用率（SM Efficiency）：
- 定义：SM 实际执行指令时间与总运行时间的比例。
- 优化目标：>80%。若低于此值，可能因：
  - 线程块数量不足（未充分占用 SM）。
  - 内存访问延迟未被隐藏（Warp 等待数据时 SM 空闲）。
Tensor Core 使用率（Tensor Core Throughput）：
- 定义：Tensor Core 实际计算量与理论峰值的比例。
- 优化目标：>70%。若低，检查是否：
  - 未使用 FP16/BF16/INT8 数据类型。
  - 未正确调用 WMMA 库（如矩阵尺寸非 16 的倍数）。

2. 内存指标

全局内存带宽利用率（Global Memory Throughput）：
- 公式：实际带宽 = 内存访问量 / 内核执行时间。
- 优化目标：接近硬件峰值（如 A100 约 1.5TB/s）。若低，检查：
  - 是否存在非合并访问（使用 gld_efficiency 和 gst_efficiency 指标）。
  - 是否过度使用原子操作（原子操作带宽仅为普通内存的 1/4）。
共享内存 Bank 冲突（Shared Memory Bank Conflicts）：
- 检测指标：shared_load_throughput 和 shared_store_throughput。
- 优化方法：通过填充数组（如 __shared__ float data[256+32]）避免同一 Bank 访问冲突。

3. 调度指标

Occupancy（占用率）：
- 定义：实际活跃 Warp 数与最大可能 Warp 数的比值。
- 优化目标：接近理论最大值（可通过 NVIDIA Occupancy Calculator 预测）。
- 低 Occupancy 原因：
  - 寄存器使用过多（通过 nvcc --ptxas-options=-v 查看）。
  - 线程块大小不合理（如设置为 513，导致 Warp 分裂）。

分支效率（Branch Efficiency）：

定义：Warp 内所有线程执行同一分支的比例。

优化目标：接近 100%。低效率原因：

// 高发散代码（同一Warp内线程可能走不同分支）
if (threadIdx.x < 128) { ... }
 
// 低发散代码（Warp内线程行为一致）
if (blockIdx.x < 128) { ... }

三、性能分析工具链

1. Nsight Compute（内核级分析）

关键功能：
- 详细指标捕获：可获取数千个硬件指标（如 SM 利用率、内存事务数）。
- 瓶颈诊断：自动识别性能瓶颈类型（内存带宽受限、计算受限等）。

使用示例：

ncu --set full --metrics sm_efficiency,shared_load_throughput -o profile ./my_app

关键视图：
- Kernel Statistics：汇总内核执行时间、占用率等。
- Memory Workload Analysis：分析内存访问模式（合并率、缓存命中率）。

2. Nsight Systems（系统级分析）

关键功能：
- 时间线可视化：显示 CPU 线程、GPU 内核、内存传输的时间重叠关系。
- API 分析：统计 CUDA API 调用耗时（如 cudaMemcpy 占比过高）。

使用示例：

nsys profile -o system_profile --trace=cuda,nvtx ./my_app

优化方向：
- 若发现 cudaMemcpy 与计算未重叠，需使用 cudaMemcpyAsync 配合流。
- 若 GPU 空闲时间过长，需增加并行度（如多流或多 GPU）。

四、实战优化流程

1. 性能瓶颈分类

瓶颈类型	典型指标特征	优化方法
内存带宽受限	全局内存带宽利用率 < 70%	合并访问、共享内存 tiling、减少冗余传输
计算受限	SM 利用率 > 80% 但 Tensor Core 使用率低	启用 Tensor Core、向量化编程
调度受限	Occupancy 远低于理论值	减少寄存器使用、调整线程块大小
同步开销大	同步函数（如 `cudaDeviceSynchronize`）耗时占比高	减少同步、使用事件替代全局同步

五、常见错误与解决方案

1. 调试常见错误

错误现象	可能原因	解决方案
内核不执行或崩溃	内存越界、未初始化指针	使用 `cuda-memcheck` 检测
结果不正确但无错误提示	线程同步缺失（如忘记 `__syncthreads()`）	检查同步点位置
性能远低于预期	分支发散、内存未合并、Tensor Core 未启用	使用 Nsight Compute 分析具体指标

2. 性能分析常见陷阱

过度依赖单一指标：如仅关注 SM 利用率，忽略内存带宽瓶颈。 → 需综合分析计算、内存、调度指标。
忽略主机与设备同步开销： → 使用 Nsight Systems 检查 cudaDeviceSynchronize 等同步函数的调用频率。
未考虑硬件特性： → 不同 GPU 架构（如 Ampere vs. Turing）的 Tensor Core 性能差异大，需针对性优化。

CUDA 性能调优

CUDA 性能调优是一个系统性工程，需要结合硬件架构、算法设计和编程范式进行多维度优化。以下是完整的调优流程和实战方法：

一、性能分析工具

工欲善其事，必先利其器。推荐使用以下工具：

1. NVIDIA Nsight Compute

功能：细粒度分析 kernel 性能，提供寄存器 / 共享内存使用、内存带宽利用率等指标。

2. NVIDIA Nsight Systems

功能：分析 CPU-GPU 交互、内存传输、kernel 调度等系统级瓶颈。

二、性能瓶颈定位步骤

1. 确定热点代码

方法：使用 nvprof 或 Nsight Systems 找出执行时间最长的 kernel。
关键指标：
- Kernel 执行时间：占总时间比例高的 kernel 优先优化。
- 调用次数：高频调用的小 kernel 可能累积显著开销。

2. 分析内存瓶颈

工具：Nsight Compute 的 Memory Workload Analysis 部分。
关键指标：
- 全局内存带宽利用率：低于 30% 表示存在内存瓶颈。
- 内存事务效率：理想值接近 100%，低效率说明存在非对齐或不合并访问。

3. 分析计算瓶颈

工具：Nsight Compute 的 Compute Workload Analysis 部分。
关键指标：
- 算术强度（计算量 / 访存量）：低于 0.5 通常为内存瓶颈，高于 4 为计算瓶颈。
- 指令混合比：浮点运算与整数运算的比例。
瓶颈分析：
- 若内存带宽利用率 < 40% → 优先优化内存访问。
- 若算术强度 > 4 且计算利用率 < 70% → 优化计算密集部分。
针对性优化：
- 内存密集型：应用共享内存、合并访问。
- 计算密集型：减少分支、利用张量核心。

4. 检查并行效率

工具：Nsight Compute 的 Launch Statistics 和 Scheduler Statistics。
关键指标：
- Occupancy（线程占有率）：理想值接近 100%。
- Warp 执行效率：低于 80% 可能存在分支分化。

五、常见性能问题诊断表

问题表现	可能原因	解决方案
Kernel 执行时间长	内存带宽不足	使用共享内存、合并内存访问
	计算复杂度高	优化算法、减少冗余计算
内存带宽利用率低	非对齐内存访问	按 128 字节对齐数据
	未合并内存访问	调整线程布局，确保连续线程访问连续内存
Occupancy 低	Block Size 设置不合理	使用 Occupancy Calculator 调整
	寄存器或共享内存使用过多	减少每个线程的寄存器使用，缩小共享内存块
Warp 执行效率低	线程分支分化严重	重构代码，保持线程分支一致性
	同步操作频繁	减少 __syncthreads () 调用

通过系统地使用分析工具和优化策略，通常可以实现 2-10 倍的性能提升。关键在于持续分析→优化→验证的迭代过程，而非一次性修改。

Quartz 4

Explorer

性能分析

调试工具

一、调试工具链（Debugging Tools）

1. CUDA-GDB：内核级调试

2. Nsight Compute：性能调试

3. CUDA-MEMCHECK：内存错误检测

二、性能分析核心指标（Key Metrics）

1. 计算指标

2. 内存指标

3. 调度指标

三、性能分析工具链

1. Nsight Compute（内核级分析）

2. Nsight Systems（系统级分析）

四、实战优化流程

1. 性能瓶颈分类

五、常见错误与解决方案

1. 调试常见错误

2. 性能分析常见陷阱

CUDA 性能调优

一、性能分析工具

1. NVIDIA Nsight Compute

2. NVIDIA Nsight Systems

二、性能瓶颈定位步骤

1. 确定热点代码

2. 分析内存瓶颈

3. 分析计算瓶颈

4. 检查并行效率

五、常见性能问题诊断表

Graph View

Table of Contents

Backlinks