本目录基于 Professional C programming 和 https://docs.nvidia.com/cuda/cuda-c-programming-guide/contents.html v12.9 整理。旨在提供一个系统的入门和实践指南，并且会注意一些编程特性的更新。本系列会尽量表明所有内容的参考和出处，尽量保证信息来源可信且有时效性。

总体来说推荐的资源是：

推荐查阅与跟进——官方文档：注意 CUDA 和 GPU 架构一直在不断进展，需要跟进官方编程指南 NVIDIA CUDA C++ Programming 以同步最新编程范式和方法。官方文档是一个详尽的编程指南，但是没有给出具体的指导方法或者构建整个体系，没有把各个用法的关联组织起来。
强烈推荐入门与系统——Professional C programming：一个详尽的入门指导书，有助于掌握核心的概念和编程模型，需要注意一些特性和工具链的更新，与官方更新的文档相互对照。
视频课程推荐——Programming Massively Parallel Processors A Hands-on Approach 及 CMPS224 课程。
在有了一定上面的基础变成后，推荐性能分析——C++ best Practice, NCU profiling guide，以及深入了解 CUDA toolkit 或 PTX/SASS。
强烈推荐——性能优化和 tensor core 英文博客，见 cutlass与GEMM。
选择看其他书籍或者个人博客，注意有一些旧的资料可能会有一些过时的内容，要和官方文档同步。不推荐看照搬英文文章的中文博客。

其他参考

https://christianjmills.com/series/notes/cuda-mode-notes.html

https://shichaoxin.com/tags/

chen tianqi：DLSYS https://dlsys.cs.washington.edu/

Preofessional CUDA® C Programming

https://github.com/mapengfei-nwpu/ProfessionalCUDACProgramming

参考博客：https://jinbridge.dev/docs/hpc/cuda-programming-101/

CUDA C Programming Guide 解读：https://zhuanlan.zhihu.com/p/53773183

书籍：
- 《CUDA C 编程权威指南》Professional CUDA C Programming：全面介绍 CUDA 编程模型与优化技巧。
- 《GPU 高性能编程 CUDA 实战》：通过案例学习 CUDA 并行编程。《CUDA by Example》（CUDA 编程入门经典）
- 《高性能 CUDA 应用设计与开发》（深入优化）
在线课程：
- Coursera《GPU 计算基础》（NVIDIA 官方课程）。
- Udemy《CUDA 并行编程实战》：结合项目实践。
- https://people.maths.ox.ac.uk/~gilesm/cuda/：该课程每天约有 3 小时的讲座和 4 小时的实践课。课程目标是，在课程结束时，你将能够编写相对简单的程序，并且有信心、有能力通过学习英伟达在 GitHub 上提供的 CUDA 代码示例继续学习。
- https://tschmidt23.github.io/cse599i/
- Coursera: GPU Programming for Science and Engineering
- Udemy: CUDA C++ High Performance Parallel Programming
- 《CUDA 高性能编程：GPU 编程实战》
- 《GPU 高性能编程 CUDA 实战》

HPC 方向主要需要了解 HPC SDK 等较上层的模块，如何使用。涉及运维、功耗控制等方面时，也会涉及驱动中的 NVML 等模块。下面挑选常用的模块作一些介绍：

HPC SDK：其实就是把 HPC 常用的子模块打包到了一起。
- 分析部分包括 Profiles（Nsight）和 Debugger（cuda-gdb）。
Nsight：有几个子产品：
- System：综合分析 CPU、GPU 的性能
- Compute：kernel profiler，专门调试核函数
- Graphics：调试、分析 Windows 和 Linux 平台图形应用的性能
NVTX (Tools Extension Library)：C 语言 API，提供 C++ 和 Python 接口。Nsight 等性能分析工具通过该 API 进行测量。我们也可以在程序中使用该 API 进行事件记录等。和 MPI 的 PMPI 有些类似。
CUPTI (Profiling Tools Interface)：和上面那个功能类似，允许各种测量和性能检测的 API。
NVML (NVIDIA Management Library)：C 语言 API，监控和管理 NVIDIA GPU 设备。API 分为五个模块：初始化和清理、查询、控制、事件处理、错误报告。库文件 libnvidia-ml.so，链接参数 -lnvidia-ml。
NCCL (NVIDIA Collective Communications Library)：C 语言 API，MPI 的替代品。提供多 GPU、多节点通信原语。适用硬件：NVLink、Mellanox Network。

在一切开始之前——安装

个人环境：

win11 下安装 wsl2+archlinux 系统，windows 下装有驱动。
linux 下安装 cuda-tools，包含 ncu，完成后可在 windows 下启动图形界面，arch 下通过 yay 安装。
- ERROR ERR_NVGPUCTRPERM - The user does not have permission to access NVIDIA GPU Performance Counters on the target device 0. For instructions on enabling permissions and to get more information see https://developer.nvidia.com/ERR_NVGPUCTRPERM
- To allow access for any user, create a file with the .conf extension containing options nvidia NVreg_RestrictProfilingToAdminUsers=0 in /etc/modprobe.d.
- 开启 windows 下控制面板性能分析权限，支持 ncu profile。
硬件与驱动：NVIDIA GeForce RTX 4060 | NVIDIA-SMI 580.82.09 Driver Version: 581.29 CUDA Version: 13.0 |
vscode ssh 远程连接与调试
- 安装 Nsight Visual Studio Code Edition，launch.json 添加调试信息，支持 gdb 调试
- WARNING: Debug interface is not enabled. Please see https://docs.nvidia.com/cuda/cuda-gdb/index.html#supported-platforms for more details.
- vscode 添加配置 c_cpp_properties，配置 IntelliSense

CUDA 核心知识提纲

CUDA 编程的核心知识体系可分为基础语法、并行策略、内存优化、高级技术四个递进层次。

CUDA 编程核心

硬件模型
- GPU 架构层次：SM（流式多处理器）、CUDA Core、Tensor Core
- 内存层次：寄存器、共享内存、全局内存、常量内存、纹理内存
- 线程调度：Warp（32 线程）、调度器、指令发射单元
编程模型
- 主机 - 设备分离：CPU（主机）控制，GPU（设备）执行计算
- Kernel 函数：用 __global__ 修饰，并行执行的函数
- 线程组织：网格（Grid）→ 线程块（Block）→ 线程（Thread）
- 线程索引计算：blockIdx、threadIdx、blockDim
内存管理
- 内存分配：cudaMalloc、cudaFree
- 数据传输：cudaMemcpy（同步）、cudaMemcpyAsync（异步）
- 统一内存（Unified Memory）：cudaMallocManaged，自动内存迁移
线程同步
- 块内同步：__syncthreads()，确保所有线程执行到该点再继续
- 原子操作：atomicAdd、atomicCAS，实现线程安全的内存操作
CUDA 流（Stream）
- 异步执行：任务在流中排队，支持计算与数据传输重叠
- 流同步：cudaStreamSynchronize、事件（cudaEvent）

性能优化核心

见高级实践方法总结

内存优化
- 全局内存合并访问：确保 Warp 内线程连续访问内存
- 共享内存 tiling：减少全局内存访问（如矩阵乘分块）
- 内存带宽利用率计算：实际带宽 / 理论峰值带宽
- 优化内存带宽：合并访问、对齐数据合并访问：相邻线程访问连续内存地址
- 内存对齐：数据大小为 4/8/16 字节倍数
- 减少全局内存访问：尽量在寄存器和共享内存中计算
- 减少全局内存访问：每 100 次计算对应 1 次内存访问
计算优化
- Tensor Core 利用：使用 wmma 库实现高效矩阵乘（FP16/BF16/INT8）
- 向量化编程：用 float4 等类型提高内存访问效率
- 指令级并行：减少分支发散，提高 Warp 执行效率
- 最大化并行度：充分利用 SM 资源
- 避免线程发散：减少 warp 内分支差异
资源利用率
- 线程块调度：调整块大小以最大化 SM 占用率（Occupancy）
- 寄存器压力：通过 nvcc --ptxas-options=-v 查看寄存器使用

调试与性能分析

基准测试：用 nvprof 确定热点函数
分析瓶颈：
- 计算瓶颈：低占有率（Occupancy）
- 内存瓶颈：低内存带宽利用率
针对性优化：
- 计算密集型：增加并行度、展开循环
- 内存密集型：优化内存访问模式、使用共享内存
调试工具
- CUDA-GDB：GPU 内核调试
- Nsight Compute：详细分析内核性能指标
- Nsight Systems：系统级性能追踪
关键性能指标
- 计算指标：SM 利用率、Tensor Core 利用率
- 内存指标：全局内存带宽、共享内存 Bank 冲突
- 指令指标：分支发散率、寄存器压力

Quartz 4

Explorer

0-CUDA

推荐资源

其他参考

Preofessional CUDA® C Programming

在一切开始之前——安装

CUDA 核心知识提纲

CUDA 编程核心

性能优化核心

调试与性能分析

相关生态系统

一、基础计算与核心库（CUDA 生态基础）

二、线性代数与矩阵计算

三、深度学习专用库

四、并行算法与数据结构

五、信号与图像处理

六、科学计算与工程仿真

Graph View

Table of Contents

Backlinks