英伟达AI芯片路线图分析与解读

GPU 性能指标

  1. 核心数
  2. GPU 显存容量
  3. GPU 计算峰值
  4. 显存带宽

Professional Product

https://images.nvidia.cn/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf

Professional ProductGraphics Cards
[Volta (2017)]([ https://en.wikipedia.org/wiki/Volta_\ (microarchitecture)]( https://en.wikipedia.org/wiki/Volta_%5C\ (microarchitecture%5 C)) “Volta (microarchitecture)”)
(Pred. - [Pascal]([ https://en.wikipedia.org/wiki/Pascal_\ (microarchitecture)]( https://en.wikipedia.org/wiki/Pascal_%5C\ (microarchitecture%5 C)) “Pascal (microarchitecture)“))
Tesla V
Titan V
Quadro GV100
[Ampere (2020)]([ https://en.wikipedia.org/wiki/Ampere_\ (microarchitecture)]( https://en.wikipedia.org/wiki/Ampere_%5C\ (microarchitecture%5 C)) “Ampere (microarchitecture)“)A 100
[Hopper (2022)]([ https://en.wikipedia.org/wiki/Hopper_\ (microarchitecture)]( https://en.wikipedia.org/wiki/Hopper_%5C\ (microarchitecture%5 C)) “Hopper (microarchitecture)“)H 100
H 200
[Blackwell (2024)]([ https://en.wikipedia.org/wiki/Blackwell_\ (microarchitecture)]( https://en.wikipedia.org/wiki/Blackwell_%5C\ (microarchitecture%5 C)) “Blackwell (microarchitecture)“)B 100
B 200
[Rubin (2026)]([ https://en.wikipedia.org/wiki/Rubin_\ (microarchitecture)]( https://en.wikipedia.org/wiki/Rubin_%5C\ (microarchitecture%5 C)) “Rubin (microarchitecture)“)R 100

R 200
[Feynman (2028)]([ https://en.wikipedia.org/wiki/Feynman_\ (microarchitecture)]( https://en.wikipedia.org/wiki/Feynman_%5C\ (microarchitecture%5 C)) “Feynman (microarchitecture)“)F 100 (Unconfirmed)

F 200 (Unconfirmed

A 100 架构解析:https://zhuanlan.zhihu.com/p/1908285912053453831

NVIDIA 主流架构演进

架构名称发布时间核心参数特点和优势算力等级代表型号
Fermi2010 年晶体管:30 亿
CUDA 核心:512
SM 单元:16
制程:40 nm
首次引入统一计算架构,支持 ECC 内存和动态并行计算,推动 GPGPU 应用从科学计算向通用计算扩展。但受限于制程和架构设计,能效比偏低。2.0GeForce GTX 580
Tesla C 2050
Kepler2012 年晶体管:43 亿
CUDA 核心:2304
SM 单元:15
制程:28 nm
引入 GPU Boost 动态超频技术,支持动态并行计算和单精度浮点(FP 32)性能提升,能效比相比 Fermi 提升 50% 以上。GK 110 核心首次实现完整双精度浮点(FP 64)计算能力,推动 HPC 领域发展。3.0GeForce GTX 780
Tesla K 40
Maxwell2014 年晶体管:29 亿
CUDA 核心:2048
SM 单元:16
制程:28 nm
革命性优化能效比(较 Kepler 提升 3 倍),引入多分辨率渲染(MFAA)和动态超分辨率(DSR),支持 DirectX 12 和 OpenGL 4.5。首次在消费级显卡中实现完整的异步计算和多线程处理,为 VR 应用奠定基础。5.0/5.2GeForce GTX 980
Tesla M 40
Pascal2016 年晶体管:72 亿
CUDA 核心:3584
SM 单元:28
制程:16 nm
首次引入 16 nm FinFET 制程,支持 HBM 2 显存(带宽提升 3 倍),并推出首个专为深度学习设计的 Tensor Core(P 100)。消费级显卡(如 GTX 1080)首次支持实时光线追踪(需软件支持),同时多 GPU 互联技术 SLI 升级至更高效的 NVLink。6.0/6.1GeForce GTX 1080
Tesla P 100
Volta2017 年晶体管:211 亿
CUDA 核心:5120
SM 单元:80
制程:12 nm
革命性 Tensor Core 支持混合精度计算(FP 16/FP 32/INT 8),AI 性能提升 50 倍以上。首次实现结构化稀疏(Structured Sparsity)技术,同时引入 GDDR 5 X 显存和 NVLink 2.0(带宽 300 GB/s)。Volta 架构成为 AI 训练和推理的里程碑,V 100 GPU 至今仍广泛应用于数据中心。7.0Tesla V 100
Quadro GV 100
Turing2018 年晶体管:186 亿
CUDA 核心:2560
RT Core:32
Tensor Core:256
制程:12 nm
首次集成专用光线追踪核心(RT Core),支持实时光线追踪加速(较 CPU 快 100 倍),并推出 DLSS 1.0(深度学习超采样)。引入 RTX 平台,将光线追踪、深度学习和栅格化技术深度融合,重新定义游戏和专业图形渲染标准。7.5GeForce RTX 2080
Tesla T 4
Ampere2020 年晶体管:540 亿
CUDA 核心:5376
第三代 Tensor Core:432
制程:7 nm
第三代 Tensor Core 支持 TF 32 精度(性能提升 20 倍),第二代 RT Core(光线追踪性能翻倍),并引入多实例 GPU(MIG)技术,支持 GPU 资源细粒度分割。第三代 NVLink 带宽达 600 GB/s,A 100 GPU 成为超算和 AI 训练的标杆。消费级显卡(如 RTX 3090)首次实现 24 GB GDDR 6 X 显存,推动 8 K 游戏和内容创作。8.0/8.6GeForce RTX 3090
A 100 Tensor Core GPU
Ada Lovelace2022 年晶体管:760 亿
CUDA 核心:16384
第四代 Tensor Core:512
制程:4 nm
第四代 Tensor Core 支持 FP 8 精度(AI 推理性能提升 4 倍),第三代 RT Core(光线追踪性能提升 2 倍),并推出 DLSS 3.0(结合光线重建技术)。AV 1 编码加速引擎支持 8 K 视频实时处理,同时 Ada 架构首次在消费级显卡中实现 12 层光追计算,推动影视渲染和虚拟制作进入实时时代。8.9GeForce RTX 4090
RTX 6000 Ada Generation
Hopper2022 年晶体管:800 亿
CUDA 核心:6080
第四代 Tensor Core:608
制程:4 nm
第四代 Tensor Core 支持 Transformer 引擎(AI 训练速度提升 30 倍),DPX 指令(动态编程加速 40 倍),并引入机密计算(保护数据隐私)。第四代 NVLink 带宽达 900 GB/s,H 100 GPU 首次实现 900 GB/s 显存带宽,成为百亿亿次超算和万亿参数大模型的核心。9.0H 100 Tensor Core GPU
H 200 NVL
Blackwell2024 年晶体管:2080 亿
CUDA 核心:28160
第五代 Tensor Core:2240
制程:4 nm
第二代 Transformer 引擎支持 FP 4 精度(AI 算力达 20 PetaFLOPS),第五代 NVLink 带宽达 1.8 TB/s,支持多 GPU 集群无缝互联。新增解压缩引擎(数据库查询加速 5 倍)、RAS 引擎(故障预测与修复),并首次实现芯片级机密计算。GB 200 超级芯片(双 B 200+Grace CPU)推理性能较 H 100 提升 30 倍,成本和能耗降低至 1/25。9.6B 200 GPU
GB 200 Superchip

Hopper

https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

Blackwell

https://resources.nvidia.com/en-us-blackwell-architecture