英伟达AI芯片路线图分析与解读

GPU 性能指标

核心数
GPU 显存容量
GPU 计算峰值
显存带宽

Professional Product

https://images.nvidia.cn/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf


Professional Product	Graphics Cards
[Volta (2017)]([ https://en.wikipedia.org/wiki/Volta_\ (microarchitecture)]( https://en.wikipedia.org/wiki/Volta_%5C\ (microarchitecture%5 C)) “Volta (microarchitecture)”) (Pred. - [Pascal]([ https://en.wikipedia.org/wiki/Pascal_\ (microarchitecture)]( https://en.wikipedia.org/wiki/Pascal_%5C\ (microarchitecture%5 C)) “Pascal (microarchitecture)“))	Tesla V Titan V Quadro GV100
[Ampere (2020)]([ https://en.wikipedia.org/wiki/Ampere_\ (microarchitecture)]( https://en.wikipedia.org/wiki/Ampere_%5C\ (microarchitecture%5 C)) “Ampere (microarchitecture)“)	A 100
[Hopper (2022)]([ https://en.wikipedia.org/wiki/Hopper_\ (microarchitecture)]( https://en.wikipedia.org/wiki/Hopper_%5C\ (microarchitecture%5 C)) “Hopper (microarchitecture)“)	H 100 H 200
[Blackwell (2024)]([ https://en.wikipedia.org/wiki/Blackwell_\ (microarchitecture)]( https://en.wikipedia.org/wiki/Blackwell_%5C\ (microarchitecture%5 C)) “Blackwell (microarchitecture)“)	B 100 B 200
[Rubin (2026)]([ https://en.wikipedia.org/wiki/Rubin_\ (microarchitecture)]( https://en.wikipedia.org/wiki/Rubin_%5C\ (microarchitecture%5 C)) “Rubin (microarchitecture)“)	R 100 R 200
[Feynman (2028)]([ https://en.wikipedia.org/wiki/Feynman_\ (microarchitecture)]( https://en.wikipedia.org/wiki/Feynman_%5C\ (microarchitecture%5 C)) “Feynman (microarchitecture)“)	F 100 (Unconfirmed) F 200 (Unconfirmed

A 100 架构解析：https://zhuanlan.zhihu.com/p/1908285912053453831

NVIDIA 主流架构演进

架构名称	发布时间	核心参数	特点和优势	算力等级	代表型号
Fermi	2010 年	晶体管：30 亿 CUDA 核心：512 SM 单元：16 制程：40 nm	首次引入统一计算架构，支持 ECC 内存和动态并行计算，推动 GPGPU 应用从科学计算向通用计算扩展。但受限于制程和架构设计，能效比偏低。	2.0	GeForce GTX 580 Tesla C 2050
Kepler	2012 年	晶体管：43 亿 CUDA 核心：2304 SM 单元：15 制程：28 nm	引入 GPU Boost 动态超频技术，支持动态并行计算和单精度浮点（FP 32）性能提升，能效比相比 Fermi 提升 50% 以上。GK 110 核心首次实现完整双精度浮点（FP 64）计算能力，推动 HPC 领域发展。	3.0	GeForce GTX 780 Tesla K 40
Maxwell	2014 年	晶体管：29 亿 CUDA 核心：2048 SM 单元：16 制程：28 nm	革命性优化能效比（较 Kepler 提升 3 倍），引入多分辨率渲染（MFAA）和动态超分辨率（DSR），支持 DirectX 12 和 OpenGL 4.5。首次在消费级显卡中实现完整的异步计算和多线程处理，为 VR 应用奠定基础。	5.0/5.2	GeForce GTX 980 Tesla M 40
Pascal	2016 年	晶体管：72 亿 CUDA 核心：3584 SM 单元：28 制程：16 nm	首次引入 16 nm FinFET 制程，支持 HBM 2 显存（带宽提升 3 倍），并推出首个专为深度学习设计的 Tensor Core（P 100）。消费级显卡（如 GTX 1080）首次支持实时光线追踪（需软件支持），同时多 GPU 互联技术 SLI 升级至更高效的 NVLink。	6.0/6.1	GeForce GTX 1080 Tesla P 100
Volta	2017 年	晶体管：211 亿 CUDA 核心：5120 SM 单元：80 制程：12 nm	革命性 Tensor Core 支持混合精度计算（FP 16/FP 32/INT 8），AI 性能提升 50 倍以上。首次实现结构化稀疏（Structured Sparsity）技术，同时引入 GDDR 5 X 显存和 NVLink 2.0（带宽 300 GB/s）。Volta 架构成为 AI 训练和推理的里程碑，V 100 GPU 至今仍广泛应用于数据中心。	7.0	Tesla V 100 Quadro GV 100
Turing	2018 年	晶体管：186 亿 CUDA 核心：2560 RT Core：32 Tensor Core：256 制程：12 nm	首次集成专用光线追踪核心（RT Core），支持实时光线追踪加速（较 CPU 快 100 倍），并推出 DLSS 1.0（深度学习超采样）。引入 RTX 平台，将光线追踪、深度学习和栅格化技术深度融合，重新定义游戏和专业图形渲染标准。	7.5	GeForce RTX 2080 Tesla T 4
Ampere	2020 年	晶体管：540 亿 CUDA 核心：5376 第三代 Tensor Core：432 制程：7 nm	第三代 Tensor Core 支持 TF 32 精度（性能提升 20 倍），第二代 RT Core（光线追踪性能翻倍），并引入多实例 GPU（MIG）技术，支持 GPU 资源细粒度分割。第三代 NVLink 带宽达 600 GB/s，A 100 GPU 成为超算和 AI 训练的标杆。消费级显卡（如 RTX 3090）首次实现 24 GB GDDR 6 X 显存，推动 8 K 游戏和内容创作。	8.0/8.6	GeForce RTX 3090 A 100 Tensor Core GPU
Ada Lovelace	2022 年	晶体管：760 亿 CUDA 核心：16384 第四代 Tensor Core：512 制程：4 nm	第四代 Tensor Core 支持 FP 8 精度（AI 推理性能提升 4 倍），第三代 RT Core（光线追踪性能提升 2 倍），并推出 DLSS 3.0（结合光线重建技术）。AV 1 编码加速引擎支持 8 K 视频实时处理，同时 Ada 架构首次在消费级显卡中实现 12 层光追计算，推动影视渲染和虚拟制作进入实时时代。	8.9	GeForce RTX 4090 RTX 6000 Ada Generation
Hopper	2022 年	晶体管：800 亿 CUDA 核心：6080 第四代 Tensor Core：608 制程：4 nm	第四代 Tensor Core 支持 Transformer 引擎（AI 训练速度提升 30 倍），DPX 指令（动态编程加速 40 倍），并引入机密计算（保护数据隐私）。第四代 NVLink 带宽达 900 GB/s，H 100 GPU 首次实现 900 GB/s 显存带宽，成为百亿亿次超算和万亿参数大模型的核心。	9.0	H 100 Tensor Core GPU H 200 NVL
Blackwell	2024 年	晶体管：2080 亿 CUDA 核心：28160 第五代 Tensor Core：2240 制程：4 nm	第二代 Transformer 引擎支持 FP 4 精度（AI 算力达 20 PetaFLOPS），第五代 NVLink 带宽达 1.8 TB/s，支持多 GPU 集群无缝互联。新增解压缩引擎（数据库查询加速 5 倍）、RAS 引擎（故障预测与修复），并首次实现芯片级机密计算。GB 200 超级芯片（双 B 200+Grace CPU）推理性能较 H 100 提升 30 倍，成本和能耗降低至 1/25。	9.6	B 200 GPU GB 200 Superchip

Hopper

https://developer.nvidia.com/blog/nvidia-hopper-architecture-in-depth/

Blackwell

https://resources.nvidia.com/en-us-blackwell-architecture