跳转到内容

NVIDIA Blackwell — 双 die NV-HBI + 第二代 Transformer Engine + FP4 让万亿参数训练日常化

是什么

Blackwell 是 NVIDIA 2024 年发布的第十代 GPU 架构,旗舰是 GB100(B100/B200)——一颗为万亿参数 MoE 训练 + 4-bit 推理量身定制的硅片,名字致敬统计学家 David Blackwell。它在一代之内做了五件改写假设的事:双 die NV-HBI 互联 + 第五代 Tensor Core + FP4/FP6 + 第二代 Transformer Engine(micro-scaling)+ NVLink 5.0 + RAS Engine / 解压缩 / Secure AI——最直接的后果是 GPT-5 / Claude / Gemini Ultra 级 2025+ LLM 训练的事实硬件就是 GB200 NVL72 机柜。

日常类比:hopper-architecture-2022 给 H100 加 FP8 + Transformer Engine + TMA,让 GPT-4 训练成立。Blackwell 是把这台机器再升级——把两颗 die 用 10 TB/s 内部公路缝在一起当一颗用(NV-HBI),把 FP8 的”全张量统一刻度”换成”每 16/32 个数一把小刻度”(micro-scaling)让 FP4 也能训,把 NVLink 域从 256 卡撑到 576 卡。Hopper 让 LLM 时代加速,Blackwell 让万亿参数 MoE 变快两倍且省一半显存

落到硅片:GB100 = 2080 亿晶体管(双 die,每 die 1040 亿)、TSMC 4NP、NV-HBI 10 TB/s、192 GB HBM3e(8 stack × 24 GB)、显存带宽 8 TB/s、NVLink 5.0 1.8 TB/s、PCIe Gen6、SXM B100 700 W 风冷 / B200 1000 W 液冷。代表卡:B100(风冷主流)、B200(液冷旗舰)、GB200 Superchip(Grace + 2× B200 一颗封装)、GB200 NVL72(72 卡机柜级单 NVLink 域)Compute Capability sm_100 / sm_100a

为什么重要

不理解 Blackwell,下面这些事都没法解释:

  • 为什么 2025+ 大模型训练默认用 B200 / GB200——FP4 + TE v2 + 1.8 TB/s NVLink 让万亿 MoE 可训
  • 为什么 NVIDIA 突破了 reticle 极限——光刻机一次曝光最多 ~858 mm²,单 die 撑不下,必须双 die NV-HBI 缝合
  • 为什么 TensorRT-LLM 在 Blackwell 自动开 FP4 推理——TE v2 micro-scaling 替你做 per-block 量化
  • 为什么 GB200 NVL72 一柜 = 一个 AI 巨脑——576 GPU NVLink 域第一次让”机柜即超算”成立
  • 为什么 Snowflake / Databricks 抢购 Blackwell——硬件解压缩引擎让 Parquet/Snappy 直接进 GPU

核心要点

Blackwell 在 hopper-architecture-2022 之上做了 五件事

  1. 双 die NV-HBI 缝合:两颗 reticle-limited die 通过 NV-HBI(NVIDIA High Bandwidth Interface)10 TB/s 内部公路互联,对软件呈现为单一 CUDA 设备,cache coherent。意义:首次突破单 die 光刻面积极限——单 reticle 上限 ~858 mm² 已被 H100 的 814 mm² 撞墙;Blackwell 选择把两颗满版 die 缝在一起,每 die 1040 亿晶体管 × 2 = 2080 亿,相当于一代翻 2.6×。

  2. 第五代 Tensor Core + FP4/FP6:在 V100 第一代 FP16、Turing 第二代 INT8/INT4、Ampere 第三代 TF32/BF16/FP64、Hopper 第四代 FP8 之上,新增 FP4(E2M1)+ FP6(E2M3 / E3M2)。算力:B200 FP4 sparse ~20 PFLOPS = H100 FP8 sparse(3958 TFLOPS)× 5;FP8 sparse 也翻 2.5×;HBM3e 192 GB / 8 TB/s = H100 ×2.4。

  3. 第二代 Transformer Engine(micro-tensor scaling):H100 TE v1 是整张张量共用一个 scale(per-tensor),FP8 还能撑;FP4 动态范围只剩 ±6,per-tensor 必崩。TE v2 把张量切成 16 或 32 元素的”微块”,每块独立 scale,硬件原生支持。意义:FP4 训练首次”用户代码不变”也能不掉精度——和 Hopper TE 当年解决 FP8 精度是同一个剧本,但量级降到 4-bit。

  4. NVLink 5.0 + NVLink Switch v4:每卡 18 链 × 100 GB/s = 1.8 TB/s(H100 是 900 GB/s);NVLink Switch 把单 NVLink 域从 256 GPU 扩到 576 GPU(GB200 NVL72 = 72 卡 / 一柜,多柜可级联到 576)。意义:万亿参数 MoE 训练的 all-to-all 通信再被推开一代——专家路由跨 GPU 流量是 LLM 训练的新瓶颈。

  5. RAS Engine + 解压缩引擎 + Secure AIRAS Engine 用 AI 预测硅片故障(数千传感器 + 模型推理),把万卡集群 MTBF 从”几小时”提到”几天”;硬件解压缩单元支持 LZ4 / Snappy / Deflate,直接喂 GPU 不绕 CPU——Spark / Snowflake / Pandas-on-GPU 直接吃;Secure AI 全显存加密 + TEE-I/O,让模型权重在多租户云上不可窃。

这五件事怎么互为支柱

  • NV-HBI 双 die,光刻面积极限挡住一代算力翻倍
  • FP4,万亿参数推理显存与算力都撑不住
  • TE v2 micro-scaling,FP4 = 工程坑,没人敢直接上
  • NVLink 5.0 + 576 域,MoE all-to-all 通信再次成瓶颈
  • RAS Engine,万卡集群按”小时”挂,训练任务永远跑不完

实践案例

案例 1:双 die 对软件透明

// CUDA 12.4+, sm_100, B200 上看到的设备数仍是 1
cudaGetDeviceCount(&n); // n = 1 per B200, 不是 2
cudaDeviceProp p; cudaGetDeviceProperties(&p, 0);
// p.totalGlobalMem = 192 GB, 整片 HBM3e 一片用
// kernel launch 自动跨 die 调度, NV-HBI 10 TB/s cache coherent
// 但跨 die L2 仍非零延迟, 大 GEMM 切块仍倾向 die-local

意义:老代码 + 新硬件 = 自动加速 —— 程序员不必感知双 die,但 perf-critical kernel 仍要考虑 die-locality,类似 NUMA。

案例 2:TE v2 让 PyTorch FP4 推理免改代码

import transformer_engine.pytorch as te
import torch
# B200 上 te.Linear 自动启用 FP4 micro-scaling
model = torch.nn.Sequential(
te.Linear(8192, 8192), # FP4 权重 + FP4 GEMM, BF16 累加
te.LayerNorm(8192),
te.Linear(8192, 8192),
)
with te.fp8_autocast(fp8_recipe=te.MXFP4Recipe()): # 16 元素一组 scale
y = model(x) # B200 上 ~20 PFLOPS FP4 sparse, 比 H100 FP8 ×5
# H100 sm_90 无 FP4 Tensor Core; Blackwell sm_100+ 才有

意义:和 hopper-architecture-2022 FP8 模板同一套——库扛精度,硬件扛吞吐,TE v2 是 H100 时代经验直接迁移。

案例 3:B200 vs H100 同代对比

H100 SXM5 80GB: 80 GB HBM3 3.35 TB/s, FP8 sparse 3958 TFLOPS, NVLink 4 900 GB/s
B200 SXM: 192 GB HBM3e 8.0 TB/s, FP8 sparse ~9 PFLOPS, FP4 sparse ~20 PFLOPS, NVLink 5 1.8 TB/s
GPT-3 175B 训练: H100 ~512 卡 ~14 天 (FP8); B200 ~256 卡 ~10 天 (FP8 + 双 die)
万亿参数 MoE 训练: H100 通信瓶颈; B200 NVLink 5 + 576 域才可训

意义:H100 → B200 的代差不在 FP32,而在 FP4 新增 + 显存翻 2.4× + NVLink 翻 2× + 双 die 算力 ×2.6——MoE / 万亿稠密时代再次提速一代

GB200 Superchip = 1× Grace CPU + 2× B200 GPU 共封装, 内部 NVLink C2C 900 GB/s
GB200 NVL72 机柜 = 36 个 GB200 = 72 张 B200, 全互联走外部 NVLink Switch v4
单柜 = 1 个 NVLink 域 = 720 PFLOPS FP8 / 1440 PFLOPS FP4 (sparse)
多柜级联 → 单 NVLink 域可扩到 576 GPU (8 柜)

意义:机柜即超算——576 GPU 共享一个 NVLink 地址空间,对 MoE all-to-all 几乎等价于”一台大 GPU”。

踩过的坑

  1. FP4 不是简单 cast:直接 tensor.to(torch.float4_e2m1fn) 训练几乎必发散;必须经 TE v2 + MXFP4 recipe,由库维护 per-block(16/32 元素)amax + scale,复刻 H100 时代 FP8 教训。

  2. 双 die 不是真正”一颗”:NV-HBI 10 TB/s 看似无限,但跨 die 仍比 die-local L2 慢一个量级;CUTLASS / cuBLAS 已加 die-aware 切块,自己写 kernel 别假装一片连续 SM 阵列。

  3. B100 vs B200 算力差 ~25%:B100 风冷 700 W,B200 液冷 1000 W,FP4 / FP8 算力 B200 高 ~25%;超算 / 云厂商主推 B200,普通 OEM 服务器多用 B100,规格表别看反。

  4. GB200 NVL72 ≠ DGX B200:DGX B200 是单机 8 卡 SXM;NVL72 是机柜级 72 卡 + 外部 NVLink Switch,售价数百万美元,二者别搞混。一个是 H100 时代 DGX 升级,另一个是新形态。

  5. 576 GPU NVLink 域需机柜级 Switch:宣传里的”576 GPU 单域”必须是 NVL72 多柜级联 + 外部 NVLink Switch 整机柜,不是随便堆 576 张 B200 就能跑。

  6. PCIe B100 NVLink 砍半:PCIe 形态卡 NVLink 仅 900 GB/s(与 H100 SXM5 同),SXM B100/B200 才 1.8 TB/s 全互联。多卡训练买 PCIe 版会撞通信墙——HGX B200 / GB200 NVL72 都是 SXM。

适用 vs 不适用场景

适用

  • 万亿参数 MoE 训练 —— GPT-5 / Claude / Gemini Ultra 级模型必须走 NVLink 5 + 576 域
  • 4-bit LLM 推理 —— FP4 + TE v2 让 405B / 1T 模型单机柜可服务
  • HPC FP64 —— FP64 Tensor 算力翻倍,气候 / 流体模拟
  • 数据库 / Spark on GPU —— 硬件解压缩单元让 Parquet / Snappy 直接吃
  • 多租户机密 AI —— Secure AI TEE-I/O 让权重在第三方云不可窃

不适用

  • 单卡推理小模型 —— 192 GB / 1000 W 浪费,L4 / L40S(Ada)能效更高
  • 消费图形 / 光追 —— B100 无 RT Core 强化,消费 RTX 5090(Ada-Next)才合适
  • 轻量训练 —— FP4 精度需 TE v2 加持,CV / RL 老代码用不上 FP4
  • 经济型推理 —— B100/B200 单价 3-5 万美元,Hopper 二手或 Ada 合适
  • 小机柜 —— NVL72 单柜电力 ~120 kW,传统数据中心散热不够,需液冷改造

历史小故事(可跳过)

  • 2024-03 GTC:黄仁勋发布 Blackwell B100/B200/GB200,公布 NVL72 机柜与 NVLink Switch v4
  • 2024-06:业界首次披露 reticle 极限突破,双 die NV-HBI 技术路线
  • 2024-10 量产出货:B200 SXM、HGX B200、DGX B200 上市
  • 2024-12 GB200 NVL72 量产:Microsoft Azure / AWS / Google 首批部署
  • 2025-Q1 主流云厂 GB200 实例上线:万亿 MoE 训练事实底座
  • 2025-Q2 Blackwell Ultra(B300 系列)发布:HBM3e 升级到 288 GB,传闻 FP4 算力再提 ~50%
  • 2026-Q1 Rubin 架构预告:下一代继任者,HBM4 + NVLink 6.0

学到什么

  1. 专用化继续深化到”封装级集成”volta-architecture-2017 加 Tensor Core、turing-architecture-2018 加 RT Core、ampere-architecture-2020 加多精度、hopper-architecture-2022 加 TE v1;Blackwell 第一次把”两颗满版 die 缝合”做成软件透明——封装即架构
  2. 数值精度还能再降一半:FP32 → FP16 → BF16 → FP8 → FP4,每次靠”软件库自动 scale”扛精度,TE v2 是这条路线最新一站
  3. CUDA 编程模型外延继续扩:thread → warp → block → cluster(H100)→ 跨 die 透明(B200)+ 跨柜 NVLink 域(NVL72)tesla-architecture-2008 SIMT 模型 16 年来再扩一次
  4. 架构永远超前 18-24 个月:B100 设计于 2020-2022,FP4 + 双 die 押注的是”还没出现的万亿 MoE 时代”——再次赌中
  5. 算力翻倍 ≠ 自动用上:FP4 ~20 PFLOPS 听上去诱人,但只有走 TE v2 的 LLM 真正吃到,老 CV / RL 代码完全用不上——专用化副作用比 hopper-architecture-2022 时代更明显

延伸阅读

关联