NVIDIA SXM
1. SXM 概述
SXM 全称 Server PCI Express Module(服务器 PCI Express 模块),是 NVIDIA 专有的高带宽 GPU 插槽/插座解决方案,用于将数据中心级 GPU 加速器直接安装到服务器主板上。
核心设计理念
专有化: SXM 是 NVIDIA 封闭的专有接口标准,规格未公开(需签署 NDA, Non-Disclosure Agreement),这给了 NVIDIA 完全的设计自由度
高带宽: 通过 NVLink 实现 GPU 间直连,带宽远超 PCIe
高功耗: 不受 PCIe 标准 75W/300W 限制,通过插座直接供电可达 700W-1400W+
高密度: 单块 HGX 基板(NVLink Switch、供电与散热底座)可容纳 4 或 8 颗 GPU
模块化: GPU 以子卡(mezzanine card)形态水平安装,便于集成
为什么需要 SXM?
传统 PCIe 插槽在设计时面向通用扩展卡(网卡、存储卡、GPU 等),存在以下瓶颈:
- 功耗限制: PCIe 插槽标准供电仅 75W,即便加上辅助供电线,PCIe 规范也限制了整体功耗方案
- 带宽限制: PCIe x16 的带宽远低于 NVLink,无法满足大规模多 GPU 并行训练的需求
- 拓扑限制: PCIe 树形拓扑下 GPU 间通信必须经过 CPU,延迟高、带宽受限
- 密度限制: 标准 PCIe 卡垂直安装,占用大量空间,散热和供电设计复杂
SXM 通过打破这些限制,使 DGX/HGX 系统中的 8 颗 GPU 能够像一台巨型 GPU 一样协同工作。
2. SXM 代际演进
2.1 SXM1(Pascal P100,2016)
SXM 首次随 Tesla P100(GP100 核心)在 DGX-1 系统中引入。
| 项目 | 规格 |
|---|---|
| 对应 GPU | Tesla P100 (GP100) |
| 架构 | Pascal |
| 显存 | 16GB HBM2 |
| 显存带宽 | 720 GB/s |
| TDP | 300W |
| NVLink 版本 | NVLink 1.0 |
| NVLink 带宽 | 160 GB/s(4 链路,每链 40 GB/s) |
| 首发产品 | DGX-1 |
| 制程 | TSMC 16FF+ |
| 晶体管数 | 153 亿 |
P100 是首个配备 NVLink 的 GPU,SXM 模块上的 4 颗 GPU 通过 NVLink 以混合立方体网格(hybrid cube mesh)拓扑互联。
2.2 SXM2(Volta V100 16GB,2017)
| 项目 | 规格 |
|---|---|
| 对应 GPU | Tesla V100 16GB (GV100) |
| 架构 | Volta |
| 显存 | 16GB HBM2 |
| 显存带宽 | 900 GB/s |
| TDP | 300W |
| NVLink 版本 | NVLink 2.0 |
| NVLink 带宽 | 300 GB/s(6 链路,每链 50 GB/s) |
| 连接器 | Amphenol MEG-Array 400 针 |
| 首发产品 | DGX-1 V100 |
| 制程 | TSMC 12FFN |
| 晶体管数 | 211 亿 |
V100 引入了 Tensor Core,AI 训练性能相比 P100 提升 12 倍。SXM2 使用 400 针 Amphenol MEG-Array 连接器,从 P100 的 NVLink 网格拓扑升级为 NVLink 全连接 拓扑。
2.3 SXM3(Volta V100 32GB,2018)
| 项目 | 规格 |
|---|---|
| 对应 GPU | Tesla V100 32GB (GV100) |
| 架构 | Volta(与 V100 相同核心) |
| 显存 | 32GB HBM2 |
| 显存带宽 | 900 GB/s |
| TDP | 350W |
| NVLink 版本 | NVLink 2.0 |
| NVLink 带宽 | 300 GB/s |
| 供电架构 | 48V 输入(区别于 12V) |
| 连接器 | 更新版 Amphenol MEG-Array(更坚固) |
| 首发产品 | DGX-2 |
SXM3 的关键变化:
- 连接器升级: 虽然外形与 SXM2 相似,但使用了更坚固的 MEG-Array 连接器(针脚配置不同)
- 48V 供电: 这是最大的架构变化——从传统的 12V 切换到 48V 供电架构,显著降低了电流损耗
- Vicor 模块: 引入了 Vicor MCM/MCD(Multi-Chip Module/Driver)电源模块,这在后续 SXM4/5/6 中成为标准设计
- TDP 提升: 从 300W 提高到 350W,为更高功耗的 GPU 奠定了基础
SXM3 也是 NVIDIA 首次以标准化的 HGX 基板 形式向 OEM 供货。OEM 可以直接购买 4-GPU 的预组装基板,大幅降低了集成难度。
关于 SXM 编号的一个历史细节: P100 使用的是 SXM 模块(无后缀数字),但被称为 “SXM2” 规格。实际上,P100 的 SXM 在 DGX-1 中被称为 SXM-2 规格(能升级到 V100 的 SXM2 模块)。Wikipedia 等来源将 P100 使用的插座标记为 SXM,而将 P100 模块本身标记为 SXM2。更准确的理解是:P100 是 SXM1(第一代),V100 16GB 是 SXM2,V100 32GB 是 SXM3。
2.4 SXM4(Ampere A100,2020)
| 项目 | 规格 |
|---|---|
| 对应 GPU | A100 40GB / 80GB (GA100) |
| 架构 | Ampere |
| 显存 | 40GB HBM2 / 80GB HBM2e |
| 显存带宽 | 1.6 TB/s (HBM2) / 2.0 TB/s (HBM2e) |
| TDP | 400W |
| NVLink 版本 | NVLink 3.0 |
| NVLink 带宽 | 600 GB/s(12 链路,每链 50 GB/s) |
| 首发产品 | DGX A100 |
| 制程 | TSMC N7 |
| 晶体管数 | 542 亿 |
| MIG | 支持(最多 7 个实例) |
| NVSwitch | 第三代,支持 SHARP 网络内归约 |
A100 是首个支持 MIG(Multi-Instance GPU) 的 GPU,可以将一颗 GPU 分割为最多 7 个独立实例。SXM4 基板使用 NVIDIA 名为 Redstone 的 4-GPU 基板设计,在 DGX A100 中每块基板搭载 4 颗 GPU,通过两块基板实现 8 颗 GPU 配置。
NVLink 3.0 每 GPU 提供 600 GB/s 双向带宽,配合 NVSwitch 实现 8 颗 GPU 的全互联拓扑。
2.5 SXM5(Hopper H100/H200,2022/2023)
| 项目 | 规格 |
|---|---|
| 对应 GPU | H100 (GH100) / H200 |
| 架构 | Hopper |
| 显存 | 80GB HBM3 (H100) / 141GB HBM3e (H200) |
| 显存带宽 | 3.35 TB/s (H100) / 4.8 TB/s (H200) |
| TDP | 700W |
| NVLink 版本 | NVLink 4.0 |
| NVLink 带宽 | 900 GB/s(18 链路,每链 50 GB/s) |
| 首发产品 | DGX H100 |
| 制程 | TSMC 4N |
| 晶体管数 | 800 亿 |
| 新增特性 | Transformer Engine, FP8, DPX 指令集 |
SXM5 是迄今为止应用最广泛的 SXM 规格。H100 SXM5 的关键突破:
- NVLink 4.0 带宽: 900 GB/s 双向,是 PCIe 5.0 x16(64 GB/s)的 14 倍
- 900W 供电能力: 虽然标称 TDP 700W,但 SXM5 插座的供电能力可达 900W
- Transformer Engine: 专为大模型(LLM)设计的混合精度矩阵运算单元
- NVSwitch 4.0: 4 颗 NVSwitch 芯片将 8 颗 GPU 全互联,总双向带宽超 7.2 TB/s
- H200 更新: 同 SXM5 插座,但显存升级为 141GB HBM3e,带宽 4.8 TB/s
SXM5 的供电仍基于 Vicor 的 48V 架构,使用 Vicor MCM/MCD 模块将 48V 转换为 GPU 核心电压。
2.6 SXM6(Blackwell B200/B300,2024/2025)
| 项目 | 规格 |
|---|---|
| 对应 GPU | B200 / B300 (GB100/GB300) |
| 架构 | Blackwell / Blackwell Ultra |
| 显存 | 192GB HBM3e (B200) / 288GB HBM3e (B300) |
| 显存带宽 | 8 TB/s (B200) / 8 TB/s (B300) |
| TDP | 1000W-1200W (B200) / 1400W (B300) |
| NVLink 版本 | NVLink 5.0 |
| NVLink 带宽 | 1.8 TB/s |
| 制程 | TSMC 4NP |
| 晶体管数 | 2080 亿(双芯设计) |
| 首发产品 | DGX B200 / GB200 NVL72 |
SXM6 是 SXM 史上最大的跳变:
- 双芯封装: B200 由两颗 GB100 芯片通过 NVLink 桥连接(CoWoS-L 封装),单颗 GPU 相当于两颗 1040 亿晶体管的芯片
- 功耗爆炸: 1000W(风冷)/ 1200W(液冷)—— B200 单 GPU 功耗已超过不少家用 PC 的整机功耗
- B300 更进一步: 1400W TDP,288GB HBM3e(12 层堆叠),15 PFLOPS FP4
- NVLink 5.0: 双向 1.8 TB/s,支持 SHARP v4 网络内归约
- 液冷成为必须: B200 1000W TDP 下仍可风冷,但 B300 1400W 基本必须液冷
- 可拆卸设计传闻: 2024 年 10 月 TrendForce 报道称,B300 可能首次采用 可拆卸插座设计,使 GPU 模块可被用户更换(不再焊死在基板上)
B200 vs B300 区别: B200(双芯 GB100,192GB HBM3e,1000W)于 2024 下半年出货。B300(Blackwell Ultra,288GB HBM3e,1400W)于 2025 下半年出货。
2.7 SXM7(Rubin R100,2026)
| 项目 | 规格 |
|---|---|
| 对应 GPU | R100 (GR100) |
| 架构 | Rubin |
| 显存 | 288GB HBM4 |
| 显存带宽 | 待公布 |
| TDP | 预计 1500W+ |
| NVLink 版本 | NVLink 6.0 |
| NVLink 带宽 | 超过 2 TB/s |
| 制程 | 待公布(TSMC N3 系列) |
| 首发产品 | Vera Rubin NVL144 |
Rubin 是 Blackwell 之后的 NVIDIA 下一代 GPU 架构,以天文学家 Vera Rubin 命名:
- 两颗 RDL(Re-Distribution Layer,再布线层,将把多个芯片和 HBM 显存拼在一块基底(Interposer)上)GR100 芯片在一个 SXM7 插座中
- 首款使用 HBM4 的 GPU(JEDEC HBM4 标准)
- 与 NVLink 6.0 一同推出,GPU 间带宽超 2 TB/s
- Vera Rubin NVL144 平台将 144 颗 Rubin GPU 通过 NVLink 6 全互联
2.8 SXM8(Rubin Ultra,2027)
| 项目 | 规格 |
|---|---|
| 对应 GPU | VR200 或 Rubin Ultra |
| 显存 | 1TB HBM4/HBM4e |
| FP4 性能 | 100 PFLOPS |
| TDP | 预计 2000W+ |
| NVLink 版本 | NVLink 6 / 7 |
| 首发展品 | Vera Rubin Ultra NVL576 |
Rubin Ultra 将 4 颗 RDL GPU 芯片 放入一个插座中,实现 100 PFLOPS FP4 和 1TB 显存。NVL576 平台将连接 576 颗 GPU。
2.9 Feynman(2028+)
NVIDIA 在 GTC 2026 公布了 Feynman 架构(以物理学家 Richard Feynman 命名),将是 SXM 的下一个重大演进:
- 3D 堆叠: 首次采用 GPU 芯片垂直堆叠设计,突破单芯片面积限制
- 定制 HBM(C-HBM4E): 定制高带宽内存,单 GPU 容量超 1TB
- 光学 NVLink: 片内集成光互连,数据中心不再使用铜缆
- 与 Rosa CPU 配对: Feynman GPU 与 Rosa CPU(Vera 的后继者)组成超级芯片
- 集成 Groq LPU: Groq LP40 引擎将加入 NVLink 端口
Feynman 将使用什么 SXM 编号尚无定论(SXM9 或新一代互连方案),但可以肯定的是它将推动数据中心互连从铜到光的范式转变。
3. 物理接口与电气规格
3.1 连接器:Amphenol MEG-Array
所有 SXM 模块均使用 Amphenol MEG-Array 夹层连接器(mezzanine connector)。这是 SXM 物理层的核心组件。
| 特性 | 说明 |
|---|---|
| 制造商 | Amphenol Communications Solutions |
| 系列 | MEG-Array(Mezzanine Grid Array) |
| 针间距 | 1.27mm × 1.27mm 阵列 |
| 信号速率 | 超过 10 Gb/s |
| 焊接方式 | 表面贴装(SMT) |
| 关键特性 | 高密度、高速、可靠性优于 PCIe 金手指 |
MEG-Array 是双向阵列连接器,GPU 子卡和基板各有一半。特点包括:
- 灵活的接地分布设计以优化信号完整性
- 支持超过 10 Gb/s 的高速信号传输
- 大规模阵列结构提供高密度连接
- 标准表面贴装工艺降低了制造成本
各代针脚数:
- SXM2: 400 针 Amphenol MEG-Array
- SXM3/SXM4/SXM5: 400-600 针(具体数量为 NVIDIA 机密),双高密度阵列
关于规格保密: SXM 连接器的精确针脚定义、尺寸和信号分配是 NVIDIA 的商业机密。正如 NVIDIA 开发者论坛上一位工程师所述:“SXM2、SXM3、SXM4、SXM5 连接器的规格似乎是商业秘密,除非所有相关方都是 PCI-SIG 成员,否则你不能讨论它。”
3.2 供电架构
SXM 供电架构的核心演进路径是从 12V 到 48V,并引入 Vicor 高效电源模块。
48V 供电拓扑(SXM3+)
SXM2 及之前的 GPU 使用标准的 12V 输入。从 SXM3(V100 32GB)开始,NVIDIA 切换到 48V 供电架构:
DC-DC 转换链路:
48V PSU → Vicor BCM(总线转换模块)→ 48V→12V(MCD)→ 12V→核心电压(MCM)
Vicor 模块深入解析:
- BCM(Bus Converter Module): 负责将 PSU 的 48V 高效转换为中间总线电压
- MCM(Multi-Chip Module): GPU 核心电压调节模块,将 12V 转换为 GPU 核心需要的低压大电流
- MCD(Multi-Chip Driver): 与 MCM 配合的驱动模块
这一架构的优势:
- 48V 传输降低电流: 同样功率下,48V 的电流只有 12V 的 1/4,大幅降低 PCB 铜损和发热
- 更高的功效率: Vicor 模块的转换效率通常在 95% 以上
- 模块化设计: 标准化电源模块便于扩展到大功率 GPU
各代功耗演进
| 代际 | GPU | TDP | 供电架构 | 典型供电方案 |
|---|---|---|---|---|
| SXM1 | P100 | 300W | 12V | 标准 VRM |
| SXM2 | V100 16GB | 300W | 12V | 标准 VRM |
| SXM3 | V100 32GB | 350W | 48V Vicor | Vicor BCM + MCM/MCD |
| SXM4 | A100 | 400W | 48V Vicor | Vicor MCM/MCD |
| SXM5 | H100 | 700W | 48V Vicor | Vicor 增强型 MCM/MCD |
| SXM5 | H200 | 700W | 48V Vicor | 同上 |
| SXM6 | B200 | 1000-1200W | 48V Vicor + 液冷 | 高功率 Vicor 模块 |
| SXM6 | B300 | 1400W | 48V Vicor + 强制液冷 | 增强型供电 |
| SXM7 | R100 | 1500W+ | 待公布 | 更高密度供电 |
以 1000W TDP 的 B200 为例,48V 供电架构下仅需约 21A 电流;如果使用传统的 12V,则需要 83A —— 这需要极其粗壮的电源线和巨大的 PCB 铜层。
4. SXM 完整规格一览表
| 规格 | SXM1 (P100) | SXM2 (V100 16G) | SXM3 (V100 32G) | SXM4 (A100) | SXM5 (H100) | SXM6 (B200) | SXM6 (B300) | SXM7 (R100) |
|---|---|---|---|---|---|---|---|---|
| 发布时间 | Q2 2016 | Q3 2017 | Q3 2018 | Q1 2020 | Q3 2022 | Q4 2024 | H2 2025 | 2026 |
| 架构 | Pascal | Volta | Volta | Ampere | Hopper | Blackwell | Blackwell Ultra | Rubin |
| GPU 核心 | GP100 | GV100 | GV100 | GA100 | GH100 | GB100×2 | GB300×2 | GR100×2 |
| 晶体管 | 153亿 | 211亿 | 211亿 | 542亿 | 800亿 | 2080亿 | - | - |
| 制程 | 16FF+ | 12FFN | 12FFN | N7 | 4N | 4NP | 4NP | N3? |
| HBM 类型 | HBM2 | HBM2 | HBM2 | HBM2/HBM2e | HBM3 | HBM3e | HBM3e | HBM4 |
| 显存容量 | 16GB | 16GB | 32GB | 40/80GB | 80GB | 192GB | 288GB | ~288GB |
| 显存带宽 | 720GB/s | 900GB/s | 900GB/s | 1.6-2.0TB/s | 3.35TB/s | 8TB/s | 8TB/s | - |
| TDP | 300W | 300W | 350W | 400W | 700W | 1000-1200W | 1400W | 1500W+ |
| NVLink 版本 | 1.0 | 2.0 | 2.0 | 3.0 | 4.0 | 5.0 | 5.0 | 6.0 |
| NVLink 带宽 | 160GB/s | 300GB/s | 300GB/s | 600GB/s | 900GB/s | 1.8TB/s | 1.8TB/s | >2TB/s |
| 供电架构 | 12V | 12V | 48V Vicor | 48V Vicor | 48V Vicor | 48V Vicor | 48V Vicor | - |
| 散热 | 风冷 | 风冷 | 风冷 | 风冷 | 风冷/液冷 | 风冷/液冷 | 仅液冷 | 仅液冷 |
| FP64 (TFLOPS) | 5.3 | 7.8 | 7.8 | 9.7 | 34 | 40 | - | - |
| FP32 (TFLOPS) | 10.6 | 15.7 | 15.7 | 19.5 | 67 | - | - | - |
| FP16 Tensor | - | 125 | 125 | 312 | 990 | - | - | - |
| FP8 | - | - | - | 624 | 1,979 | 4,500 | 7,000 | - |
| FP4 | - | - | - | - | - | 9,000 | 15,000 | - |
| MIG | ❌ | ❌ | ❌ | ✅ (7实例) | ✅ (7实例) | ✅ | ✅ | ✅ |
| 连接器 | - | 400pin MEG-Array | 更新版 MEG-Array | MEG-Array | MEG-Array | MEG-Array | MEG-Array | - |
| 首发平台 | DGX-1 | DGX-1 V100 | DGX-2 | DGX A100 | DGX H100 | DGX B200 | GB300 NVL72 | VR NVL144 |
5. 未来路线图
2026: Rubin / Vera
Rubin R100 (SXM7)
├─ 双 GR100 芯片
├─ HBM4 288GB
├─ NVLink 6.0 >2TB/s
└─ Vera Rubin NVL144 (144 GPU 全互联)
Vera Rubin 平台是 NVIDIA 首次将 Grace CPU 的后继者 Vera CPU 和 Rubin GPU 深度集成。Vera CPU 使用 NVLink Chip-to-Chip (C2C) 协议与 Rubin GPU 通信,带宽 1.8 TB/s。
2027: Rubin Ultra
Rubin Ultra (SXM8)
├─ 四颗 GR100 芯片(4 RDL 封装)
├─ 1TB HBM4/HBM4e
├─ 100 PFLOPS FP4
└─ Vera Rubin Ultra NVL576 (576 GPU)
Rubin Ultra 的 4 芯片封装将摩尔定律推迟至终点的进程进一步推进。576 颗 GPU 的 NVL576 将是迄今为止最大的单域 GPU 集群。
2028: Feynman + Rosa
Feynman (SXM9? / 新互连方案)
├─ 3D 堆叠 GPU 芯片
├─ C-HBM4E 定制内存 >1TB
├─ 光学 NVLink(片内集成光引擎)
├─ 与 Rosa CPU 配对
└─ 集成 Groq LP40(NVLink + NVFP4)
Feynman 的 光学 NVLink 将是数据中心互连的革命性变化——不再使用铜缆传输高速信号,而是将光引擎直接集成到 GPU 封装中。这将解决铜缆在超高带宽下的信号完整性、功耗和距离限制。
6. 参考来源
- Wikipedia - SXM (socket): https://en.wikipedia.org/wiki/SXM_(socket)
- Grokipedia - SXM (socket): https://grokipedia.com/page/SXM_(socket)
- NVIDIA HGX Platform: https://www.nvidia.com/en-us/data-center/hgx/
- NVIDIA DGX Systems: https://www.nvidia.com/en-us/data-center/dgx-b200/
- Exxact Corp - SXM vs PCIe: https://www.exxactcorp.com/blog/deep-learning/sxm-vs-pcie-gpus-best-for-training-llms-like-gpt-4
- l4rz - Running SXM GPUs in Consumer PCs: https://github.com/l4rz/running-nvidia-sxm-gpus-in-consumer-pcs
- Amphenol MEG-Array: https://www.amphenol-cs.com/product-series/meg-array.html
- Reverse Engineering SXM2: https://bbenchoff.github.io/pages/SXM2PCIe.html
- NVIDIA Developer Forums - SXM Specs: https://forums.developer.nvidia.com/t/s-x-m-specifications/238960
- Tom’s Hardware - B300 Socket: https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-reportedly-mulls-socketed-design-for-blackwell-b300-ai-gpus
- The Next Platform - NVIDIA Roadmap: https://www.nextplatform.com/compute/2025/03/19/nvidia-draws-gpu-system-roadmap-out-to-2028/1653528
- Tom’s Hardware - Vera Rubin: https://www.tomshardware.com/pc-components/gpus/nvidias-vera-rubin-platform-in-depth
- TrendForce - NVIDIA Socket Design: https://www.trendforce.com/news/2024/10/11/news-nvidia-rumored-to-switch-to-gpu-socket-design-with-300-series
- Wikipedia - Feynman microarchitecture: https://en.wikipedia.org/wiki/Feynman_(microarchitecture)
- Tom’s Hardware - Feynman Details: https://www.tomshardware.com/pc-components/gpus/nvidia-updates-data-center-roadmap-with-rosa-cpu-and-stacked-feynman-gpus
- Lenovo Press - HGX B200 Guide: https://lenovopress.lenovo.com/lp2226-thinksystem-nvidia-b200-180gb-1000w-gpu
- FiberMall - HGX B200 Cooling: https://www.fibermall.com/blog/nvidia-hgx-b200-cooling-solution.htm
- NVIDIA Technical Blog - HGX H100: https://developer.nvidia.com/blog/introducing-nvidia-hgx-h100-an-accelerated-server-platform-for-ai-and-high-performance-computing/
- NVIDIA Datasheet - DGX B200: https://resources.nvidia.com/en-us-dgx-systems/dgx-b200-datasheet
- NVIDIA - NVLink & NVSwitch: https://www.nvidia.com/en-us/data-center/nvlink/