NVIDIA SXM

1. SXM 概述

SXM 全称 Server PCI Express Module（服务器 PCI Express 模块），是 NVIDIA 专有的高带宽 GPU 插槽/插座解决方案，用于将数据中心级 GPU 加速器直接安装到服务器主板上。

核心设计理念

专有化: SXM 是 NVIDIA 封闭的专有接口标准，规格未公开（需签署 NDA, Non-Disclosure Agreement），这给了 NVIDIA 完全的设计自由度
高带宽: 通过 NVLink 实现 GPU 间直连，带宽远超 PCIe
高功耗: 不受 PCIe 标准 75W/300W 限制，通过插座直接供电可达 700W-1400W+
高密度: 单块 HGX 基板（NVLink Switch、供电与散热底座）可容纳 4 或 8 颗 GPU
模块化: GPU 以子卡（mezzanine card）形态水平安装，便于集成

为什么需要 SXM？

传统 PCIe 插槽在设计时面向通用扩展卡（网卡、存储卡、GPU 等），存在以下瓶颈：

功耗限制: PCIe 插槽标准供电仅 75W，即便加上辅助供电线，PCIe 规范也限制了整体功耗方案
带宽限制: PCIe x16 的带宽远低于 NVLink，无法满足大规模多 GPU 并行训练的需求
拓扑限制: PCIe 树形拓扑下 GPU 间通信必须经过 CPU，延迟高、带宽受限
密度限制: 标准 PCIe 卡垂直安装，占用大量空间，散热和供电设计复杂

SXM 通过打破这些限制，使 DGX/HGX 系统中的 8 颗 GPU 能够像一台巨型 GPU 一样协同工作。

2. SXM 代际演进

2.1 SXM1（Pascal P100，2016）

SXM 首次随 Tesla P100（GP100 核心）在 DGX-1 系统中引入。

项目	规格
对应 GPU	Tesla P100 (GP100)
架构	Pascal
显存	16GB HBM2
显存带宽	720 GB/s
TDP	300W
NVLink 版本	NVLink 1.0
NVLink 带宽	160 GB/s（4 链路，每链 40 GB/s）
首发产品	DGX-1
制程	TSMC 16FF+
晶体管数	153 亿

P100 是首个配备 NVLink 的 GPU，SXM 模块上的 4 颗 GPU 通过 NVLink 以混合立方体网格（hybrid cube mesh）拓扑互联。

2.2 SXM2（Volta V100 16GB，2017）

项目	规格
对应 GPU	Tesla V100 16GB (GV100)
架构	Volta
显存	16GB HBM2
显存带宽	900 GB/s
TDP	300W
NVLink 版本	NVLink 2.0
NVLink 带宽	300 GB/s（6 链路，每链 50 GB/s）
连接器	Amphenol MEG-Array 400 针
首发产品	DGX-1 V100
制程	TSMC 12FFN
晶体管数	211 亿

V100 引入了 Tensor Core，AI 训练性能相比 P100 提升 12 倍。SXM2 使用 400 针 Amphenol MEG-Array 连接器，从 P100 的 NVLink 网格拓扑升级为 NVLink 全连接 拓扑。

2.3 SXM3（Volta V100 32GB，2018）

项目	规格
对应 GPU	Tesla V100 32GB (GV100)
架构	Volta（与 V100 相同核心）
显存	32GB HBM2
显存带宽	900 GB/s
TDP	350W
NVLink 版本	NVLink 2.0
NVLink 带宽	300 GB/s
供电架构	48V 输入（区别于 12V）
连接器	更新版 Amphenol MEG-Array（更坚固）
首发产品	DGX-2

SXM3 的关键变化：

连接器升级: 虽然外形与 SXM2 相似，但使用了更坚固的 MEG-Array 连接器（针脚配置不同）
48V 供电: 这是最大的架构变化——从传统的 12V 切换到 48V 供电架构，显著降低了电流损耗
Vicor 模块: 引入了 Vicor MCM/MCD（Multi-Chip Module/Driver）电源模块，这在后续 SXM4/5/6 中成为标准设计
TDP 提升: 从 300W 提高到 350W，为更高功耗的 GPU 奠定了基础

SXM3 也是 NVIDIA 首次以标准化的 HGX 基板 形式向 OEM 供货。OEM 可以直接购买 4-GPU 的预组装基板，大幅降低了集成难度。

关于 SXM 编号的一个历史细节: P100 使用的是 SXM 模块（无后缀数字），但被称为 “SXM2” 规格。实际上，P100 的 SXM 在 DGX-1 中被称为 SXM-2 规格（能升级到 V100 的 SXM2 模块）。Wikipedia 等来源将 P100 使用的插座标记为 SXM，而将 P100 模块本身标记为 SXM2。更准确的理解是：P100 是 SXM1（第一代），V100 16GB 是 SXM2，V100 32GB 是 SXM3。

2.4 SXM4（Ampere A100，2020）

项目	规格
对应 GPU	A100 40GB / 80GB (GA100)
架构	Ampere
显存	40GB HBM2 / 80GB HBM2e
显存带宽	1.6 TB/s (HBM2) / 2.0 TB/s (HBM2e)
TDP	400W
NVLink 版本	NVLink 3.0
NVLink 带宽	600 GB/s（12 链路，每链 50 GB/s）
首发产品	DGX A100
制程	TSMC N7
晶体管数	542 亿
MIG	支持（最多 7 个实例）
NVSwitch	第三代，支持 SHARP 网络内归约

A100 是首个支持 MIG（Multi-Instance GPU） 的 GPU，可以将一颗 GPU 分割为最多 7 个独立实例。SXM4 基板使用 NVIDIA 名为 Redstone 的 4-GPU 基板设计，在 DGX A100 中每块基板搭载 4 颗 GPU，通过两块基板实现 8 颗 GPU 配置。

NVLink 3.0 每 GPU 提供 600 GB/s 双向带宽，配合 NVSwitch 实现 8 颗 GPU 的全互联拓扑。

2.5 SXM5（Hopper H100/H200，2022/2023）

项目	规格
对应 GPU	H100 (GH100) / H200
架构	Hopper
显存	80GB HBM3 (H100) / 141GB HBM3e (H200)
显存带宽	3.35 TB/s (H100) / 4.8 TB/s (H200)
TDP	700W
NVLink 版本	NVLink 4.0
NVLink 带宽	900 GB/s（18 链路，每链 50 GB/s）
首发产品	DGX H100
制程	TSMC 4N
晶体管数	800 亿
新增特性	Transformer Engine, FP8, DPX 指令集

SXM5 是迄今为止应用最广泛的 SXM 规格。H100 SXM5 的关键突破：

NVLink 4.0 带宽: 900 GB/s 双向，是 PCIe 5.0 x16（64 GB/s）的 14 倍
900W 供电能力: 虽然标称 TDP 700W，但 SXM5 插座的供电能力可达 900W
Transformer Engine: 专为大模型（LLM）设计的混合精度矩阵运算单元
NVSwitch 4.0: 4 颗 NVSwitch 芯片将 8 颗 GPU 全互联，总双向带宽超 7.2 TB/s
H200 更新: 同 SXM5 插座，但显存升级为 141GB HBM3e，带宽 4.8 TB/s

SXM5 的供电仍基于 Vicor 的 48V 架构，使用 Vicor MCM/MCD 模块将 48V 转换为 GPU 核心电压。

2.6 SXM6（Blackwell B200/B300，2024/2025）

项目	规格
对应 GPU	B200 / B300 (GB100/GB300)
架构	Blackwell / Blackwell Ultra
显存	192GB HBM3e (B200) / 288GB HBM3e (B300)
显存带宽	8 TB/s (B200) / 8 TB/s (B300)
TDP	1000W-1200W (B200) / 1400W (B300)
NVLink 版本	NVLink 5.0
NVLink 带宽	1.8 TB/s
制程	TSMC 4NP
晶体管数	2080 亿（双芯设计）
首发产品	DGX B200 / GB200 NVL72

SXM6 是 SXM 史上最大的跳变：

双芯封装: B200 由两颗 GB100 芯片通过 NVLink 桥连接（CoWoS-L 封装），单颗 GPU 相当于两颗 1040 亿晶体管的芯片
功耗爆炸: 1000W（风冷）/ 1200W（液冷）—— B200 单 GPU 功耗已超过不少家用 PC 的整机功耗
B300 更进一步: 1400W TDP，288GB HBM3e（12 层堆叠），15 PFLOPS FP4
NVLink 5.0: 双向 1.8 TB/s，支持 SHARP v4 网络内归约
液冷成为必须: B200 1000W TDP 下仍可风冷，但 B300 1400W 基本必须液冷
可拆卸设计传闻: 2024 年 10 月 TrendForce 报道称，B300 可能首次采用 可拆卸插座设计，使 GPU 模块可被用户更换（不再焊死在基板上）

B200 vs B300 区别: B200（双芯 GB100，192GB HBM3e，1000W）于 2024 下半年出货。B300（Blackwell Ultra，288GB HBM3e，1400W）于 2025 下半年出货。

2.7 SXM7（Rubin R100，2026）

项目	规格
对应 GPU	R100 (GR100)
架构	Rubin
显存	288GB HBM4
显存带宽	待公布
TDP	预计 1500W+
NVLink 版本	NVLink 6.0
NVLink 带宽	超过 2 TB/s
制程	待公布（TSMC N3 系列）
首发产品	Vera Rubin NVL144

Rubin 是 Blackwell 之后的 NVIDIA 下一代 GPU 架构，以天文学家 Vera Rubin 命名：

两颗 RDL（Re-Distribution Layer，再布线层，将把多个芯片和 HBM 显存拼在一块基底（Interposer）上）GR100 芯片在一个 SXM7 插座中
首款使用 HBM4 的 GPU（JEDEC HBM4 标准）
与 NVLink 6.0 一同推出，GPU 间带宽超 2 TB/s
Vera Rubin NVL144 平台将 144 颗 Rubin GPU 通过 NVLink 6 全互联

2.8 SXM8（Rubin Ultra，2027）

项目	规格
对应 GPU	VR200 或 Rubin Ultra
显存	1TB HBM4/HBM4e
FP4 性能	100 PFLOPS
TDP	预计 2000W+
NVLink 版本	NVLink 6 / 7
首发展品	Vera Rubin Ultra NVL576

Rubin Ultra 将 4 颗 RDL GPU 芯片 放入一个插座中，实现 100 PFLOPS FP4 和 1TB 显存。NVL576 平台将连接 576 颗 GPU。

2.9 Feynman（2028+）

NVIDIA 在 GTC 2026 公布了 Feynman 架构（以物理学家 Richard Feynman 命名），将是 SXM 的下一个重大演进：

3D 堆叠: 首次采用 GPU 芯片垂直堆叠设计，突破单芯片面积限制
定制 HBM（C-HBM4E）: 定制高带宽内存，单 GPU 容量超 1TB
光学 NVLink: 片内集成光互连，数据中心不再使用铜缆
与 Rosa CPU 配对: Feynman GPU 与 Rosa CPU（Vera 的后继者）组成超级芯片
集成 Groq LPU: Groq LP40 引擎将加入 NVLink 端口

Feynman 将使用什么 SXM 编号尚无定论（SXM9 或新一代互连方案），但可以肯定的是它将推动数据中心互连从铜到光的范式转变。

3. 物理接口与电气规格

3.1 连接器：Amphenol MEG-Array

所有 SXM 模块均使用 Amphenol MEG-Array 夹层连接器（mezzanine connector）。这是 SXM 物理层的核心组件。

特性	说明
制造商	Amphenol Communications Solutions
系列	MEG-Array（Mezzanine Grid Array）
针间距	1.27mm × 1.27mm 阵列
信号速率	超过 10 Gb/s
焊接方式	表面贴装（SMT）
关键特性	高密度、高速、可靠性优于 PCIe 金手指

MEG-Array 是双向阵列连接器，GPU 子卡和基板各有一半。特点包括：

灵活的接地分布设计以优化信号完整性
支持超过 10 Gb/s 的高速信号传输
大规模阵列结构提供高密度连接
标准表面贴装工艺降低了制造成本

各代针脚数:

SXM2: 400 针 Amphenol MEG-Array
SXM3/SXM4/SXM5: 400-600 针（具体数量为 NVIDIA 机密），双高密度阵列

关于规格保密: SXM 连接器的精确针脚定义、尺寸和信号分配是 NVIDIA 的商业机密。正如 NVIDIA 开发者论坛上一位工程师所述：“SXM2、SXM3、SXM4、SXM5 连接器的规格似乎是商业秘密，除非所有相关方都是 PCI-SIG 成员，否则你不能讨论它。”

3.2 供电架构

SXM 供电架构的核心演进路径是从 12V 到 48V，并引入 Vicor 高效电源模块。

48V 供电拓扑（SXM3+）

SXM2 及之前的 GPU 使用标准的 12V 输入。从 SXM3（V100 32GB）开始，NVIDIA 切换到 48V 供电架构：

DC-DC 转换链路:
48V PSU → Vicor BCM（总线转换模块）→ 48V→12V（MCD）→ 12V→核心电压（MCM）

Vicor 模块深入解析:

BCM（Bus Converter Module）: 负责将 PSU 的 48V 高效转换为中间总线电压
MCM（Multi-Chip Module）: GPU 核心电压调节模块，将 12V 转换为 GPU 核心需要的低压大电流
MCD（Multi-Chip Driver）: 与 MCM 配合的驱动模块

这一架构的优势：

48V 传输降低电流: 同样功率下，48V 的电流只有 12V 的 1/4，大幅降低 PCB 铜损和发热
更高的功效率: Vicor 模块的转换效率通常在 95% 以上
模块化设计: 标准化电源模块便于扩展到大功率 GPU

各代功耗演进

代际	GPU	TDP	供电架构	典型供电方案
SXM1	P100	300W	12V	标准 VRM
SXM2	V100 16GB	300W	12V	标准 VRM
SXM3	V100 32GB	350W	48V Vicor	Vicor BCM + MCM/MCD
SXM4	A100	400W	48V Vicor	Vicor MCM/MCD
SXM5	H100	700W	48V Vicor	Vicor 增强型 MCM/MCD
SXM5	H200	700W	48V Vicor	同上
SXM6	B200	1000-1200W	48V Vicor + 液冷	高功率 Vicor 模块
SXM6	B300	1400W	48V Vicor + 强制液冷	增强型供电
SXM7	R100	1500W+	待公布	更高密度供电

以 1000W TDP 的 B200 为例，48V 供电架构下仅需约 21A 电流；如果使用传统的 12V，则需要 83A —— 这需要极其粗壮的电源线和巨大的 PCB 铜层。

4. SXM 完整规格一览表

规格	SXM1 (P100)	SXM2 (V100 16G)	SXM3 (V100 32G)	SXM4 (A100)	SXM5 (H100)	SXM6 (B200)	SXM6 (B300)	SXM7 (R100)
发布时间	Q2 2016	Q3 2017	Q3 2018	Q1 2020	Q3 2022	Q4 2024	H2 2025	2026
架构	Pascal	Volta	Volta	Ampere	Hopper	Blackwell	Blackwell Ultra	Rubin
GPU 核心	GP100	GV100	GV100	GA100	GH100	GB100×2	GB300×2	GR100×2
晶体管	153亿	211亿	211亿	542亿	800亿	2080亿	-	-
制程	16FF+	12FFN	12FFN	N7	4N	4NP	4NP	N3?
HBM 类型	HBM2	HBM2	HBM2	HBM2/HBM2e	HBM3	HBM3e	HBM3e	HBM4
显存容量	16GB	16GB	32GB	40/80GB	80GB	192GB	288GB	~288GB
显存带宽	720GB/s	900GB/s	900GB/s	1.6-2.0TB/s	3.35TB/s	8TB/s	8TB/s	-
TDP	300W	300W	350W	400W	700W	1000-1200W	1400W	1500W+
NVLink 版本	1.0	2.0	2.0	3.0	4.0	5.0	5.0	6.0
NVLink 带宽	160GB/s	300GB/s	300GB/s	600GB/s	900GB/s	1.8TB/s	1.8TB/s	>2TB/s
供电架构	12V	12V	48V Vicor	48V Vicor	48V Vicor	48V Vicor	48V Vicor	-
散热	风冷	风冷	风冷	风冷	风冷/液冷	风冷/液冷	仅液冷	仅液冷
FP64 (TFLOPS)	5.3	7.8	7.8	9.7	34	40	-	-
FP32 (TFLOPS)	10.6	15.7	15.7	19.5	67	-	-	-
FP16 Tensor	-	125	125	312	990	-	-	-
FP8	-	-	-	624	1,979	4,500	7,000	-
FP4	-	-	-	-	-	9,000	15,000	-
MIG	❌	❌	❌	✅ (7实例)	✅ (7实例)	✅	✅	✅
连接器	-	400pin MEG-Array	更新版 MEG-Array	MEG-Array	MEG-Array	MEG-Array	MEG-Array	-
首发平台	DGX-1	DGX-1 V100	DGX-2	DGX A100	DGX H100	DGX B200	GB300 NVL72	VR NVL144

5. 未来路线图

2026: Rubin / Vera

Rubin R100 (SXM7)
  ├─ 双 GR100 芯片
  ├─ HBM4 288GB
  ├─ NVLink 6.0 >2TB/s
  └─ Vera Rubin NVL144 (144 GPU 全互联)

Vera Rubin 平台是 NVIDIA 首次将 Grace CPU 的后继者 Vera CPU 和 Rubin GPU 深度集成。Vera CPU 使用 NVLink Chip-to-Chip (C2C) 协议与 Rubin GPU 通信，带宽 1.8 TB/s。

2027: Rubin Ultra

Rubin Ultra (SXM8)
  ├─ 四颗 GR100 芯片（4 RDL 封装）
  ├─ 1TB HBM4/HBM4e
  ├─ 100 PFLOPS FP4
  └─ Vera Rubin Ultra NVL576 (576 GPU)

Rubin Ultra 的 4 芯片封装将摩尔定律推迟至终点的进程进一步推进。576 颗 GPU 的 NVL576 将是迄今为止最大的单域 GPU 集群。

2028: Feynman + Rosa

Feynman (SXM9? / 新互连方案)
  ├─ 3D 堆叠 GPU 芯片
  ├─ C-HBM4E 定制内存 >1TB
  ├─ 光学 NVLink（片内集成光引擎）
  ├─ 与 Rosa CPU 配对
  └─ 集成 Groq LP40（NVLink + NVFP4）

Feynman 的 光学 NVLink 将是数据中心互连的革命性变化——不再使用铜缆传输高速信号，而是将光引擎直接集成到 GPU 封装中。这将解决铜缆在超高带宽下的信号完整性、功耗和距离限制。

6. 参考来源

Wikipedia - SXM (socket): https://en.wikipedia.org/wiki/SXM_(socket)
Grokipedia - SXM (socket): https://grokipedia.com/page/SXM_(socket)
NVIDIA HGX Platform: https://www.nvidia.com/en-us/data-center/hgx/
NVIDIA DGX Systems: https://www.nvidia.com/en-us/data-center/dgx-b200/
Exxact Corp - SXM vs PCIe: https://www.exxactcorp.com/blog/deep-learning/sxm-vs-pcie-gpus-best-for-training-llms-like-gpt-4
l4rz - Running SXM GPUs in Consumer PCs: https://github.com/l4rz/running-nvidia-sxm-gpus-in-consumer-pcs
Amphenol MEG-Array: https://www.amphenol-cs.com/product-series/meg-array.html
Reverse Engineering SXM2: https://bbenchoff.github.io/pages/SXM2PCIe.html
NVIDIA Developer Forums - SXM Specs: https://forums.developer.nvidia.com/t/s-x-m-specifications/238960
Tom’s Hardware - B300 Socket: https://www.tomshardware.com/tech-industry/artificial-intelligence/nvidia-reportedly-mulls-socketed-design-for-blackwell-b300-ai-gpus
The Next Platform - NVIDIA Roadmap: https://www.nextplatform.com/compute/2025/03/19/nvidia-draws-gpu-system-roadmap-out-to-2028/1653528
Tom’s Hardware - Vera Rubin: https://www.tomshardware.com/pc-components/gpus/nvidias-vera-rubin-platform-in-depth
TrendForce - NVIDIA Socket Design: https://www.trendforce.com/news/2024/10/11/news-nvidia-rumored-to-switch-to-gpu-socket-design-with-300-series
Wikipedia - Feynman microarchitecture: https://en.wikipedia.org/wiki/Feynman_(microarchitecture)
Tom’s Hardware - Feynman Details: https://www.tomshardware.com/pc-components/gpus/nvidia-updates-data-center-roadmap-with-rosa-cpu-and-stacked-feynman-gpus
Lenovo Press - HGX B200 Guide: https://lenovopress.lenovo.com/lp2226-thinksystem-nvidia-b200-180gb-1000w-gpu
FiberMall - HGX B200 Cooling: https://www.fibermall.com/blog/nvidia-hgx-b200-cooling-solution.htm
NVIDIA Technical Blog - HGX H100: https://developer.nvidia.com/blog/introducing-nvidia-hgx-h100-an-accelerated-server-platform-for-ai-and-high-performance-computing/
NVIDIA Datasheet - DGX B200: https://resources.nvidia.com/en-us-dgx-systems/dgx-b200-datasheet
NVIDIA - NVLink & NVSwitch: https://www.nvidia.com/en-us/data-center/nvlink/

NVIDIA SXM#

1. SXM 概述#

核心设计理念#

为什么需要 SXM？#

2. SXM 代际演进#

2.1 SXM1（Pascal P100，2016）#

2.2 SXM2（Volta V100 16GB，2017）#

2.3 SXM3（Volta V100 32GB，2018）#

2.4 SXM4（Ampere A100，2020）#

2.5 SXM5（Hopper H100/H200，2022/2023）#

2.6 SXM6（Blackwell B200/B300，2024/2025）#

2.7 SXM7（Rubin R100，2026）#

2.8 SXM8（Rubin Ultra，2027）#

2.9 Feynman（2028+）#

3. 物理接口与电气规格#

3.1 连接器：Amphenol MEG-Array#

3.2 供电架构#

48V 供电拓扑（SXM3+）#

各代功耗演进#

4. SXM 完整规格一览表#

5. 未来路线图#

2026: Rubin / Vera#

2027: Rubin Ultra#

2028: Feynman + Rosa#

6. 参考来源#