torch.compile

1. 概述

torch.compile 是 PyTorch 2.0（2023 年 3 月发布）引入的即时编译（JIT）框架，标志着 PyTorch 从纯即时执行（eager mode）向编译优化执行的关键转型。其核心设计哲学是在保留 PyTorch 极致的 Python 可编程性和调试灵活性的同时，通过自动图捕获和内核代码生成将模型执行速度提升 1.5-2 倍 [1][2]。

torch.compile 由三个核心组件构成的管道驱动：TorchDynamo（Python 字节码级图捕获前端）、AOTAutograd（训练场景中的反向图预生成）和 TorchInductor（默认优化后端，生成 Triton GPU 内核或 C++/OpenMP CPU 内核）。截至 2025 年 8 月，Edward Yang（ezyang，PyTorch 编译器团队核心成员）的报告指出，1.5-2 倍的加速是典型场景下的普遍表现，并且 torch.compile 使得全局级别的优化（如自动激活检查点、异步张量并行）成为可能 [1][3]。

截至 2026 年 6 月，torch.compile 已迭代至 PyTorch 2.12，支持 Python 3.13、torch.compiler.set_stance 等精细化性能控制 [4][5]。在生产层面，vLLM 自 V1 架构起默认启用 torch.compile 作为核心推理引擎组件 [6]；Hugging Face 和 TIMM 模型套件中的绝大多数模型在启用 torch.compile 后均可获得实质性加速 [7]。GraphMend 等第三方研究进一步表明，通过自动消除图断裂（graph break），可将模型推理延迟降低至多 75% [8]。

2. 产品演进: 从 TorchScript 到 PT2 编译器栈

2.1 前身: TorchScript 的教训

PyTorch 在 1.0 版本（2018）中推出了 TorchScript，试图通过 torch.jit.trace 和 torch.jit.script 将 Python 模型捕获为静态图以实现优化执行。但 TorchScript 存在根本性局限：trace 只能捕获给定输入路径下的执行轨迹，无法处理控制流；script 虽能处理控制流，却要求用户代码遵循严格的 Python 子集（不支持大部分动态 Python 特性、大量第三方库、numpy 交互等）。这导致 TorchScript 在生产中的采纳率始终有限，用户社区反馈其"过于脆弱、调试困难" [9][10]。

2.2 PyTorch 2.0 (2023 年 3 月)

PyTorch 2.0 是 torch.compile 的首次亮相。其核心创新是 TorchDynamo：一种基于 CPython 帧评估（frame evaluation）API 的 Python 级 JIT 编译器，能够在运行时观察 Python 字节码执行，自动提取张量计算区域为 FX 图，并对无法捕获的代码段执行优雅的"图断裂"（graph break）回退 [1][2][11]。与 TorchScript 相比，用户只需在模型/函数上添加 @torch.compile() 装饰器即可获得加速，无需修改模型定义。

PyTorch 官方发布的 TorchBench 基准测试显示，2.0 版本对 80+ 模型的几何平均加速比达 1.8-2 倍 [1][7]。但 2.0 初始版本存在编译冷启动时间长、动态形状支持不完善等痛点。

2.3 PyTorch 2.1-2.3 (2023-2024)

2.1 (2023 年 10 月): 引入对 NumPy 程序的原生支持，torch.compile 能自动理解和编译 NumPy 代码，支持 CPU 和 CUDA 上的 NumPy 执行以及梯度回传 [12]。
2.2 (2023 年 12 月): 改进动态形状支持，默认启用 dynamic=None 模式（自动检测形状变化并尝试动态编译）；AOTAutograd min-cut 分区优化 [13]。
2.3 (2024 年 4 月): 支持用户自定义 Triton 内核与 torch.compile 集成，PrimTorch 算子集规范化 [14]。

2.4 PyTorch 2.4-2.6 (2024-2025 年初)

2.4 (2024 年 7 月): 支持 Python 3.12 下的 torch.compile；AOTInductor 冻结优化（MKLDNN 权重序列化）[15]。
2.5 (2024 年 10 月): 区域编译（regional compilation）将编译冷启动从 67 秒降至 9.6 秒（7 倍提升）；引入 FlexAttention（通过 torch.compile 自动将自定义注意力掩码函数编译为 FlashAttention 级别的 Triton 内核）[16][17]。
2.6 (2025 年 1 月): 支持 Python 3.13；引入 torch.compiler.set_stance 性能调控接口；AOTInductor 支持 FP16 x86 CPU；Inductor CUDA Graphs 默认开启 [4][5]。

2.5 PyTorch 2.7-2.12 (2025-2026)

2.7: CUDA Graph Trees（多图共享内存池）；Inductor 支持更多算子融合模式。
2.8 (2025 年 8 月): 大量 vLLM 相关的上游化改进；编译器缓存按模型哈希分片；backed_size_oblivious 动态形状模式（减少 0/1 特化导致的非必要重编译）[6][18]。
2.9-2.11 (2025 年底 - 2026 年初): 编译冷启动进一步优化；Helion 项目进入 Beta（提供 PyTorch 原生接口的 Triton 核编程层）；torch.export 稳定化 [19]。
2.12 (2026 年 6 月当前稳定版): 持续的 Dynamo tracing 和 guard 系统改进；更智能的重编译检测；与 vLLM 和 NVIDIA AITune 的更深集成。

2.6 各版本关键特征对比

特性	PyTorch 2.0	PyTorch 2.5	PyTorch 2.8	PyTorch 2.12
发布时间	2023-03	2024-10	2025-08	2026-06
图捕获引擎	TorchDynamo	Dynamo + 区域编译	Dynamo + 改进的易失性追踪	Dynamo + backed_size_oblivious 模式
默认后端	TorchInductor	Inductor + Triton	Inductor + CUDA Graphs Trees	Inductor + Helion Beta
动态形状支持	实验性、需手动	默认 dynamic=None 自动检测	backed/unbacked 双模式	三种模式: backed/unbacked/backed_size_oblivious
编译冷启动	~67 秒 (全模型)	~9.6 秒 (区域编译)	~5 秒 (缓存分片)	~3-4 秒 (预热缓存)
Python 支持	3.8-3.11	3.9-3.12	3.10-3.13	3.10-3.14
训练编译	AOTAutograd min-cut	AOTAutograd + 自动 AC	compiled autograd	compiled autograd + AOTInductor 训练
注意力机制	标准 SDPA	FlexAttention Beta	FlexAttention + chunked attention	FlexAttention + context parallelism
生产采纳	实验性	Hugging Face + TIMM	vLLM 默认启用	vLLM + TensorRT + AITune 集成

3. 技术架构

torch.compile 的整体管道遵循"分层编译器"的设计: 从高层 Python 代码逐步降低到硬件级可执行代码，每一层解决不同粒度的编译器问题 [20][21]。

3.1 管道全景

flowchart TD
    A["Python 模型代码"] --> B["TorchDynamo
字节码级图捕获"]
    B -->|"捕获 FX 图"| C["AOTAutograd
前向+反向图联合处理"]
    C -->|"仅训练时"| D["TorchInductor
优化与降级"]
    D --> E["Triton / C++ / OpenMP
内核代码生成"]
    E --> F["GPU / CPU Runtime
执行"]

    B -.-> B1["图断裂回退 eager"]
    B -.-> B2["Guards 安装"]
    C -.-> C1["min-cut 分区"]
    D -.-> D1["算子融合"]
    D -.-> D2["matmul 后端选择"]
    D -.-> D3["CUDA Graphs 分段"]
    E -.-> E1["GPU: Triton→TTIR→PTX"]
    E -.-> E2["CPU: C++ + OpenMP"]

3.2 TorchDynamo: Python 字节码级图捕获

TorchDynamo 是整个管道的入口，也是 torch.compile 与 TorchScript 最根本的区别所在。它不要求用户提供静态源代码，而是通过在 CPython 解释器的帧评估函数（_PyEval_EvalFrameDefault）上注册一个回调钩子来在运行时观察 Python 的执行 [2][20]。

工作机制:

当被 @torch.compile 装饰的函数被调用时，Dynamo 接管其帧执行
Dynamo 逐条检查字节码指令，将涉及 PyTorch 张量操作的指令序列提取为 torch.fx.Graph 表示
对于无法追踪的操作（调用非 PyTorch C 扩展、I/O 操作、数据相关的控制流），Dynamo 在当前点执行"图断裂"（graph break）——将已追踪的图提交给后端编译，以 eager 模式运行断裂点，之后继续追踪新的图
每个编译的图都附带一个 guard（运行时的假设检查），用于验证编译时所做的假设（输入形状、dtype、设备、全局变量等）在后续调用中是否仍然成立。如果 guard 失败，Dynamo 将重新编译 [2][22]

关键设计优势:

Dynamo 的字节码级追踪意味着它可以处理任意 Python 代码——包括控制流、异常处理、副作用——而不要求代码遵循受限的 Python 子集。这是它超过 TorchScript 和 JAX 的 jax.jit（后者需要函数式纯代码）的核心差异 [2][23]。

3.3 AOTAutograd: 预生成反向图

在训练场景中，仅编译前向图是不够的。AOTAutograd 负责从 Dynamo 捕获的每个前向图段生成对应的反向图段 [3][13]。

处理流程:

Dynamo 将前向函数分为若干段，每段生成一个 FX 图
AOTAutograd 对每段前向图应用 autograd 机制，推导出对应的反向图
min-cut 分区算法被应用于每个前向-反向图对，确定哪些中间激活值必须保存（不能重计算），哪些可以被重计算以节省显存 [3]
前向-反向对被打包为 autograd.Function 模块
用户调用 .backward() 时，eager 模式的 autograd 引擎调用这些编译后的反向图，就像调用一个原子 op 一样

重要限制: 因为 PyTorch eager autograd 不支持从大型反向节点增量流式输出梯度，梯度更新会被延迟到编译区域结束时一次性应用。可以通过 compiled autograd 解决，但这要求整个反向过程均是可编译的 [3][13]。

3.4 TorchInductor: 优化与内核代码生成

Inductor 是 torch.compile 的默认后端，接收来自 Dynamo/AOTAutograd 的 FX 图，执行一系列优化降级步骤最终生成可执行内核代码 [20][21]。

核心优化能力:

Pointwise + Reduction 融合: 将连续的 element-wise 操作和归约操作融合为单个 Triton 内核，消除中间内存读写。例如 matmul → add → relu 三段分离内核可融合为单个内核 [20]。
水平融合: 将多个独立的 pointwise 或 reduction 操作（兼容形状时）合并调度 [24]。
Matmul 后端自动调优: Inductor 对每个矩阵乘配置自动测试 cuBLAS、Triton 模板和 CUTLASS 三种实现，选择最快的方案 [24][25]。vLLM 的测试显示，对于 8x2048x3072 形状的矩阵乘，Triton 模板比默认 cuBLAS dispatch 快得多 [6]。
布局优化: 通过分析数据依赖关系，选择合适的张量内存布局以减少转置和拷贝操作。

GPU 路径: Inductor 默认将融合后的计算图降级为 Triton IR，Triton 编译器进一步处理为 TTIR → TTGIR → LLVM IR → PTX/SASS。

CPU 路径: Inductor 可生成 C++ 代码并通过 OpenMP 并行化。PyTorch 2.6 进一步将 AOTInductor 的 FP16 支持引入 x86 CPU [4]。

3.5 CUDA Graphs 集成

CUDA Graphs 是 NVIDIA 提供的底层技术，可以将一系列 GPU 内核启动（及其精确的内存地址）记录为 cudaGraph_t，然后以极低的 CPU 开销重放。但 CUDA Graphs 有严格约束：必须只包含 CUDA 操作、输入张量必须有静态内存地址、不能有 CPU 侧计算 [26][27]。

Inductor 内置了自动 CUDA Graphs 支持：

自动将计算图分割为 CUDA Graphs 兼容和不兼容的段（例如无法捕获注意力操作中的 CPU side 逻辑）
自动管理静态输入缓冲区
支持 CUDA Graph Trees（多图共享一个内存池，避免跨图内存碎片）[26][28]

vLLM 使用分段式 CUDA Graphs（Piecewise CUDA Graphs），仅对注意力操作之间的计算段（通常为 token-wise 操作）捕获 graph，注意力操作本身以 eager 模式运行。这种方式在保留注意力灵活性的同时获得了 CUDA Graphs 的低开销收益 [6]。

4. 性能与基准测试

4.1 TorchBench 官方基准

PyTorch 官方维护的 TorchBench 基准套件对 80+ 模型进行测试，结果显示 torch.compile 的几何平均加速比为 1.8-2x（相比 eager 模式）[1][7]。加速幅度按模型类型分布如下:

模型类别	代表模型	速度提升	主要加速原因
CNN 视觉模型	ResNet-50, EfficientNet	1.3-1.8x	卷积核融合、算子垂直融合
Transformer NLP	BERT, RoBERTa	1.5-2.2x	attention + MLP fusion, matmul autotune
LLM (生成式)	GPT-2, LLaMA	1.4-2.0x	KV cache + CUDA Graphs 分段捕获
图像分割	Mask R-CNN	1.2-1.5x	复合 loss 分支下融合减少
语音	Wav2Vec2, Whisper	1.3-1.7x	卷积 + 自注意力混合融合

4.2 Hugging Face 模型加速

Hugging Face NLP 模型在 AWS Graviton3 CPU 上的 torch.compile 推理测试显示，约 70% 的模型获得 1.2-2.0x 加速，部分模型加速比超过 2.5x [29]。加速最显著的模型类型为纯 Transformer 编码器（BERT 类）和仅解码器生成模型（GPT 类）。

4.3 推理 vs 训练加速差异

torch.compile 在推理场景中加速通常更为显著（1.5-2.5x），原因在于:

推理只需前向图，无反向图编译开销
推理可稳定使用 CUDA Graphs 重放，消除内核启动开销
推理可容忍更大的算子融合粒度

训练场景加速比通常为 1.3-1.8x，主要受以下因素制约:

AOTAutograd 需要同时编译前向和反向图
min-cut 分区和激活保存策略增加了复杂度
分布式通信（DDP/FSDP）中的 hook 可能与编译区域产生交互 [3][13]

4.4 编译开销

即时编译的核心权衡是启动时间 vs 稳态吞吐:

阶段	PyTorch 2.0	PyTorch 2.5	PyTorch 2.12
首次编译冷启动	67 秒 (全模型 LLaMA-7B)	9.6 秒 (区域编译)	3-5 秒 (编译缓存)
热重编译	2-5 秒 (依赖变化范围)	0.5-2 秒	0.2-1 秒
缓存命中启动	N/A	~2 秒 (磁盘加载)	~0.5 秒
Triton 自动调优	每次编译	首次编译缓存	AOTInductor 预编译

vLLM 的编译缓存方案允许将编译产物（FX 图、Triton 内核等）在机器间共享，在自动扩缩容场景中显著缩短启动时间 [6]。

5. Dynamo 图捕获与 Tracing 模式

5.1 图断裂（Graph Break）机制

图断裂是 torch.compile 最重要的设计特征，也是其与传统静态图编译器（如 XLA）的根本区别。

当 Dynamo 遇到无法追踪的操作时（如调用 print()、torch.save()、调用非 PyTorch C 扩展、数据相关的控制流导致的条件分支等），它不会报错退出，而是:

在当前断点处结束正在追踪的 FX 图，提交给后端
以 eager 模式执行不可追踪的操作
在断点之后继续追踪新的 FX 图

这种设计的优势是优雅降级而非全有或全无: 即使模型中有部分代码不可编译，其余部分仍可获得加速。代价是每次图断裂都会引入一次 CPU-GPU 同步（eager 回退），以及丢失融合优化的机会 [2][22]。

调试工具:

torch._dynamo.explain(func)(*args): 返回图数量、断裂数量、每个断裂的原因
fullgraph=True: 遇到任何图断裂即报错，用于识别和修复所有断裂点
TORCH_LOGS=recompiles: 记录重编译事件
TORCH_TRACE / tlparse: 结构化追踪编译各阶段 [22][30]

5.2 Guard 系统与重编译

每个编译的 FX 图都有一组 guards，它们是在运行时检查的假设条件:

# 典型的 guard 示例
check_tensor(x, "x"):  # 检查张量的属性
  - type(x) == torch.Tensor
  - x.dtype == torch.float32
  - x.device == torch.device("cuda:0")
  - x.size(0) == 32  # 静态形状假设
  - x.stride() == (64, 1)

如果任何 guard 在后续调用中失败，Dynamo 会丢弃当前编译结果并重新编译。过多的重编译是 torch.compile 性能问题的主要来源之一 [3][22]。

动态形状应对策略:

模式	设置	行为	适用场景
Static (默认)	`dynamic=None` 首次静态	首次调用静态编译；发现形状变化后自动触发动态重编译	稳定批量大小的训练
Dynamic=True	`dynamic=True`	从一开始就生成能处理变化形状的动态内核，避免重编译	变长序列、可变图像尺寸的推理
backed_size_oblivious	(PyTorch 2.8+)	避免 0/1 特化导致的非必要重编译，但仍有 guards	生产部署，折衷方案
mark_dynamic	手动标记	`torch._dynamo.mark_dynamic(tensor, 0)` 强制特定维度为动态	精确控制

5.3 未回退动态形状（Unbacked Dynamic Shapes）

unbacked 动态形状是 vLLM 与 PyTorch 编译器团队协作开发的模式，提供最强的 guards 保障: guarantees 不对这些符号添加 guards，同时不进行 0/1 特化。代价是可能错过某些优化机会（例如无法确定连续性时，默认调用 contiguous() 引入 clone）。vLLM 在 V1 架构中默认使用 UNBACKED 模式以保证服务过程中不发生重编译 [6][18]。

6. 后端生态: Inductor, Triton, CUDA Graphs

6.1 TorchInductor 的默认后端地位

自 PyTorch 2.0 起，Inductor 是 torch.compile 的默认后端。可通过 torch.compile(model, backend="inductor") 显式指定。可选后端还包括:

后端	描述	适用场景
`inductor` (默认)	完整编译通道: Dynamo → AOTAutograd → Inductor → Triton/C++	GPU/CPU 推理和训练
`eager`	仅 Dynamo 图捕获，用 PyTorch eager 运行	Dynamo 故障诊断
`aot_eager`	Dynamo + AOTAutograd，用 eager 运行	AOTAutograd 故障诊断
`cudagraphs`	仅捕捉 CUDA Graphs，不经过 Inductor	CUDA Graphs 专用调试
`tensorrt`	NVIDIA TensorRT 后端	生产推理（NVIDIA GPU）
`openvino`	Intel OpenVINO 后端	Intel CPU/GPU 推理
`xla`	XLA 后端（PyTorch/XLA）	TPU 训练/推理

6.2 Triton: GPU 内核代码生成

OpenAI 开发的 Triton 语言是 torch.compile GPU 路径的关键。与直接编写 CUDA 相比，Triton 提供更高级的抽象，自动处理内存合并、SM 内调度和 tiled 计算模式 [2][24]。

Inductor 到 Triton 的降级流程:

Inductor 将 FX 图转换为中间表示（IR）
对 IR 执行融合决策（哪些操作合并为单个 Triton 内核）
为每个融合后的"内核组"生成 Triton 源代码
Triton 编译器将 Triton IR 依次降级为 TTIR → TTGIR → LLVM IR → PTX/SASS
生成的 PTX/SASS 文件在 GPU 上执行

自动调优（Autotuning）: Triton 支持对每个内核配置多个 tl.autotune 候选（如块大小、线程数、循环展开因子），在编译时逐一基准测试，选择最快的方案。vLLM 在生产中默认关闭自动调优以减少首次编译时间，用户可通过 compile_sizes=[1,2,4,8] 启用特定静态尺寸下的调优 [6][24][25]。

6.3 Helion: PyTorch 与 Triton 之间的新层

Helion（2025-2026 年活跃开发）是 PyTorch 编译器团队推出的项目，旨在提供"编写 PyTorch eager 代码 ≈ 编写 Triton 内核"的体验。Helion 允许用户用 PyTorch 原生 ops 描述自定义计算核，然后通过自动调优将其编译为高效的 Triton 内核。截至 2026 年 6 月，Helion 已进入 Beta 阶段，计划在 2026 年 10 月正式发布 [1][19]。

6.4 Inductor-TensorRT 后端

NVIDIA 贡献的 TensorRT 后端允许 torch.compile 直接生成 TensorRT 优化引擎。PyTorch 2.12 中，NVIDIA AITune 工具进一步实现了 torch.compile + TensorRT 的自动混合精度图和 CUDA Graphs 配置优化 [30]。

6.5 AOTInductor: 预编译生产部署

AOTInductor 是 torch.export + Inductor 的结合，实现预编译（ahead-of-time）:

torch.export.export(model, args) 捕获模型为稳定的 FX 图（不含 guards 和 Python 依赖）
AOTInductor 编译该图为共享库（.so 文件）
部署时直接加载共享库执行，无任何 Python 运行时开销

AOTInductor 在推理场景中特别有价值，它消除了编译延迟、Python 运行时开销，并支持 ABI 稳定的接口（跨 PyTorch 版本的二进制兼容）[1][31]。

7. 挑战与局限

7.1 图断裂仍是核心痛点

尽管 Dynamo 的设计使图断裂成为优雅降级机制而非崩溃，但过多的图断裂仍然是用户报告的头号性能问题 [2][3][22]。常见图断裂原因:

断裂原因	比例（估算）	典型场景
数据相关控制流	~35%	`if x.sum() < 0: ...`
非 PyTorch C 扩展调用	~20%	`torch.save()`, 自定义 C++ op
Python I/O 操作	~15%	`print()`, `logging.info()`
动态形状特化失败	~15%	中间张量形状因输入变化
其他（torch.func transform 等）	~15%	`vmap`/`grad` 嵌套不兼容

GraphMend 研究 (2025-2026): Savini Kashmira 等人在 arXiv 2509.16248 中提出了 GraphMend，一种通过代码变换自动消除 FX 图断裂的高层编译器技术。在 Hugging Face 模型测试中，GraphMend 将图断裂降至零，延迟降低至多 75%，吞吐量提升最高 8% [8]。

7.2 动态形状处理仍不完善

动态形状（变长序列、可变批量大小、不同分辨率图像）是 torch.compile 最棘手的挑战之一。即使 PyTorch 2.12 已提供三种动态形状模式，Edward Yang 仍明确指出:

“我们无法保证能用动态形状编译一个模型。” [3]

主要问题: Dynamo 的 guards 系统是为静态形状优化的，动态形状会触发不可预测的重编译；Inductor 的 Triton 内核生成也依赖形状信息来选择最优块大小和调度策略 [22][27]。

7.3 分布式训练支持有限

torch.compile 对分布式训练的支持仍落后于 JAX:

DDP: torch.compile 支持 DataDistributedParallel，但在 DDP bucket 边界上需要图断裂来触发梯度同步，这减少了编译器优化范围 [3][13]。
FSDP: 通过 DTensor 支持 FSDP2，但 DTensor 在动态形状下的编译尚不完善（GitHub issue #159635）[3]。
SPMD 编译器: torch.compile 默认不假设程序是 SPMD，因此不会自动删除未使用的通信操作。GSPMD 风格的自动并行（AutoParallel）尚在开发中 [3]。
编译一致性: 多节点训练中每节点独立编译，若编译决策不一致可能导致 NCCL 超时 [3]。

7.4 编译时间与冷启动

即时编译的核心权衡——编译时间 vs 执行速度——在生产部署中尤为突出:

大规模训练场景（25 万美元+ 成本）通常无法接受即时编译开销，需要预编译方案 [13]。
Auto-scaling 推理场景（如 vLLM 动态扩缩容）中，冷编译时间直接影响服务启动延迟。vLLM 团队已将其列为最高优先级改进项 [6]。
缓存方案（磁盘缓存、分布式缓存）是当前的主要缓解手段，但 Edward Yang 指出"缓存不是大规模训练的理想长期解决方案" [3]。

7.5 数值精度差异

编译后的结果不保证与 eager 模式的位级等价:

FP16/BF16 融合时，Inductor 不插入多余的 down/up 转换操作，可能导致精度差异（可通过 emulate_precision_casts=True 恢复）[3]
Triton 内核的归约顺序与 cuBLAS 不同，会产生微小的浮点舍入差异
matmul 后端切换（cuBLAS vs Triton vs CUTLASS）可能导致数值变化

7.6 Pipeline 调试复杂度

三层编译器管道（Dynamo → AOTAutograd → Inductor）意味着故障可能发生在任何一层。官方的分步隔离方案是:

backend="eager" → 测试 Dynamo 图捕获
backend="aot_eager" → 测试 AOTAutograd 反向追踪
backend="inductor" → 测试 Inductor 编译

这种分层诊断虽然系统化，但对于不熟悉编译器内部结构的用户来说仍然门槛较高 [13]。

8. JAX XLA vs TensorFlow XLA vs torch.compile

8.1 编译器哲学对比

维度	torch.compile	JAX (XLA)	TensorFlow (XLA)
图捕获方式	字节码级动态捕获 (Dynamo)	函数式追踪 (jax.jit)	静态图定义 (tf.function)
Python 自由度	高 (图断裂机制)	低 (需函数式纯代码)	中 (tf.function 子集)
默认后端	Inductor → Triton/C++	XLA → HLO/LLVM	XLA → HLO/LLVM
训练编译器	AOTAutograd (后向预生成)	XLA 自动处理整个前向+后向	XLA 自动处理
动态形状	逐渐改善 (三种模式)	先天支持 (XLA dynamic)	弱支持 (重新编译)
即时 vs 预编译	JIT (默认) + AOTInductor	JIT (jax.jit)	两者均可
硬件支持	NVIDIA GPU, AMD GPU, CPU, (TPU via XLA)	GPU, TPU, CPU	NVIDIA GPU, TPU, CPU
OSS 内核语言	Triton (可编程 GPU 内核)	Pallas (类似 Triton)	无自动内核生成

8.2 torch.compile vs JAX XLA: 功能性差异

JAX 的设计从第一天起就是"编译为先"——函数式纯代码、不可变张量、无副作用——这使 XLA 编译器可以获得完整的计算图、进行激进的融合和全局优化 [23][32]。

torch.compile 的设计是"与 eager 兼容"——它必须处理 Python 的可变语义、就地操作和副作用。这种设计选择保留了 PyTorch 的灵活性和易用性，但限制了编译器可做出的激进优化。

关键差异:

SPMD 编译: JAX 原生具有 GSPMD（通用 SPMD 分区），自动将单程序映射到多设备，而 torch.compile 不默认假设 SPMD，需手动配置 DTensor 和分布式策略 [3]。
数据类型: JAX 严格区分 jnp.float32 等，不存在 PyTorch 中的 torch.Tensor / Python float 混合推导问题。
控制流: JAX 要求控制流通过 lax.cond / lax.scan / lax.while_loop 等显式结构化原语表达，而 torch.compile 允许任意 Python 控制流（代价是图断裂）。

8.3 Inductor + Triton vs XLA + HLO

Inductor + Triton 与 XLA 在编译器降级路径上有根本性区别:

XLA: 使用 HLO（High-Level Optimizer）IR 作为与硬件无关的中间表示，将图整体优化后降级为 LLVM/PTX。XLA 执行激进的自动融合和布局优化，但用户对生成代码的控制有限 [32]。
Inductor + Triton: Inductor 将图分段融合后为每段生成 Triton 内核代码。Triton 是可编程的——用户可以直接编写 Triton 内核并与 torch.compile 集成（PyTorch 2.3+）[14][24]。这种设计提供了更细粒度的控制，也更容易适配新硬件（AMD GPU、Intel GPU 等）。

8.4 市场份额与生态系统

尽管编译器能力上 JAX XLA 在某些维度更先进，PyTorch 凭借更大的生态占据绝对主导:

研究论文: 2026 年约 85% 的深度学习论文使用 PyTorch [33]
Hugging Face: 绝大多数模型以 PyTorch 格式提供
生产推理: vLLM、TensorRT-LLM 等主流推理引擎以 PyTorch 为核心
训练基础设施: torchtitan 被 Edward Yang 推荐为大规模训练的起点 [3]

TensorFlow 的市场份额持续下降，2026 年在研究领域的占比约 10-15%，主要在 TPU 上运行的特定应用场景中保持存在 [33]。

9. 生产环境采纳与未来方向

9.1 生产采纳现状

截至 2026 年 6 月，torch.compile 在生产中的采纳已达到显著水平:

领域	采纳状态	代表性案例
LLM 推理	vLLM V1 默认启用	Llama, Mistral, Qwen 系列
视频/视觉推理	广泛采用	Stable Diffusion, DINOv2, CLIP
训练	采纳增长中	torchtitan, FSDP2 集成
企业部署	torch.export + AOTInductor	金融、医疗领域的模型服务
边缘部署	ExecuTorch 基座	移动设备、嵌入式系统

9.2 vLLM 的深度集成经验

vLLM 是 torch.compile 在生产中最深入的使用者 [6]。其关键经验包括:

编译缓存跨机器共享: vLLM 的 ~/.cache/vllm/torch_compile_cache/ 在所有因素（配置、PyTorch 版本、模型前向代码）不变时安全可用，允许在自动扩缩容集群中预热
确保无运行时重编译: vLLM 保证所有编译在服务请求前完成，不会因请求触发新编译导致延迟尖峰
分段 CUDA Graphs: 仅对注意力之间的 token-wise 计算段捕获 CUDA Graphs，注意力本身以 eager 模式运行
Unbacked 动态形状: 默认采用 UNBACKED 模式，获得最强的 guards 保障
自定义编译器 pass: vLLM 实现了 SiLU+量化融合、AllReduce+RMSNorm 融合、序列并行+异步 TP 等自定义 pass，精度融合带来的吞吐提升可达 8-15% [6]

9.3 未来方向

根据 PyTorch 编译器团队和社区路线图，torch.compile 的关键发展方向包括:

Precompile（预编译）: 不再依赖缓存机制，而是将编译完全提前到部署之前，生成无 Python 依赖的二进制文件。Edward Yang 明确表示"缓存不是大规模训练的理想长期解决方案" [3]。
Helion 正式发布: 2026 年 10 月计划的 Beta 后 GA，提供 PyTorch 原生接口的 Triton 核编程 [19]。
GSPMD 级别的自动并行: AutoParallel 项目致力于自动确定足够好的分片策略（数据并行、张量并行、专家并行），类似 JAX 的 GSPMD [3]。
分布式编译一致性: 编译一次、广播到所有节点，避免多节点独立编译的 NCCL 超时问题 [3]。
编译时间持续优化: vLLM 的 -O0 到 -O3 CLI 标志重构，用户可在启动时间与性能之间做明确权衡 [6]。
FP4 和更低精度融合: 社区已在开发 FP4 融合 pass（Attention+Quant FP4, SiLU-Mul+Quant FP4）[6]。
更广泛的硬件支持: AMD GPU（ROCm 栈）、Intel GPU（XPU）、Apple Silicon（MPS）上的 Inductor/Triton 适配。

10. 总结与展望

torch.compile 代表了 PyTorch 从即时执行（eager mode）向编译优化执行的关键演变。其核心创新——TorchDynamo 的字节码级图捕获——解决了 TorchScript 长期未能解决的"如何在保留 Python 灵活性的同时获得编译加速"的问题。三层编译器管道（Dynamo → AOTAutograd → Inductor）的设计在每个层次解决了不同的编译器问题，从 Python 级图捕获到 GPU 内核代码生成，构成了一个完整的 ML 编译器栈。

从 2023 年 3 月首次发布到 2026 年 6 月的 PyTorch 2.12，torch.compile 在编译冷启动时间（67 秒 → 3-4 秒）、动态形状支持、训练编译支持、CUDA Graphs 集成、生产部署路径（AOTInductor）等方面取得了显著进步。vLLM 在 V1 架构中默认启用 torch.compile 是其生产成熟度的重要里程碑。

然而，torch.compile 仍面临实质性挑战：图断裂导致的性能退化、动态形状处理的不完善、分布式训练中与 JAX 的差距、编译时间的瓶颈以及数值精度的不确定性。GraphMend 等第三方研究和 vLLM 的自定义 pass 机制表明，解决这些挑战需要编译器团队和下游使用者的协同创新。

从更宏观的竞争视角看，torch.compile 在设计哲学上处于 JAX（纯函数式、编译优先）和传统 PyTorch（完全即时、无编译器）之间的独特位置——它试图兼顾两方面的优势。这种折衷使其在灵活性和性能之间取得了实际可行的平衡，但在编译器可做出的优化深度上仍然不及 JAX XLA。随着 Helion、Precompile 和 AutoParallel 等项目的推进，这一差距正在逐步缩小。

对于计划在生产中使用 torch.compile 的团队，当前的最佳实践是：使用 torchtitan 作为训练基座[3]，使用 vLLM 的 V1 架构进行推理部署[6]，根据工作负载特征选择动态形状模式，并通过 torch._dynamo.explain 主动识别和修复图断裂点。

参考来源

ezyang. “State of torch.compile for training (August 2025)”. ezyang’s blog, 2025-08-13. https://blog.ezyang.com/2025/08/state-of-torch-compile-august-2025/
CompilerSutra. “Inside torch.compile: Dynamo → AOTAutograd → Inductor → Triton Explained”. https://www.compilersutra.com/docs/ml-compilers/inside-torch-compile/
ezyang. “State of torch.compile for training (August 2025) — Full text”. https://blog.ezyang.com/2025/08/state-of-torch-compile-august-2025/
PyTorch Team. “PyTorch 2.6 Release Blog”. PyTorch Blog, 2025-01-29. https://pytorch.org/blog/pytorch2-6/
PyTorch GitHub Releases. “PyTorch 2.6.0 Release Notes”. https://github.com/pytorch/pytorch/releases
Luka Govedič, Richard Zou, Addie Stevens, Kaichao You, Michael Goin, Saša Zelenović. “Introduction to torch.compile and How It Works with vLLM”. vLLM Blog, 2025-08-20. https://vllm.ai/blog/2025-08-20-torch-compile
vLLM Documentation. “torch.compile integration”. https://docs.vllm.ai/en/latest/design/torch_compile/
Savini Kashmira, Jayanaka Dantanarayana, Thamirawaran Sathiyalogeswaran, Yichao Yuan, Nishil Talati, Krisztian Flautner, Lingjia Tang. “GraphMend: Code Transformations for Fixing Graph Breaks in PyTorch 2”. arXiv:2509.16248, 2025-2026. https://arxiv.org/abs/2509.16248
guillesanbri.com. “PyTorch Compilation: From TorchScript to torch.compile”. https://guillesanbri.com/pytorch-compilation/
PyTorch Wikipedia. “PyTorch — TorchScript historical context”. https://en.wikipedia.org/wiki/PyTorch
Soumith Chintala. “PyTorch 2.0 Announcement”. LinkedIn, 2022-12. https://www.linkedin.com/posts/soumith_so-excited-to-introduce-pytorch-20-a-year-activity-7004492936667136000-h4fX
Mark Saroufim. “Frequently Asked Questions — PyTorch torch.compiler FAQ (NumPy support)”. PyTorch Docs, 2025-2026. https://docs.pytorch.org/docs/2.12/user_guide/torch_compiler/torch.compiler_faq.html
Mark Saroufim. “Frequently Asked Questions — PyTorch torch.compiler FAQ”. https://docs.pytorch.org/docs/2.12/user_guide/torch_compiler/torch.compiler_faq.html
PyTorch 2.3 Release. “User-defined Triton kernels in torch.compile”. PyTorch Facebook, 2024-04. https://www.facebook.com/pytorch/posts/426108130046205/
PyTorch 2.4 Release Blog. “AOTInductor freezing, Python 3.12 support”. https://pytorch.org/blog/pytorch2-4/
Sean Kim. “PyTorch 2.5 Release: 7x Faster Compile Cold Start and FlexAttention”. https://blog.imseankim.com/pytorch-2-5-release-compile-mode-improvements-new-features/
PyTorch Blog. “FlexAttention: The Flexibility of PyTorch with the Performance of FlashAttention”. https://pytorch.org/blog/flexattention/
vLLM Docs. “Dynamic shapes and vllm guard dropping — backed vs unbacked”. https://docs.vllm.ai/en/latest/design/torch_compile/
ezyang (and PyTorch Compiler Team). “Helion project status”. Referenced in [1] as “beta October 2026”.
CompilerSutra. “Inside torch.compile — The One-Line Picture and Stage Details”. https://www.compilersutra.com/docs/ml-compilers/inside-torch-compile/
depyf Documentation. “A Walk Through Example of torch.compile”. https://depyf.readthedocs.io/en/latest/walk_through.html
PyTorch Documentation. “torch.compile Troubleshooting”. https://docs.pytorch.org/docs/2.12/user_guide/torch_compiler/torch.compiler_troubleshooting.html
gdymind. “jax.jit, torch.compile & CUDA graph — A Comparison”. gdymind’s Blog, 2026-03-07. https://gdymind.com/2026/03/07/jax-jit-torch-compile-CUDA-graph/
PyTorch Developer Mailing List. “Question regarding horizontal fusion”. dev-discuss.pytorch.org, 2025-12. https://dev-discuss.pytorch.org/t/question-regarding-horizontal-fusion/3275
DeepWiki. “Kernel Selection and Autotuning — pytorch/pytorch”. https://deepwiki.com/pytorch/pytorch/2.5.3-kernel-selection-and-autotuning
DeepWiki. “CUDA Graph Capture and Memory Pools — pytorch/pytorch”. https://deepwiki.com/pytorch/pytorch/3.2.2-cuda-graph-capture-and-memory-pools
PyTorch GitHub Issue #121968. “[RFC] Use CUDA graphs by default on torch.compile”. https://github.com/pytorch/pytorch/issues/121968
PyTorch Documentation (Android Git). “torch.compiler_cudagraph_trees.rst”. https://android.googlesource.com/platform/external/pytorch/
PyTorch Blog. “Accelerated PyTorch inference with torch.compile on AWS Graviton”. https://pytorch.org/blog/accelerated-pytorch-inference/
supercharleszhu. “torch-compile-tutorial — Structured trace export (TORCH_TRACE)”. GitHub. https://github.com/supercharleszhu/torch-compile-tutorial
PyTorch Documentation. “AOTInductor: Ahead-Of-Time Compilation for Torch.Export-ed Models”. https://docs.pytorch.org/docs/2.12/user_guide/torch_compiler/torch.compiler_aot_inductor.html
GeneralCompute Blog. “Compiler-Level Optimizations for Inference: TorchInductor, Triton, and XLA”. 2026-05-06. https://www.generalcompute.com/blog/compiler-level-optimizations-for-inference
Tech Insider. “PyTorch vs TensorFlow 2026: 85% Research Share Gap”. 2026-05. https://tech-insider.org/pytorch-vs-tensorflow-2026/
Spheron Network. “PyTorch vs TensorFlow in 2026: Which AI Framework Should You Use?”. 2026-04. https://www.spheron.network/blog/pytorch-vs-tensorflow/
Spheron Network. “torch.compile and CUDA Graphs for LLM Inference on H200 and B200”. https://www.spheron.network/blog/torch-compile-cuda-graphs-llm-inference-pytorch-2-6/

1. 概述#

2. 产品演进: 从 TorchScript 到 PT2 编译器栈#

2.1 前身: TorchScript 的教训#

2.2 PyTorch 2.0 (2023 年 3 月)#

2.3 PyTorch 2.1-2.3 (2023-2024)#

2.4 PyTorch 2.4-2.6 (2024-2025 年初)#

2.5 PyTorch 2.7-2.12 (2025-2026)#

2.6 各版本关键特征对比#

3. 技术架构#

3.1 管道全景#

3.2 TorchDynamo: Python 字节码级图捕获#

3.3 AOTAutograd: 预生成反向图#

3.4 TorchInductor: 优化与内核代码生成#

3.5 CUDA Graphs 集成#

4. 性能与基准测试#

4.1 TorchBench 官方基准#

4.2 Hugging Face 模型加速#

4.3 推理 vs 训练加速差异#

4.4 编译开销#

5. Dynamo 图捕获与 Tracing 模式#

5.1 图断裂（Graph Break）机制#

5.2 Guard 系统与重编译#

5.3 未回退动态形状（Unbacked Dynamic Shapes）#

6. 后端生态: Inductor, Triton, CUDA Graphs#

6.1 TorchInductor 的默认后端地位#

6.2 Triton: GPU 内核代码生成#

6.3 Helion: PyTorch 与 Triton 之间的新层#

6.4 Inductor-TensorRT 后端#

6.5 AOTInductor: 预编译生产部署#

7. 挑战与局限#

7.1 图断裂仍是核心痛点#

7.2 动态形状处理仍不完善#

7.3 分布式训练支持有限#

7.4 编译时间与冷启动#

7.5 数值精度差异#

7.6 Pipeline 调试复杂度#

8. JAX XLA vs TensorFlow XLA vs torch.compile#

8.1 编译器哲学对比#

8.2 torch.compile vs JAX XLA: 功能性差异#

8.3 Inductor + Triton vs XLA + HLO#

8.4 市场份额与生态系统#

9. 生产环境采纳与未来方向#

9.1 生产采纳现状#

9.2 vLLM 的深度集成经验#

9.3 未来方向#

10. 总结与展望#

参考来源#