1. 概述
Groq, Inc. 是一家总部位于美国加州 Mountain View 的人工智能芯片公司, 由前 Google TPU 核心设计师 Jonathan Ross 于 2016 年创立[1]. 公司的处理器架构最初称为 Tensor Streaming Processor (TSP), 后在 2023-2024 年大语言模型浪潮中重新品牌化为 Language Processing Unit (LPU)[2].
Groq 的核心理念是一条激进而优雅的设计选择: 抛弃计算行业中积累了四十年的所有非确定性硬件机制, 将执行调度权完全交给编译器[3]. 在传统 CPU 和 GPU 中, 缓存层次、分支预测、乱序执行和动态调度是提升平均性能的核心手段, 但它们也引入了延迟的不可预测性. Groq 的设计团队意识到, 对于推理工作负载——其计算图在运行时是已知且固定的——这些机制不仅是多余的, 而且是有害的.
这一选择使 Groq 的 LPU 在 LLM 推理延迟方面达到了业界前所未有的水平. 2024 年初, Groq 在 ArtificialAnalysis.ai 的独立基准测试中表现如此突出, 以至于测试方被迫延长图表坐标轴才能将 Groq 的数据点纳入图中[4]. 在 Llama 2 70B 上, Groq 实现了约 300 token/s 的输出速度, 比同期的 NVIDIA H100 集群快约 10 倍[5].
2025 年 12 月 24 日, NVIDIA 以约 200 亿美元的价格与 Groq 达成技术许可和人才引进协议[6][7]. 2026 年 3 月, NVIDIA 在 GTC 大会上发布了双方合作的首款芯片 Groq 3 LPU (LP30)——采用 Samsung 4nm 工艺、集成 512 MB 片上 SRAM、提供 150 TB/s 内存带宽——作为 Vera Rubin 平台中专用的解码阶段协同处理器, 计划 2026 年 Q3 出货[8].
关键时间节点:
- 2016: 公司创立, Jonathan Ross 离开 Google
- 2017: 获 Social Capital 1000 万美元种子轮
- 2021: C 轮 3 亿美元 (Tiger Global, D1 Capital), 估值超 10 亿美元
- 2022: 收购 Maxeler Technologies (数据流计算)
- 2023: 选定 Samsung 4nm 产线, TSP 品牌化为 LPU
- 2024.02: GroqCloud 开发者平台推出
- 2024.03: 收购 Definitive Intelligence (Sunny Madra 加入)
- 2024.08: D 轮 6.4 亿美元 (BlackRock 领投), 估值 28 亿美元
- 2025.02: 沙特 15 亿美元基础设施承诺
- 2025.07: 收入预期从 20 亿下调至 5 亿美元
- 2025.09: 估值升至 69 亿美元
- 2025.12: NVIDIA 以 200 亿美元收购 Groq 技术 + 人才
- 2026.03: GTC 发布 Groq 3 LPU (LP30)
- 2026.05: Groq 独立实体融资 6.5 亿美元, 转型 AI 推理云
2. 历史沿革与创始背景
2.1 创始人与 TPU
Groq 的创始人 Jonathan Ross 是 Google TPU 的核心设计者之一[9]. TPU 是 Google 于 2015 年前后为内部推理工作负载开发的专用 ASIC. Ross 在 TPU 项目中积累了丰富的 AI 加速器设计经验——特别是从特定领域工作负载倒推硬件设计的思路. 2016 年, Ross 与另一位前 Google 工程师 Douglas Wightman 共同创立了 Groq[1]. Wightman 在 2019 年离开 Groq[10], Ross 此后一直担任 CEO 直到 NVIDIA 交易完成.
2.2 融资历程
| 轮次 | 时间 | 金额 | 主要投资者 | 估值 |
|---|---|---|---|---|
| 种子轮 | 2017 | 1000 万美元 | Social Capital (Chamath Palihapitiya)[11] | — |
| A/B 轮 | 2018 | 5200 万美元 | Social Capital 等[11] | — |
| C 轮 | 2021.04 | 3 亿美元 | Tiger Global, D1 Capital[12] | >10 亿美元 |
| D 轮 | 2024.08 | 6.4 亿美元 | BlackRock PE, Cisco, Samsung Catalyst[13] | 28 亿美元 |
| D+ 轮 | 2024.09 | 7.5 亿美元 | Disruptive, BlackRock, Neuberger Berman[14] | ~69 亿美元 |
| 沙特承诺 | 2025.02 | 15 亿美元 (基础设施) | 沙特阿拉伯王国[15] | — |
| 过渡融资 | 2026.05 | 6.5 亿美元 | Disruptive, Infinitum (pro-rata)[16] | 未公开 |
Social Capital 的 Chamath Palihapitiya 在 2017 年以 1000 万美元种子轮进入 Groq——当时硅谷芯片创业被认为是"风险资本毒药"[11]. 到 2025 年 NVIDIA 交易时, 这一投资已增值至数十亿美元.
2.3 关键收购
Groq 历史上完成了两笔重要的收购:
Maxeler Technologies (2022 年 3 月)[17]: 收购了这家由 Oskar Mencer 博士于 2003 年创立的伦敦数据流计算公司. Maxeler 的约 20 人团队加入了 Groq 的伦敦办公室, 带来了 FPGA 数据流系统和高性能计算领域的深厚积累. 这一收购为 Groq 的多芯片扩展网络设计提供了关键人才.
Definitive Intelligence (2024 年 3 月)[18]: 这笔收购直接催生了 GroqCloud 业务部门. Definitive Intelligence 的联合创始人兼 CEO Sunny Madra 加入 Groq 领导 GroqCloud——他此前曾创立 Autonomic (2018 年被 Ford 收购). Madra 后来成为 Groq 的总裁, 并在 NVIDIA 交易后加入 NVIDIA[7].
2.4 早期战略: 从 CNN 到 LLM 的意外转型
Groq 的 TSP 最初设计目标并非大语言模型. 其 2020 年 ISCA 论文主要针对卷积神经网络和传统深度学习推理[3]. 2022 年底 ChatGPT 爆发后, Groq 迅速意识到其架构在 transformer-based LLM 上的独特优势——特别是自回归解码阶段对带宽敏感、对延迟确定性要求极高的特性. 公司于 2023-2024 年间将 TSP 品牌化为 Language Processing Unit (LPU)[2], 将市场定位从"通用 AI 加速器"调整为"LLM 推理专用引擎".
3. 技术架构深度解析
3.1 设计哲学: 确定性优先
传统 CPU 和 GPU 微架构的核心特征是非确定性执行. 一个程序在同一输入下运行两次, 每次指令的精确时序都可能不同. 这种非确定性的来源包括:
- 缓存层次: 缓存命中 (~10 周期) 与未命中 (~200 周期) 的延迟差异可达 20 倍
- 分支预测: 预测错误时需清空流水线并回滚, 浪费 10-20 个周期
- 乱序执行: 硬件动态重排指令, 顺序不可预测
- 动态调度: 仲裁器和重排序缓冲区在运行时做出自治决策
Groq 的核心洞察是: 推理的工作负载在运行时没有控制流不确定性——模型的计算图是编译时已知的有向无环图 (DAG). 因此, 所有调度决策可以且应该在编译时完成, 而非让硬件去猜测[3].
这一选择产生了以下设计后果:
- 无缓存: 片上 SRAM 作为主存储 (primary weight storage), 而非缓存. 所有数据访问延迟已知且恒定
- 无分支预测: 编译器已知所有计算路径
- 无乱序执行: 指令顺序由编译器在编译时确定
- 静态调度: 编译器精确计算每条指令发射、执行、完成的时序
3.2 TSP 功能切片微架构
TSP 的核心架构颠覆了传统的多核平铺 (tiled) 设计. 传统芯片中, 每个 tile 是一个完整的处理器核心, 包含各种功能单元. 而 TSP 将功能单元按类型排列在 2D 网格中——每个垂直列 (slice) 包含同一种功能单元, 被称为 functionally-sliced microarchitecture[3].
flowchart TD
subgraph "TSP 芯片 - 功能切片布局"
direction TB
subgraph "四个功能切片列 (每列 20 tile, 每 tile 16 SIMD 通道 = 320 lanes/列)"
MEM["MEM (内存读写)"]
VXM["VXM (向量 ALU)"]
MXM["MXM (矩阵乘)"]
SXM["SXM (移位/旋转)"]
end
ICU["ICU (指令控制单元) — 水平排列, 144 个指令队列"]
end
各功能切片的具体职责[3]:
- MXM (Matrix Execution Module): 执行 320 x 320 fused dot product 矩阵乘法——GEMM 运算的核心硬件
- VXM (Vector Execution Module): 执行 element-wise add, multiply, activation functions
- SXM (Shift Execution Module): 向量移位和旋转, 用于数据格式重组
- MEM (Memory Module): 管理 220 MB 全局共享 SRAM 的读写操作
- ICU (Instruction Control Unit): 水平排列, 包含 144 个独立指令队列, 每周期可发射多条指令
TSP 与 GPU 在设计上的根本差异在于: GPU 的 SM (Streaming Multiprocessor) 内部高度自治, 各有独立调度器; 而 TSP 的 ICU 分布在所有切片顶部, 指令从中心化的编译器调度表流向各切片——数据在切片之间以生产者-消费者流的方式传递. 编译器精确安排每个数据元素何时写入 SRAM、何时被哪个 tile 读取、处理后的流去向何方.
3.3 流式执行模型
执行模型的核心是向量流. 从 SRAM 读取的向量被分配一个流 ID (0-31) 和一个方向 (East/West), 在功能切片间以流水线方式传递. 每条指令的执行在时间上是交错的——ICU 在 t1 向底部 tile 发出指令 A, t2 时该 tile 的 16 个结果向量向北传递到下一个 tile, 同时 ICU 发出指令 B 处理下一个 16 元素块. 这类似于一条装配线, 所有站点的移动节奏由编译器预先编排[3].
确定性带来的关键优势: 编译器精确知道每条指令的延迟 (因为硬件无不确定性), 因此可以在编译时求解一个二维调度问题——在时间上 (何时发射) 和空间上 (哪个 tile) 精确安排每条指令和每个数据元素.
3.4 编译器与 ISA
TSP 的编译器拥有对硬件的完全控制:
| 架构状态 | 数量 | 编译器控制方式 |
|---|---|---|
| SIMD 通道 | 320 lanes | 编译器分配工作负载到 20 tile x 16 lanes |
| 指令队列 | 144 | 编译器控制每队列的程序顺序, 硬件无乱序[3] |
| 逻辑流 | 64/通道 (32 E + 32 W) | 编译器决定数据方向和时序 |
| 全局 SRAM | 220 MB | 编译器作为主存储管理 |
这种方法与 GPU 编程的核心差异: GPU 开发者需要手动优化 CUDA kernel 来处理缓存行为和线程调度不确定性; 而 Groq 的编译器自动完成这一切, 结果完全确定[20].
3.5 TruePoint 数值精度
LPU 采用 TruePoint 混合精度策略[21]:
- 存储: 权重以 INT8 或 FP8 存储, 最大化 SRAM 利用率
- 计算: 内部使用 320 元素 fused dot product 以高精度 (FP32) 执行 attention logits 等敏感运算
- 确定性舍入: 由于运算顺序在编译时确定, 舍入误差是完全可预测的——这与 GPU 上同一模型每次推理可能产生不同浮点舍入结果形成对比[21][22]
SambaNova 在 2025 年 12 月发表的博文声称, 在某些任务上 Groq 的低精度推理与 FP32 基线存在统计显著的准确率差异[22]. 但 Groq 反驳的依据包括: Argonne 国家实验室测试显示, 在 SARS-CoV-2 药物发现工作负载上, TruePoint 实现了 185x 吞吐且保持了 FP32 级结果精度[21]. 目前, 独立第三方的全面精度验证仍然有限.
3.6 多芯片扩展: 软件定义的张量流式多处理器
单个 LPU 芯片的 230 MB SRAM 远不足以容纳大模型——Llama 3.1 70B 在 FP8 下约需 70 GB, 需要约 140 个 LPU v1 芯片并行. Groq 第二篇 ISCA 论文 (2022) 描述了大规模 TSP 网络的扩展方案[23]:
- 拓扑: 2D torus 网络, 编译器预先调度芯片间数据流
- 路由: 确定性路由, 无传统路由器和仲裁
- 流控制: 编译器管理的 producer-consumer 模型
- 理论扩展上限: 10,440 个 TSP, 端到端系统延迟 <3 µs[23]
4. 代际演进与规格对比
4.1 完整代际规格表
| 参数 | LPU v1 (TSP/GroqChip 1) | LPU v2 (4nm 过渡) | Groq 3 LP30 (NVIDIA) |
|---|---|---|---|
| 制程 | GlobalFoundries 14nm[24] | Samsung 4nm[25] | Samsung SF4X[8] |
| 芯片面积 | 25 x 29 mm (725 mm²)[3] | 未公开 | 未公开 |
| 频率 | 900 MHz[3] | 未公开 | 未公开 |
| 计算密度 | >1 TOPS/mm²[3] | — | — |
| 片上 SRAM | 230 MB[26] | ~300-400 MB (估) | 512 MB[8] |
| SRAM 带宽 | 80 TB/s[26] | 未公开 | 150 TB/s[8] |
| 外部内存 | 无 HBM | 无 HBM | 无 HBM |
| INT8 算力 | 750 TOPS[27] | — | — |
| FP16 算力 | 188 TFLOPS[27] | — | — |
| FP8 算力 | — | — | 1.2 PFLOPS[28] |
| 向量 ALU | 5,120[27] | — | — |
| 矩阵乘法 | 320x320 fused dot[3] | — | 增强版本 |
| TDP | ~300W[29] | — | — |
| 确定性 | 完全[3] | 完全 | 完全 |
| 状态 | 量产 (2020-2024) | 过渡 | 2026 Q3 出货 |
代际演进的关键数字: SRAM 容量从 230 MB 增至 512 MB (2.2x), 带宽从 80 TB/s 升至 150 TB/s (1.9x). 虽然绝对增幅不大, 但在 SRAM 密度无法像 DRAM 那样快速提升的背景下——SRAM 位元需要 6 个晶体管, 而 DRAM 只需 1 个晶体管加电容——每代 2x 的容量提升已属不易.
4.2 Groq 3 LPX 系统规格
Groq 3 的核心价值在于推理分立 (inference disaggregation)——将推理的 prefill (预填充, 计算密集) 和 decode (解码, 带宽密集) 两个阶段分配到不同硬件上.
flowchart LR
USER["用户查询"] --> P["Vera Rubin NVL72
72 x Rubin GPU
Prefill 阶段
288 GB HBM4, 22 TB/s"]
P -->|"Dynamo 编排层
Prefill → Decode 分离"| D["Groq 3 LPX Rack
256 x LP30
Decode 阶段
128 GB SRAM, 40 PB/s"]
D --> R["低延迟 Token 输出"]
| LPX 机架规格 | 数值 |
|---|---|
| LP30 芯片数量 | 256 (32 x 1U 计算 tray)[28] |
| 总片上 SRAM | 128 GB[28] |
| 聚合 SRAM 带宽 | 40 PB/s[28] |
| 总算力 (FP8) | 315 PFLOPS[28] |
| chip-to-chip 扩展带宽 | 640 TB/s[28] |
NVIDIA 声称 LPX + Vera Rubin NVL72 在万亿参数模型上的每兆瓦吞吐量比 Blackwell NVL72 高 35 倍, 目标 token 价格为 45 美元/百万 token[8].
NVIDIA 路线图中的后续芯片: LP35 (增加 NVFP4 支持, 对齐 Rubin Ultra), LP40 (计划用于 Feynman 架构)[8].
4.3 与 NVIDIA GPU 的架构对比
| 对比维度 | Groq LP30 | NVIDIA Rubin GPU |
|---|---|---|
| 片上存储 | 512 MB SRAM | ~50 MB L2 缓存 |
| 存储速度 | 150 TB/s (片上) | 22 TB/s (HBM4 片外) |
| 存储容量 | 512 MB/芯片 | 288 GB HBM4 |
| 延迟一致性 | 完全确定 (无缓存未命中) | 缓存层次非确定 |
| 适用阶段 | decode 专用 | prefill + decode 通用 |
| 编译器 | 静态调度, 无运行时开销 | CUDA kernel 动态调度 |
5. 性能基准与能效分析
5.1 推理延迟与吞吐
Groq LPU 在各种开源模型上的性能数据:
| 模型 | Groq LPU | GPU 对比 | GPU 平台 | 加速比 | 来源 |
|---|---|---|---|---|---|
| Llama 2 70B | ~300 tok/s | ~30 tok/s | H100 cluster | ~10x | [5] |
| Llama 3 70B | 500-750 tok/s | 10-40 tok/s | H100/H200 | ~15-50x | [30] |
| Gemma 7B | ~814 tok/s | ~100 tok/s | GPU | ~8x | [32] |
| Mistral Large | ~320 tok/s | ~28 tok/s | A100 | ~11x | [33] |
| Mixtral 8x7B | ~500 tok/s | ~40 tok/s | H100 | ~12x | [34] |
| Phi-3 | 3,200 tok/s | ~600 tok/s | H100 + vLLM | ~5x | [35] |
| Llama 3 8B | ~500-600 tok/s | ~80 tok/s | H100 | ~7x | [34] |
需要特别指出, 这些数据来自多个来源和不同测试条件, 并非统一基准下的 A/B 测试. 但整体趋势一致: 在单用户/低批处理 (batch=1) 场景下, Groq LPU 的速度优势最为显著(10-50x). 随着 batch size 增大, GPU 的利用率上升, 差距会缩小.
5.2 延迟确定性
Groq 的一个关键且常被低估的优势是延迟的极低变异[4]:
- 首 token 时间 (TTFT) ~0.22s, 几乎不受系统负载影响
- 同一模型在同一配置下的每次推理延迟差异 <5%
- GPU 系统在同一条件下的延迟变异可达 30-50%, 主要来自 HBM 刷新周期和缓存竞争
这一特性对实时交互式 AI 应用 (语音助手、Agentic AI) 至关重要.
5.3 能效
| 指标 | Groq LPU | GPU (H100) | 比值 |
|---|---|---|---|
| 焦耳/token | 1-3 J[36] | 10-30 J[36] | ~10x |
| 能耗/百万 token | 1-3 kWh | 10-30 kWh | ~10x |
| 单卡功耗 | ~300W | 700W | ~0.4x |
| 单卡价格 | ~20,000 美元[37] | ~28,000-38,000 美元[37] | ~0.5-0.7x |
Groq LPU 的能效优势有三个物理来源: (1) SRAM 读取能耗约 0.1-0.3 pJ/bit, 而 HBM 读取 (含 TSV + SerDes) 约 5 pJ/bit, 差 17-50 倍; (2) 确定性架构消除了推测执行和缓存未命中带来的浪费; (3) 较低的总 TDP.
6. GroqCloud 平台与定价模型
GroqCloud 于 2024 年 2 月推出, 提供 OpenAI 兼容 API[18]. 截至 2026 年提供三级部署选项:
- 公共云 (GroqCloud): 按 token 计费, 分免费/开发者/企业三级费率
- 私有/协同云: 自定义容量和密钥数据驻留
- GroqRack 本地部署: 面向政府、金融等监管行业, 空气或液冷[38]
6.1 支持模型与定价
Groq 仅支持开放权重模型, 不托管 GPT-5.5、Claude、Gemini 等专有模型[39]:
| 模型 | 输入价格 | 输出价格 |
|---|---|---|
| Llama 3.1 8B | 0.05 美元/M token | 0.08 美元/M token |
| Llama 3.3 70B | 0.59 美元/M token | 0.79 美元/M token |
| DeepSeek R1 Distill 70B | 0.75 美元/M | 0.99 美元/M |
| Whisper Turbo (语音) | 0.04 美元/小时 | — |
| GPT-OSS, Qwen3 32B, Kimi K2 | 各型号不同 | — |
免费层速率限制: 所有模型 30 RPM, 1K RPD; Llama 70B: 12K TPM, 100K TPD[40]. Batch API 提供 50% 折扣 (24h-7d 处理窗口)[39].
7. 商业模式与财务分析
7.1 收入预期演变
Groq 的财务状况呈现一个典型的 AI 硬件创业公司在"收入幻觉与现实"之间的案例:
- 2025 年初: 向投资者预测全年收入 20 亿美元以上[41]
- 2025 年 7 月: 大幅下调至约 5 亿美元——三个月内下调 75%[41][42]
下调的主要原因[43]: (1) 数据中心容量不足——LPU 集群的物理部署速度跟不上预期; (2) 沙特协议的部分收入推迟至 2026 年确认; (3) 企业客户签约节奏低于预期; (4) 芯片生产的 yield 和交付周期挑战.
7.2 关键财务指标
| 指标 | 数值 | 条件/来源 |
|---|---|---|
| 2025 年收入预期 | ~5 亿美元 | 下调后[41] |
| 2023 年净亏损 | -8800 万美元 | 公开数据[1] |
| 2024 年 ARR | ~1.7 亿美元 | Latka 估计[45] |
| GroqCloud 开发者 | ~200 万 | 公司披露[46] |
| 核心客户 | Bell Canada, Aramco Digital, 沙特[47] | 企业合同 |
| 客户集中风险 | 高度依赖 1-2 个中东实体 | 沙特占协议大部分[48] |
7.3 累计融资
Groq 从 2017 年至 2026 年股权融资约 18.7 亿美元, 加上沙特 15 亿美元基础设施承诺, 总额约 33.7 亿美元. 加上 NVIDIA 的 200 亿美元交易对价, Groq 的技术 + 人才 + 资产总和估值约 230 亿美元——虽然创始人和投资者获得了巨额回报, 但公司独立运营面的商业现实仍然严峻[44].
7.4 沙特协议
15 亿美元承诺是 Groq 独立时期最关键的非股权资金来源[15]. 该协议的核心:
- 基础设施: 在 Dammam 建设 GroqCloud 数据中心——EMEA 地区最大的 AI 推理中心
- 合作伙伴: Aramco Digital, 为其 Norous 语音 AI 和 Allam 双语模型提供推理能力
- 战略对齐: 配合沙特 Vision 2030 的 AI 经济多元化战略
这也带来了显著风险: Groq 的大部分收入和中东扩展计划高度依赖萨特的持续投资[48].
8. 竞争格局分析
8.1 推理芯片全景
AI 推理芯片市场在 2026 年形成了"三分天下"的格局:
- GPU 通用型: NVIDIA H100/B200, AMD MI300X——灵活, CUDA 生态, 但推理效率低
- ASIC 推理专用: Groq LPU, Cerebras WSE-3, SambaNova SN40L, Etched Sohu, MatX——高$$ 推理性能, 10-100x vs GPU
- 超大规模自研: Google TPU v7 (Ironwood, 4,614 TFLOPS/chip), AWS Inferentia, Meta MTIA (四代路线图), Microsoft Maia——垂直整合, 锁定工作负载
8.2 核心竞争对手对比
| 维度 | Groq LPU | Cerebras WSE-3 | NVIDIA H100/B200 | SambaNova SN40L |
|---|---|---|---|---|
| 芯片形式 | 单 die ASIC | 晶圆级 (46,225 mm²) | 单 die GPU | 多 die 可重构 |
| 片上 SRAM | 230/512 MB | 44 GB | ~50 MB (L2) | 未公开 |
| 内存带宽 | 80/150 TB/s | 21 PB/s | 3.35 TB/s | 未公开 |
| 支持训练 | ❌ | ✅ | ✅ | ✅ |
| 确定性 | 完全 | 晶圆级 | 否 | 部分 |
| FP8 算力 | 1.2 PFLOPS (v3) | 125 PFLOPS | 4.5 PFLOPS (B200) | — |
| 单芯片最大模型 | ~1-7B (FP8) | ~100B+ | ~70B | — |
| 编译器模型 | 静态调度 | 晶圆映射 | CUDA kernel | 数据流映射 |
| 商业模式 | 推理 API + 云 | 训练+推理 云+本地 | 全栈 | 训练+推理 |
8.3 Cerebras: 最直接的比较
Cerebras WSE-3 与 Groq 共享 SRAM-centric 的设计哲学, 但在规模和能力上差异显著:
- Cerebras 优势: 44 GB 片上 SRAM vs 230/512 MB——单芯片可容纳 100B+ 参数模型, 无需跨芯片数据移动; 同时支持训练和推理; 客户 G42, 与 OpenAI 达成 200 亿美元芯片采购协议[50]
- Groq 优势: 更成熟的软件栈 (OpenAI 兼容 API), 更大的开发者社区 (200 万 vs Cerebras ~10 万), 更低的首 token 延迟 (TTFT 0.22s vs ~0.5s)
8.4 行业整合浪潮
2025-2026 年间一系列并购表明, 独立推理芯片创业公司面临"被收购 vs 被边缘化"的二选一[8]:
- Groq → NVIDIA (200 亿美元, 2025.12)
- Untether AI → AMD 收购工程团队 (2025.06)
- Enfabrica → NVIDIA 收购 (~9 亿美元, 2025.09)
- Rivos → Meta 收购 (2025.10)
- SambaNova → Intel 收购谈判失败, 改为 3.5 亿美元投资 + 合作 (2026.02)
- Cerebras → 保持独立, 2026.05 纳斯达克 IPO, 估值 950 亿美元
9. NVIDIA 收购
9.1 交易结构
2025 年 12 月 24 日达成的协议[6][7]:
| 要素 | 内容 |
|---|---|
| 交易对价 | 约 200 亿美元 (全部现金) |
| 性质 | 非排他性技术许可 + 人才引进[6] |
| NVIDIA 获得 | Groq 全部专利 + 软件栈 + 创始团队 + 核心工程 |
| 加入 NVIDIA | Jonathan Ross (CEO), Sunny Madra (President), 架构/编译器/系统团队 |
| Groq 独立实体 | 继续运营, 保留 LPU 生产和 GroqCloud. CEO: Simon Edwards (原 CFO) → Adam Winter |
| NVIDIA 史上最大 | 此前最大: Mellanox ~69 亿美元 (2019) |
9.2 五层战略分析
1. 技术层面: GPU 做 autoregressive decode 是 inherently inefficient 的. 每次 token 生成需要从 HBM 读取全套权重 (对于 70B 模型约 140 GB), GPU 的 compute-to-bandwidth ratio 在此场景中严重失衡. Groq LPU 的 150 TB/s SRAM 带宽将这一瓶颈从 22 TB/s (HBM4) 提升了 7x, 且延迟完全可预测.
2. 产品层面: NVIDIA 原本计划推出 Rubin CPX——一个基于 GDDR7 的推理加速器. 但 CPX 假设的 ~2 TB/s GDDR7 带宽在 Groq LPU 的 150 TB/s SRAM 面前毫无竞争力. GTC 2026 后, CPX 已从 NVIDIA 路线图中消失[8].
3. 竞争层面: 如果 Groq 保持独立并被 Cerebras/OpenAI 阵营获得, 将形成 GPU 之外的第二个推理硬件生态系统——这对 NVIDIA 的长期市场主导地位构成严重威胁.
4. 平台层面: 2019 年 Mellanox 收购 (69 亿美元) 的 InfiniBand/SmartNIC 技术后来融入 NVLink 和 NVSwitch, 成为 NVIDIA AI 基础设施不可分割的一部分. Groq 的确定性编译器和 LPU 架构将走同样的路.
5. 财务层面: 以 NVIDIA 年收入约 2000 亿美元的 10% 收购一个已验证的技术 + 团队, 相比自研 (3-5 年 + 数百亿美元 R&D 投入) 在时间和成本上都是高效的.
9.3 市场反应
Bernstein 分析师 Stacy Rasgon 指出: 交易的非排他性许可结构 (Groq 可以许可给 NVIDIA 以外的公司) “可能保持竞争的假象, 同时 effectively neutralize 了一个竞争者”[52]. 这一结构也使交易更容易规避反垄断审查.
AWS 已在 GTC 2026 宣布部署 Groq 3 LPU + 超过一百万个 NVIDIA GPU 作为扩展合作[8].
10. 局限、争议与未解决问题
10.1 SRAM 容量天花板
SRAM 的物理密度约为 DRAM 的 1/100 到 1/200——因为 SRAM 位元通常需要 6 个晶体管, 而 DRAM 只需 1 个 + 1 个电容. 即使 Groq 3 将 SRAM 翻倍到 512 MB, 与 GPU 的 80-288 GB HBM 相比仍有 160-560 倍的容量差距.
实际后果:
- Llama 3.1 70B (FP8) 约需 60 个 LP30 芯片并行
- 万亿参数模型: LPX 机架的 128 GB SRAM 仅能容纳约 1/10 模型, 需外部 DDR5 补充
- 芯片间通信开销随数量非线性增长
10.2 不支持训练
LPU 的确定性和静态调度使其无法用于模型训练[53]. 训练需要: (1) 动态反向传播; (2) 梯度累积; (3) 迭代式的 weight update——这些都是 LPU 的确定性架构无法处理的. Cerebras WSE-3 在此具有显著优势: 单芯片支持训练 + 推理.
10.3 TruePoint 精度争议
SambaNova 在 2025 年 12 月的技术博文中声称, 在多个 NLU 任务上 Groq 的低精度推理存在统计显著的准确率下降[22]. 独立第三方验证仍不充分.
10.4 生态系统局限
- 仅支持开放权重模型: 不可运行 GPT, Claude, Gemini[39]
- 模型选择浅: ~10 个托管模型 vs AWS 上百个
- 无 LoRA/adapter 支持: 无法 fine-tune 或定制
- 工具链稚嫩: 相对于 CUDA 生态 15 年积累
10.5 独立实体
NVIDIA 交易后, Groq 独立实体 (2026.05 融资 6.5 亿美元) 面临的矛盾:
- 失去核心 IP 独占性: 已许可给 NVIDIA
- 失去创始团队: Ross + Madra + 核心工程在 NVIDIA
- 面临激烈竞争: Cerebras, Fireworks, Together, OpenRouter 都在争夺推理 cloud 市场
- 但也保留了关键资产: 200 万开发者, GroqCloud API, 必要时可向其他方授权
11. 总结与未来展望
11.1 核心贡献
Groq 的 LPU 在 AI 硬件历史上留下了三个分布贡献:
- 确定性架构作为第三路径: 在 GPU (灵活, 非确定) 和固定 ASIC (不可编程) 之外, 证明了"可编程 + 完全确定性“是一条可行的道路
- SRAM-centric 推理范式: 证明片上 SRAM 作为 primary weight storage (而非缓存) 的可行性, 为后续 SRAM-based 推理设计提供了 reference
- 编译器-硬件协同设计: 将编译器提升为硬件调度的一级公民, 编译器拥有对架构状态的完全控制——这一理念影响了 Etched, MatX, D-Matrix 等公司
11.2 关键启示
Groq 的故事——从 2016 年默默无名, 到 2024 年病毒式传播, 再到 2025 年底 NVIDIA 的 200 亿美元收购——揭示了 AI 推理硬件市场的几个趋势:
- 独立推理芯片创业公司的最佳出路正在变为被大型平台收购
- 推理分立 (prefill + decode 分配到不同硬件) 将成为行业标准
- SRAM 容量的物理限制意味着 SRAM-centric 设计适用于特定细分市场 (超低延迟推理), 而非通用替代
11.3 展望 (2026-2030)
- 2026 Q3: Groq 3 LPX 出货, inference disaggregation 正式进入产品
- 2027: LP35 + NVFP4, Rubin Ultra 兼容; AI 推理市场规模向 2000 亿美元逼近[49]; 超大规模自研 + ASIC + GPU 三分天下
- 2028+: LP40 随 Feynman 架构; 推理 ASIC 的市场份额预计从 2025 年的 ~5% 增长至 2030 年的 ~20-30%
参考来源
- Groq - Wikipedia. https://en.wikipedia.org/wiki/Groq
- Williams, W. (Feb 2024). “Groq’s ultrafast LPU could well be the first LLM-native processor”. TechRadar Pro.
- Abts, D.; Ross, J.; et al. (May 2020). “Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads”. ISCA 2020. doi:10.1109/ISCA45697.2020.00023
- Groq (Feb 2024). “Groq LPU Inference Engine Crushes First Public LLM Benchmark”. groq.com/blog.
- Introl Blog (Jan 2026). “Groq LPU Infrastructure: Ultra-Low Latency AI Inference Guide 2025”.
- Nellis, S. (Dec 2025). “Nvidia, joining Big Tech deal spree, to license Groq technology, hire executives”. Reuters.
- Silberling, A. (Dec 2025). “Nvidia to license AI chip challenger Groq’s tech and hire its CEO”. TechCrunch.
- James, L. (Mar 2026). “How Nvidia’s $20 billion Groq 3 LPU deal reshapes the Nvidia Vera Rubin Platform”. Tom’s Hardware.
- LinkedIn. “Jonathan Ross — Chief Software Architect @ Nvidia”. linkedin.com/in/ross-jonathan.
- MSN. “Jonathan Ross net worth after $20 billion Nvidia deal”.
- Clark, K. (Sep 2018). “Secretive semiconductor startup Groq raises $52M from Social Capital”. TechCrunch.
- King, I. (Apr 2021). “Tiger Global, D1 Lead $300 Million Round in AI Chip Startup Groq”. Bloomberg.
- Wiggers, K. (Aug 2024). “AI chip startup Groq lands $640M to challenge Nvidia”. TechCrunch.
- Reuters (Sep 2025). “Groq more than doubles valuation to $6.9 billion”.
- Groq (Feb 2025). “Saudi Arabia Announces $1.5 Billion Expansion to Fuel AI-powered Economy with Groq”.
- Silberling, A. (May 2026). “After Nvidia’s $20B not-acqui-hire, AI chip startup Groq reportedly raising $650M”. TechCrunch.
- Groq (Mar 2022). “Groq Acquires Dataflow Systems Pioneer Maxeler Technologies”. PRNewswire.
- TechCrunch (Mar 2024). “AI chip startup Groq forms new business unit, acquires Definitive Intelligence”.
- Williams, W. (Feb 2024). “‘Feels like magic!’ — Groq’s ultrafast LPU”. TechRadar Pro.
- Upadhyay, A. (Mar 2024). “The Architecture of Groq’s LPU”. Coding Confessions Blog.
- Groq. “TruePoint Technology — Stop Compromising Accuracy for Performance”. GroqDocs.
- SambaNova (Dec 2025). “Does reduced precision hurt? A bit about losing bits”. sambanova.ai/blog.
- Abts, D.; Kimmell, G.; et al. (Jun 2022). “A software-defined tensor streaming multiprocessor for large-scale ML”. ISCA 2022. doi:10.1145/3470496.3527405
- Ward-Foxton, S. (Jan 2020). “Groq’s AI Chip Debuts in the Cloud”. EETimes.
- Hwang, J-S. (Aug 2023). “Samsung’s new US chip fab wins first foundry order from Groq”. Korea Economic Daily.
- Groq (Aug 2025). “Inside the LPU: Deconstructing Groq’s Speed”. groq.com/blog.
- GroqChip Processor Product Brief v1.7 (PDF). groq.sa.
- The Register (Mar 2026). “A closer look at Nvidia’s Groq-powered LPX rack systems”.
- Awesome Agents (Mar 2026). “Groq LPU — Deterministic Inference at Scale”.
- Silicon Analysts (Dec 2024). “Nvidia vs Groq: The Inference Acceleration Battle”.
- Markaicode (Jun 2026). “Groq Mixtral H100 Throughput: 480 tok/s on Llama 3 70B”.
- Groq (Mar 2024). “Groundbreaking Gemma 7B Performance running on the Groq LPU Inference Engine”.
- Markaicode. “Mistral Large on A100 vs Groq LPU: VRAM Benchmark”.
- Beebom. “Meet Groq, a Lightning Fast AI Accelerator that Beats ChatGPT & Gemini”.
- Markaicode. “Groq vs vLLM on H100: Phi-3 Throughput Hits 3,200 Tokens/Sec”.
- Li, Z. “Groq’s Deterministic Architecture is Rewriting the Physics of AI Inference”. Medium.
- Silicon Analysts. “Nvidia vs Groq: Cost Analysis Hardware Pricing”.
- Groq. “GroqRack Compute Cluster”. groq.com/groqrack.
- Groq On-Demand Pricing. https://groq.com/pricing
- TokenMix Blog (Apr 2026). “Groq API Pricing 2026: Free Tier, $0.05/M Paid Models”.
- The Information (Jul 2025). “Groq slashes 2025 revenue projections to $500 million”.
- Investing.com (Jul 2025). “Groq slashes 2025 revenue projections to $500 million”.
- TrendForce (Jul 2025). “Groq Cuts 2025 Revenue Projection by USD 1.5B”.
- Sacra. “Groq revenue, valuation & funding”. sacra.com/c/groq/.
- Latka. “Groq Revenue 2025: $172.5M ARR”. getlatka.com.
- Sacra (Feb 2026). “Equity Research Groq” (PDF).
- Data Center Dynamics (Feb 2025). “Groq secures $1.5bn from Saudi Arabia”.
- Reuters (Jul 2025). “AI chip startup Groq discusses $6 billion valuation”.
- Silicon Analysts (Apr 2026). “AMD vs NVIDIA AI GPU Market Share 2026”.
- Digitimes (Apr 2026). “Nvidia and OpenAI both make US$20 billion bets on AI chip startups”.
- TrendForce (2026). “Custom ASIC shipments from cloud providers growing 44.6% in 2026”.
- CNBC (Dec 2025). “Nvidia-Groq deal is structured to keep ‘fiction of competition alive,’ analyst says”.
- Cryptonomist (Apr 2026). “NVIDIA pairs Rubin GPUs with Groq LPU to cut latency, boost inference”.