Groq 与 LPU

1. 概述

Groq, Inc. 是一家总部位于美国加州 Mountain View 的人工智能芯片公司, 由前 Google TPU 核心设计师 Jonathan Ross 于 2016 年创立[1]. 公司的处理器架构最初称为 Tensor Streaming Processor (TSP), 后在 2023-2024 年大语言模型浪潮中重新品牌化为 Language Processing Unit (LPU)[2].

Groq 的核心理念是一条激进而优雅的设计选择: 抛弃计算行业中积累了四十年的所有非确定性硬件机制, 将执行调度权完全交给编译器[3]. 在传统 CPU 和 GPU 中, 缓存层次、分支预测、乱序执行和动态调度是提升平均性能的核心手段, 但它们也引入了延迟的不可预测性. Groq 的设计团队意识到, 对于推理工作负载——其计算图在运行时是已知且固定的——这些机制不仅是多余的, 而且是有害的.

这一选择使 Groq 的 LPU 在 LLM 推理延迟方面达到了业界前所未有的水平. 2024 年初, Groq 在 ArtificialAnalysis.ai 的独立基准测试中表现如此突出, 以至于测试方被迫延长图表坐标轴才能将 Groq 的数据点纳入图中[4]. 在 Llama 2 70B 上, Groq 实现了约 300 token/s 的输出速度, 比同期的 NVIDIA H100 集群快约 10 倍[5].

2025 年 12 月 24 日, NVIDIA 以约 200 亿美元的价格与 Groq 达成技术许可和人才引进协议[6][7]. 2026 年 3 月, NVIDIA 在 GTC 大会上发布了双方合作的首款芯片 Groq 3 LPU (LP30)——采用 Samsung 4nm 工艺、集成 512 MB 片上 SRAM、提供 150 TB/s 内存带宽——作为 Vera Rubin 平台中专用的解码阶段协同处理器, 计划 2026 年 Q3 出货[8].

关键时间节点:

2016: 公司创立, Jonathan Ross 离开 Google
2017: 获 Social Capital 1000 万美元种子轮
2021: C 轮 3 亿美元 (Tiger Global, D1 Capital), 估值超 10 亿美元
2022: 收购 Maxeler Technologies (数据流计算)
2023: 选定 Samsung 4nm 产线, TSP 品牌化为 LPU
2024.02: GroqCloud 开发者平台推出
2024.03: 收购 Definitive Intelligence (Sunny Madra 加入)
2024.08: D 轮 6.4 亿美元 (BlackRock 领投), 估值 28 亿美元
2025.02: 沙特 15 亿美元基础设施承诺
2025.07: 收入预期从 20 亿下调至 5 亿美元
2025.09: 估值升至 69 亿美元
2025.12: NVIDIA 以 200 亿美元收购 Groq 技术 + 人才
2026.03: GTC 发布 Groq 3 LPU (LP30)
2026.05: Groq 独立实体融资 6.5 亿美元, 转型 AI 推理云

2. 历史沿革与创始背景

2.1 创始人与 TPU

Groq 的创始人 Jonathan Ross 是 Google TPU 的核心设计者之一[9]. TPU 是 Google 于 2015 年前后为内部推理工作负载开发的专用 ASIC. Ross 在 TPU 项目中积累了丰富的 AI 加速器设计经验——特别是从特定领域工作负载倒推硬件设计的思路. 2016 年, Ross 与另一位前 Google 工程师 Douglas Wightman 共同创立了 Groq[1]. Wightman 在 2019 年离开 Groq[10], Ross 此后一直担任 CEO 直到 NVIDIA 交易完成.

2.2 融资历程

轮次	时间	金额	主要投资者	估值
种子轮	2017	1000 万美元	Social Capital (Chamath Palihapitiya)[11]	—
A/B 轮	2018	5200 万美元	Social Capital 等[11]	—
C 轮	2021.04	3 亿美元	Tiger Global, D1 Capital[12]	>10 亿美元
D 轮	2024.08	6.4 亿美元	BlackRock PE, Cisco, Samsung Catalyst[13]	28 亿美元
D+ 轮	2024.09	7.5 亿美元	Disruptive, BlackRock, Neuberger Berman[14]	~69 亿美元
沙特承诺	2025.02	15 亿美元 (基础设施)	沙特阿拉伯王国[15]	—
过渡融资	2026.05	6.5 亿美元	Disruptive, Infinitum (pro-rata)[16]	未公开

Social Capital 的 Chamath Palihapitiya 在 2017 年以 1000 万美元种子轮进入 Groq——当时硅谷芯片创业被认为是"风险资本毒药"[11]. 到 2025 年 NVIDIA 交易时, 这一投资已增值至数十亿美元.

2.3 关键收购

Groq 历史上完成了两笔重要的收购:

Maxeler Technologies (2022 年 3 月)[17]: 收购了这家由 Oskar Mencer 博士于 2003 年创立的伦敦数据流计算公司. Maxeler 的约 20 人团队加入了 Groq 的伦敦办公室, 带来了 FPGA 数据流系统和高性能计算领域的深厚积累. 这一收购为 Groq 的多芯片扩展网络设计提供了关键人才.

Definitive Intelligence (2024 年 3 月)[18]: 这笔收购直接催生了 GroqCloud 业务部门. Definitive Intelligence 的联合创始人兼 CEO Sunny Madra 加入 Groq 领导 GroqCloud——他此前曾创立 Autonomic (2018 年被 Ford 收购). Madra 后来成为 Groq 的总裁, 并在 NVIDIA 交易后加入 NVIDIA[7].

2.4 早期战略: 从 CNN 到 LLM 的意外转型

Groq 的 TSP 最初设计目标并非大语言模型. 其 2020 年 ISCA 论文主要针对卷积神经网络和传统深度学习推理[3]. 2022 年底 ChatGPT 爆发后, Groq 迅速意识到其架构在 transformer-based LLM 上的独特优势——特别是自回归解码阶段对带宽敏感、对延迟确定性要求极高的特性. 公司于 2023-2024 年间将 TSP 品牌化为 Language Processing Unit (LPU)[2], 将市场定位从"通用 AI 加速器"调整为"LLM 推理专用引擎".

3. 技术架构深度解析

3.1 设计哲学: 确定性优先

传统 CPU 和 GPU 微架构的核心特征是非确定性执行. 一个程序在同一输入下运行两次, 每次指令的精确时序都可能不同. 这种非确定性的来源包括:

缓存层次: 缓存命中 (~10 周期) 与未命中 (~200 周期) 的延迟差异可达 20 倍
分支预测: 预测错误时需清空流水线并回滚, 浪费 10-20 个周期
乱序执行: 硬件动态重排指令, 顺序不可预测
动态调度: 仲裁器和重排序缓冲区在运行时做出自治决策

Groq 的核心洞察是: 推理的工作负载在运行时没有控制流不确定性——模型的计算图是编译时已知的有向无环图 (DAG). 因此, 所有调度决策可以且应该在编译时完成, 而非让硬件去猜测[3].

这一选择产生了以下设计后果:

无缓存: 片上 SRAM 作为主存储 (primary weight storage), 而非缓存. 所有数据访问延迟已知且恒定
无分支预测: 编译器已知所有计算路径
无乱序执行: 指令顺序由编译器在编译时确定
静态调度: 编译器精确计算每条指令发射、执行、完成的时序

3.2 TSP 功能切片微架构

TSP 的核心架构颠覆了传统的多核平铺 (tiled) 设计. 传统芯片中, 每个 tile 是一个完整的处理器核心, 包含各种功能单元. 而 TSP 将功能单元按类型排列在 2D 网格中——每个垂直列 (slice) 包含同一种功能单元, 被称为 functionally-sliced microarchitecture[3].

flowchart TD
    subgraph "TSP 芯片 - 功能切片布局"
        direction TB
        
        subgraph "四个功能切片列 (每列 20 tile, 每 tile 16 SIMD 通道 = 320 lanes/列)"
            MEM["MEM (内存读写)"]
            VXM["VXM (向量 ALU)"]
            MXM["MXM (矩阵乘)"]
            SXM["SXM (移位/旋转)"]
        end
        
        ICU["ICU (指令控制单元) — 水平排列, 144 个指令队列"]
    end

各功能切片的具体职责[3]:

MXM (Matrix Execution Module): 执行 320 x 320 fused dot product 矩阵乘法——GEMM 运算的核心硬件
VXM (Vector Execution Module): 执行 element-wise add, multiply, activation functions
SXM (Shift Execution Module): 向量移位和旋转, 用于数据格式重组
MEM (Memory Module): 管理 220 MB 全局共享 SRAM 的读写操作
ICU (Instruction Control Unit): 水平排列, 包含 144 个独立指令队列, 每周期可发射多条指令

TSP 与 GPU 在设计上的根本差异在于: GPU 的 SM (Streaming Multiprocessor) 内部高度自治, 各有独立调度器; 而 TSP 的 ICU 分布在所有切片顶部, 指令从中心化的编译器调度表流向各切片——数据在切片之间以生产者-消费者流的方式传递. 编译器精确安排每个数据元素何时写入 SRAM、何时被哪个 tile 读取、处理后的流去向何方.

3.3 流式执行模型

执行模型的核心是向量流. 从 SRAM 读取的向量被分配一个流 ID (0-31) 和一个方向 (East/West), 在功能切片间以流水线方式传递. 每条指令的执行在时间上是交错的——ICU 在 t1 向底部 tile 发出指令 A, t2 时该 tile 的 16 个结果向量向北传递到下一个 tile, 同时 ICU 发出指令 B 处理下一个 16 元素块. 这类似于一条装配线, 所有站点的移动节奏由编译器预先编排[3].

确定性带来的关键优势: 编译器精确知道每条指令的延迟 (因为硬件无不确定性), 因此可以在编译时求解一个二维调度问题——在时间上 (何时发射) 和空间上 (哪个 tile) 精确安排每条指令和每个数据元素.

3.4 编译器与 ISA

TSP 的编译器拥有对硬件的完全控制:

架构状态	数量	编译器控制方式
SIMD 通道	320 lanes	编译器分配工作负载到 20 tile x 16 lanes
指令队列	144	编译器控制每队列的程序顺序, 硬件无乱序[3]
逻辑流	64/通道 (32 E + 32 W)	编译器决定数据方向和时序
全局 SRAM	220 MB	编译器作为主存储管理

这种方法与 GPU 编程的核心差异: GPU 开发者需要手动优化 CUDA kernel 来处理缓存行为和线程调度不确定性; 而 Groq 的编译器自动完成这一切, 结果完全确定[20].

3.5 TruePoint 数值精度

LPU 采用 TruePoint 混合精度策略[21]:

存储: 权重以 INT8 或 FP8 存储, 最大化 SRAM 利用率
计算: 内部使用 320 元素 fused dot product 以高精度 (FP32) 执行 attention logits 等敏感运算
确定性舍入: 由于运算顺序在编译时确定, 舍入误差是完全可预测的——这与 GPU 上同一模型每次推理可能产生不同浮点舍入结果形成对比[21][22]

SambaNova 在 2025 年 12 月发表的博文声称, 在某些任务上 Groq 的低精度推理与 FP32 基线存在统计显著的准确率差异[22]. 但 Groq 反驳的依据包括: Argonne 国家实验室测试显示, 在 SARS-CoV-2 药物发现工作负载上, TruePoint 实现了 185x 吞吐且保持了 FP32 级结果精度[21]. 目前, 独立第三方的全面精度验证仍然有限.

3.6 多芯片扩展: 软件定义的张量流式多处理器

单个 LPU 芯片的 230 MB SRAM 远不足以容纳大模型——Llama 3.1 70B 在 FP8 下约需 70 GB, 需要约 140 个 LPU v1 芯片并行. Groq 第二篇 ISCA 论文 (2022) 描述了大规模 TSP 网络的扩展方案[23]:

拓扑: 2D torus 网络, 编译器预先调度芯片间数据流
路由: 确定性路由, 无传统路由器和仲裁
流控制: 编译器管理的 producer-consumer 模型
理论扩展上限: 10,440 个 TSP, 端到端系统延迟 <3 µs[23]

4. 代际演进与规格对比

4.1 完整代际规格表

参数	LPU v1 (TSP/GroqChip 1)	LPU v2 (4nm 过渡)	Groq 3 LP30 (NVIDIA)
制程	GlobalFoundries 14nm[24]	Samsung 4nm[25]	Samsung SF4X[8]
芯片面积	25 x 29 mm (725 mm²)[3]	未公开	未公开
频率	900 MHz[3]	未公开	未公开
计算密度	>1 TOPS/mm²[3]	—	—
片上 SRAM	230 MB[26]	~300-400 MB (估)	512 MB[8]
SRAM 带宽	80 TB/s[26]	未公开	150 TB/s[8]
外部内存	无 HBM	无 HBM	无 HBM
INT8 算力	750 TOPS[27]	—	—
FP16 算力	188 TFLOPS[27]	—	—
FP8 算力	—	—	1.2 PFLOPS[28]
向量 ALU	5,120[27]	—	—
矩阵乘法	320x320 fused dot[3]	—	增强版本
TDP	~300W[29]	—	—
确定性	完全[3]	完全	完全
状态	量产 (2020-2024)	过渡	2026 Q3 出货

代际演进的关键数字: SRAM 容量从 230 MB 增至 512 MB (2.2x), 带宽从 80 TB/s 升至 150 TB/s (1.9x). 虽然绝对增幅不大, 但在 SRAM 密度无法像 DRAM 那样快速提升的背景下——SRAM 位元需要 6 个晶体管, 而 DRAM 只需 1 个晶体管加电容——每代 2x 的容量提升已属不易.

4.2 Groq 3 LPX 系统规格

Groq 3 的核心价值在于推理分立 (inference disaggregation)——将推理的 prefill (预填充, 计算密集) 和 decode (解码, 带宽密集) 两个阶段分配到不同硬件上.

flowchart LR
    USER["用户查询"] --> P["Vera Rubin NVL72
72 x Rubin GPU
Prefill 阶段
288 GB HBM4, 22 TB/s"]
    P -->|"Dynamo 编排层
Prefill → Decode 分离"| D["Groq 3 LPX Rack
256 x LP30
Decode 阶段
128 GB SRAM, 40 PB/s"]
    D --> R["低延迟 Token 输出"]

LPX 机架规格	数值
LP30 芯片数量	256 (32 x 1U 计算 tray)[28]
总片上 SRAM	128 GB[28]
聚合 SRAM 带宽	40 PB/s[28]
总算力 (FP8)	315 PFLOPS[28]
chip-to-chip 扩展带宽	640 TB/s[28]

NVIDIA 声称 LPX + Vera Rubin NVL72 在万亿参数模型上的每兆瓦吞吐量比 Blackwell NVL72 高 35 倍, 目标 token 价格为 45 美元/百万 token[8].

NVIDIA 路线图中的后续芯片: LP35 (增加 NVFP4 支持, 对齐 Rubin Ultra), LP40 (计划用于 Feynman 架构)[8].

4.3 与 NVIDIA GPU 的架构对比

对比维度	Groq LP30	NVIDIA Rubin GPU
片上存储	512 MB SRAM	~50 MB L2 缓存
存储速度	150 TB/s (片上)	22 TB/s (HBM4 片外)
存储容量	512 MB/芯片	288 GB HBM4
延迟一致性	完全确定 (无缓存未命中)	缓存层次非确定
适用阶段	decode 专用	prefill + decode 通用
编译器	静态调度, 无运行时开销	CUDA kernel 动态调度

5. 性能基准与能效分析

5.1 推理延迟与吞吐

Groq LPU 在各种开源模型上的性能数据:

模型	Groq LPU	GPU 对比	GPU 平台	加速比	来源
Llama 2 70B	~300 tok/s	~30 tok/s	H100 cluster	~10x	[5]
Llama 3 70B	500-750 tok/s	10-40 tok/s	H100/H200	~15-50x	[30]
Gemma 7B	~814 tok/s	~100 tok/s	GPU	~8x	[32]
Mistral Large	~320 tok/s	~28 tok/s	A100	~11x	[33]
Mixtral 8x7B	~500 tok/s	~40 tok/s	H100	~12x	[34]
Phi-3	3,200 tok/s	~600 tok/s	H100 + vLLM	~5x	[35]
Llama 3 8B	~500-600 tok/s	~80 tok/s	H100	~7x	[34]

需要特别指出, 这些数据来自多个来源和不同测试条件, 并非统一基准下的 A/B 测试. 但整体趋势一致: 在单用户/低批处理 (batch=1) 场景下, Groq LPU 的速度优势最为显著(10-50x). 随着 batch size 增大, GPU 的利用率上升, 差距会缩小.

5.2 延迟确定性

Groq 的一个关键且常被低估的优势是延迟的极低变异[4]:

首 token 时间 (TTFT) ~0.22s, 几乎不受系统负载影响
同一模型在同一配置下的每次推理延迟差异 <5%
GPU 系统在同一条件下的延迟变异可达 30-50%, 主要来自 HBM 刷新周期和缓存竞争

这一特性对实时交互式 AI 应用 (语音助手、Agentic AI) 至关重要.

5.3 能效

指标	Groq LPU	GPU (H100)	比值
焦耳/token	1-3 J[36]	10-30 J[36]	~10x
能耗/百万 token	1-3 kWh	10-30 kWh	~10x
单卡功耗	~300W	700W	~0.4x
单卡价格	~20,000 美元[37]	~28,000-38,000 美元[37]	~0.5-0.7x

Groq LPU 的能效优势有三个物理来源: (1) SRAM 读取能耗约 0.1-0.3 pJ/bit, 而 HBM 读取 (含 TSV + SerDes) 约 5 pJ/bit, 差 17-50 倍; (2) 确定性架构消除了推测执行和缓存未命中带来的浪费; (3) 较低的总 TDP.

6. GroqCloud 平台与定价模型

GroqCloud 于 2024 年 2 月推出, 提供 OpenAI 兼容 API[18]. 截至 2026 年提供三级部署选项:

公共云 (GroqCloud): 按 token 计费, 分免费/开发者/企业三级费率
私有/协同云: 自定义容量和密钥数据驻留
GroqRack 本地部署: 面向政府、金融等监管行业, 空气或液冷[38]

6.1 支持模型与定价

Groq 仅支持开放权重模型, 不托管 GPT-5.5、Claude、Gemini 等专有模型[39]:

模型	输入价格	输出价格
Llama 3.1 8B	0.05 美元/M token	0.08 美元/M token
Llama 3.3 70B	0.59 美元/M token	0.79 美元/M token
DeepSeek R1 Distill 70B	0.75 美元/M	0.99 美元/M
Whisper Turbo (语音)	0.04 美元/小时	—
GPT-OSS, Qwen3 32B, Kimi K2	各型号不同	—

免费层速率限制: 所有模型 30 RPM, 1K RPD; Llama 70B: 12K TPM, 100K TPD[40]. Batch API 提供 50% 折扣 (24h-7d 处理窗口)[39].

7. 商业模式与财务分析

7.1 收入预期演变

Groq 的财务状况呈现一个典型的 AI 硬件创业公司在"收入幻觉与现实"之间的案例:

2025 年初: 向投资者预测全年收入 20 亿美元以上[41]
2025 年 7 月: 大幅下调至约 5 亿美元——三个月内下调 75%[41][42]

下调的主要原因[43]: (1) 数据中心容量不足——LPU 集群的物理部署速度跟不上预期; (2) 沙特协议的部分收入推迟至 2026 年确认; (3) 企业客户签约节奏低于预期; (4) 芯片生产的 yield 和交付周期挑战.

7.2 关键财务指标

指标	数值	条件/来源
2025 年收入预期	~5 亿美元	下调后[41]
2023 年净亏损	-8800 万美元	公开数据[1]
2024 年 ARR	~1.7 亿美元	Latka 估计[45]
GroqCloud 开发者	~200 万	公司披露[46]
核心客户	Bell Canada, Aramco Digital, 沙特[47]	企业合同
客户集中风险	高度依赖 1-2 个中东实体	沙特占协议大部分[48]

7.3 累计融资

Groq 从 2017 年至 2026 年股权融资约 18.7 亿美元, 加上沙特 15 亿美元基础设施承诺, 总额约 33.7 亿美元. 加上 NVIDIA 的 200 亿美元交易对价, Groq 的技术 + 人才 + 资产总和估值约 230 亿美元——虽然创始人和投资者获得了巨额回报, 但公司独立运营面的商业现实仍然严峻[44].

7.4 沙特协议

15 亿美元承诺是 Groq 独立时期最关键的非股权资金来源[15]. 该协议的核心:

基础设施: 在 Dammam 建设 GroqCloud 数据中心——EMEA 地区最大的 AI 推理中心
合作伙伴: Aramco Digital, 为其 Norous 语音 AI 和 Allam 双语模型提供推理能力
战略对齐: 配合沙特 Vision 2030 的 AI 经济多元化战略

这也带来了显著风险: Groq 的大部分收入和中东扩展计划高度依赖萨特的持续投资[48].

8. 竞争格局分析

8.1 推理芯片全景

AI 推理芯片市场在 2026 年形成了"三分天下"的格局:

GPU 通用型: NVIDIA H100/B200, AMD MI300X——灵活, CUDA 生态, 但推理效率低
ASIC 推理专用: Groq LPU, Cerebras WSE-3, SambaNova SN40L, Etched Sohu, MatX——高$$ 推理性能, 10-100x vs GPU
超大规模自研: Google TPU v7 (Ironwood, 4,614 TFLOPS/chip), AWS Inferentia, Meta MTIA (四代路线图), Microsoft Maia——垂直整合, 锁定工作负载

8.2 核心竞争对手对比

维度	Groq LPU	Cerebras WSE-3	NVIDIA H100/B200	SambaNova SN40L
芯片形式	单 die ASIC	晶圆级 (46,225 mm²)	单 die GPU	多 die 可重构
片上 SRAM	230/512 MB	44 GB	~50 MB (L2)	未公开
内存带宽	80/150 TB/s	21 PB/s	3.35 TB/s	未公开
支持训练	❌	✅	✅	✅
确定性	完全	晶圆级	否	部分
FP8 算力	1.2 PFLOPS (v3)	125 PFLOPS	4.5 PFLOPS (B200)	—
单芯片最大模型	~1-7B (FP8)	~100B+	~70B	—
编译器模型	静态调度	晶圆映射	CUDA kernel	数据流映射
商业模式	推理 API + 云	训练+推理云+本地	全栈	训练+推理

8.3 Cerebras: 最直接的比较

Cerebras WSE-3 与 Groq 共享 SRAM-centric 的设计哲学, 但在规模和能力上差异显著:

Cerebras 优势: 44 GB 片上 SRAM vs 230/512 MB——单芯片可容纳 100B+ 参数模型, 无需跨芯片数据移动; 同时支持训练和推理; 客户 G42, 与 OpenAI 达成 200 亿美元芯片采购协议[50]
Groq 优势: 更成熟的软件栈 (OpenAI 兼容 API), 更大的开发者社区 (200 万 vs Cerebras ~10 万), 更低的首 token 延迟 (TTFT 0.22s vs ~0.5s)

8.4 行业整合浪潮

2025-2026 年间一系列并购表明, 独立推理芯片创业公司面临"被收购 vs 被边缘化"的二选一[8]:

Groq → NVIDIA (200 亿美元, 2025.12)
Untether AI → AMD 收购工程团队 (2025.06)
Enfabrica → NVIDIA 收购 (~9 亿美元, 2025.09)
Rivos → Meta 收购 (2025.10)
SambaNova → Intel 收购谈判失败, 改为 3.5 亿美元投资 + 合作 (2026.02)
Cerebras → 保持独立, 2026.05 纳斯达克 IPO, 估值 950 亿美元

9. NVIDIA 收购

9.1 交易结构

2025 年 12 月 24 日达成的协议[6][7]:

要素	内容
交易对价	约 200 亿美元 (全部现金)
性质	非排他性技术许可 + 人才引进[6]
NVIDIA 获得	Groq 全部专利 + 软件栈 + 创始团队 + 核心工程
加入 NVIDIA	Jonathan Ross (CEO), Sunny Madra (President), 架构/编译器/系统团队
Groq 独立实体	继续运营, 保留 LPU 生产和 GroqCloud. CEO: Simon Edwards (原 CFO) → Adam Winter
NVIDIA 史上最大	此前最大: Mellanox ~69 亿美元 (2019)

9.2 五层战略分析

1. 技术层面: GPU 做 autoregressive decode 是 inherently inefficient 的. 每次 token 生成需要从 HBM 读取全套权重 (对于 70B 模型约 140 GB), GPU 的 compute-to-bandwidth ratio 在此场景中严重失衡. Groq LPU 的 150 TB/s SRAM 带宽将这一瓶颈从 22 TB/s (HBM4) 提升了 7x, 且延迟完全可预测.

2. 产品层面: NVIDIA 原本计划推出 Rubin CPX——一个基于 GDDR7 的推理加速器. 但 CPX 假设的 ~2 TB/s GDDR7 带宽在 Groq LPU 的 150 TB/s SRAM 面前毫无竞争力. GTC 2026 后, CPX 已从 NVIDIA 路线图中消失[8].

3. 竞争层面: 如果 Groq 保持独立并被 Cerebras/OpenAI 阵营获得, 将形成 GPU 之外的第二个推理硬件生态系统——这对 NVIDIA 的长期市场主导地位构成严重威胁.

4. 平台层面: 2019 年 Mellanox 收购 (69 亿美元) 的 InfiniBand/SmartNIC 技术后来融入 NVLink 和 NVSwitch, 成为 NVIDIA AI 基础设施不可分割的一部分. Groq 的确定性编译器和 LPU 架构将走同样的路.

5. 财务层面: 以 NVIDIA 年收入约 2000 亿美元的 10% 收购一个已验证的技术 + 团队, 相比自研 (3-5 年 + 数百亿美元 R&D 投入) 在时间和成本上都是高效的.

9.3 市场反应

Bernstein 分析师 Stacy Rasgon 指出: 交易的非排他性许可结构 (Groq 可以许可给 NVIDIA 以外的公司) “可能保持竞争的假象, 同时 effectively neutralize 了一个竞争者”[52]. 这一结构也使交易更容易规避反垄断审查.

AWS 已在 GTC 2026 宣布部署 Groq 3 LPU + 超过一百万个 NVIDIA GPU 作为扩展合作[8].

10. 局限、争议与未解决问题

10.1 SRAM 容量天花板

SRAM 的物理密度约为 DRAM 的 1/100 到 1/200——因为 SRAM 位元通常需要 6 个晶体管, 而 DRAM 只需 1 个 + 1 个电容. 即使 Groq 3 将 SRAM 翻倍到 512 MB, 与 GPU 的 80-288 GB HBM 相比仍有 160-560 倍的容量差距.

实际后果:

Llama 3.1 70B (FP8) 约需 60 个 LP30 芯片并行
万亿参数模型: LPX 机架的 128 GB SRAM 仅能容纳约 1/10 模型, 需外部 DDR5 补充
芯片间通信开销随数量非线性增长

10.2 不支持训练

LPU 的确定性和静态调度使其无法用于模型训练[53]. 训练需要: (1) 动态反向传播; (2) 梯度累积; (3) 迭代式的 weight update——这些都是 LPU 的确定性架构无法处理的. Cerebras WSE-3 在此具有显著优势: 单芯片支持训练 + 推理.

10.3 TruePoint 精度争议

SambaNova 在 2025 年 12 月的技术博文中声称, 在多个 NLU 任务上 Groq 的低精度推理存在统计显著的准确率下降[22]. 独立第三方验证仍不充分.

10.4 生态系统局限

仅支持开放权重模型: 不可运行 GPT, Claude, Gemini[39]
模型选择浅: ~10 个托管模型 vs AWS 上百个
无 LoRA/adapter 支持: 无法 fine-tune 或定制
工具链稚嫩: 相对于 CUDA 生态 15 年积累

10.5 独立实体

NVIDIA 交易后, Groq 独立实体 (2026.05 融资 6.5 亿美元) 面临的矛盾:

失去核心 IP 独占性: 已许可给 NVIDIA
失去创始团队: Ross + Madra + 核心工程在 NVIDIA
面临激烈竞争: Cerebras, Fireworks, Together, OpenRouter 都在争夺推理 cloud 市场
但也保留了关键资产: 200 万开发者, GroqCloud API, 必要时可向其他方授权

11. 总结与未来展望

11.1 核心贡献

Groq 的 LPU 在 AI 硬件历史上留下了三个分布贡献:

确定性架构作为第三路径: 在 GPU (灵活, 非确定) 和固定 ASIC (不可编程) 之外, 证明了"可编程 + 完全确定性“是一条可行的道路
SRAM-centric 推理范式: 证明片上 SRAM 作为 primary weight storage (而非缓存) 的可行性, 为后续 SRAM-based 推理设计提供了 reference
编译器-硬件协同设计: 将编译器提升为硬件调度的一级公民, 编译器拥有对架构状态的完全控制——这一理念影响了 Etched, MatX, D-Matrix 等公司

11.2 关键启示

Groq 的故事——从 2016 年默默无名, 到 2024 年病毒式传播, 再到 2025 年底 NVIDIA 的 200 亿美元收购——揭示了 AI 推理硬件市场的几个趋势:

独立推理芯片创业公司的最佳出路正在变为被大型平台收购
推理分立 (prefill + decode 分配到不同硬件) 将成为行业标准
SRAM 容量的物理限制意味着 SRAM-centric 设计适用于特定细分市场 (超低延迟推理), 而非通用替代

11.3 展望 (2026-2030)

2026 Q3: Groq 3 LPX 出货, inference disaggregation 正式进入产品
2027: LP35 + NVFP4, Rubin Ultra 兼容; AI 推理市场规模向 2000 亿美元逼近[49]; 超大规模自研 + ASIC + GPU 三分天下
2028+: LP40 随 Feynman 架构; 推理 ASIC 的市场份额预计从 2025 年的 ~5% 增长至 2030 年的 ~20-30%

参考来源

Groq - Wikipedia. https://en.wikipedia.org/wiki/Groq
Williams, W. (Feb 2024). “Groq’s ultrafast LPU could well be the first LLM-native processor”. TechRadar Pro.
Abts, D.; Ross, J.; et al. (May 2020). “Think Fast: A Tensor Streaming Processor (TSP) for Accelerating Deep Learning Workloads”. ISCA 2020. doi:10.1109/ISCA45697.2020.00023
Groq (Feb 2024). “Groq LPU Inference Engine Crushes First Public LLM Benchmark”. groq.com/blog.
Introl Blog (Jan 2026). “Groq LPU Infrastructure: Ultra-Low Latency AI Inference Guide 2025”.
Nellis, S. (Dec 2025). “Nvidia, joining Big Tech deal spree, to license Groq technology, hire executives”. Reuters.
Silberling, A. (Dec 2025). “Nvidia to license AI chip challenger Groq’s tech and hire its CEO”. TechCrunch.
James, L. (Mar 2026). “How Nvidia’s $20 billion Groq 3 LPU deal reshapes the Nvidia Vera Rubin Platform”. Tom’s Hardware.
LinkedIn. “Jonathan Ross — Chief Software Architect @ Nvidia”. linkedin.com/in/ross-jonathan.
MSN. “Jonathan Ross net worth after $20 billion Nvidia deal”.
Clark, K. (Sep 2018). “Secretive semiconductor startup Groq raises $52M from Social Capital”. TechCrunch.
King, I. (Apr 2021). “Tiger Global, D1 Lead $300 Million Round in AI Chip Startup Groq”. Bloomberg.
Wiggers, K. (Aug 2024). “AI chip startup Groq lands $640M to challenge Nvidia”. TechCrunch.
Reuters (Sep 2025). “Groq more than doubles valuation to $6.9 billion”.
Groq (Feb 2025). “Saudi Arabia Announces $1.5 Billion Expansion to Fuel AI-powered Economy with Groq”.
Silberling, A. (May 2026). “After Nvidia’s $20B not-acqui-hire, AI chip startup Groq reportedly raising $650M”. TechCrunch.
Groq (Mar 2022). “Groq Acquires Dataflow Systems Pioneer Maxeler Technologies”. PRNewswire.
TechCrunch (Mar 2024). “AI chip startup Groq forms new business unit, acquires Definitive Intelligence”.
Williams, W. (Feb 2024). “‘Feels like magic!’ — Groq’s ultrafast LPU”. TechRadar Pro.
Upadhyay, A. (Mar 2024). “The Architecture of Groq’s LPU”. Coding Confessions Blog.
Groq. “TruePoint Technology — Stop Compromising Accuracy for Performance”. GroqDocs.
SambaNova (Dec 2025). “Does reduced precision hurt? A bit about losing bits”. sambanova.ai/blog.
Abts, D.; Kimmell, G.; et al. (Jun 2022). “A software-defined tensor streaming multiprocessor for large-scale ML”. ISCA 2022. doi:10.1145/3470496.3527405
Ward-Foxton, S. (Jan 2020). “Groq’s AI Chip Debuts in the Cloud”. EETimes.
Hwang, J-S. (Aug 2023). “Samsung’s new US chip fab wins first foundry order from Groq”. Korea Economic Daily.
Groq (Aug 2025). “Inside the LPU: Deconstructing Groq’s Speed”. groq.com/blog.
GroqChip Processor Product Brief v1.7 (PDF). groq.sa.
The Register (Mar 2026). “A closer look at Nvidia’s Groq-powered LPX rack systems”.
Awesome Agents (Mar 2026). “Groq LPU — Deterministic Inference at Scale”.
Silicon Analysts (Dec 2024). “Nvidia vs Groq: The Inference Acceleration Battle”.
Markaicode (Jun 2026). “Groq Mixtral H100 Throughput: 480 tok/s on Llama 3 70B”.
Groq (Mar 2024). “Groundbreaking Gemma 7B Performance running on the Groq LPU Inference Engine”.
Markaicode. “Mistral Large on A100 vs Groq LPU: VRAM Benchmark”.
Beebom. “Meet Groq, a Lightning Fast AI Accelerator that Beats ChatGPT & Gemini”.
Markaicode. “Groq vs vLLM on H100: Phi-3 Throughput Hits 3,200 Tokens/Sec”.
Li, Z. “Groq’s Deterministic Architecture is Rewriting the Physics of AI Inference”. Medium.
Silicon Analysts. “Nvidia vs Groq: Cost Analysis Hardware Pricing”.
Groq. “GroqRack Compute Cluster”. groq.com/groqrack.
Groq On-Demand Pricing. https://groq.com/pricing
TokenMix Blog (Apr 2026). “Groq API Pricing 2026: Free Tier, $0.05/M Paid Models”.
The Information (Jul 2025). “Groq slashes 2025 revenue projections to $500 million”.
Investing.com (Jul 2025). “Groq slashes 2025 revenue projections to $500 million”.
TrendForce (Jul 2025). “Groq Cuts 2025 Revenue Projection by USD 1.5B”.
Sacra. “Groq revenue, valuation & funding”. sacra.com/c/groq/.
Latka. “Groq Revenue 2025: $172.5M ARR”. getlatka.com.
Sacra (Feb 2026). “Equity Research Groq” (PDF).
Data Center Dynamics (Feb 2025). “Groq secures $1.5bn from Saudi Arabia”.
Reuters (Jul 2025). “AI chip startup Groq discusses $6 billion valuation”.
Silicon Analysts (Apr 2026). “AMD vs NVIDIA AI GPU Market Share 2026”.
Digitimes (Apr 2026). “Nvidia and OpenAI both make US$20 billion bets on AI chip startups”.
TrendForce (2026). “Custom ASIC shipments from cloud providers growing 44.6% in 2026”.
CNBC (Dec 2025). “Nvidia-Groq deal is structured to keep ‘fiction of competition alive,’ analyst says”.
Cryptonomist (Apr 2026). “NVIDIA pairs Rubin GPUs with Groq LPU to cut latency, boost inference”.

1. 概述#

2. 历史沿革与创始背景#

2.1 创始人与 TPU#

2.2 融资历程#

2.3 关键收购#

2.4 早期战略: 从 CNN 到 LLM 的意外转型#

3. 技术架构深度解析#

3.1 设计哲学: 确定性优先#

3.2 TSP 功能切片微架构#

3.3 流式执行模型#

3.4 编译器与 ISA#

3.5 TruePoint 数值精度#

3.6 多芯片扩展: 软件定义的张量流式多处理器#

4. 代际演进与规格对比#

4.1 完整代际规格表#

4.2 Groq 3 LPX 系统规格#

4.3 与 NVIDIA GPU 的架构对比#

5. 性能基准与能效分析#

5.1 推理延迟与吞吐#

5.2 延迟确定性#

5.3 能效#

6. GroqCloud 平台与定价模型#

6.1 支持模型与定价#

7. 商业模式与财务分析#

7.1 收入预期演变#

7.2 关键财务指标#

7.3 累计融资#

7.4 沙特协议#

8. 竞争格局分析#

8.1 推理芯片全景#

8.2 核心竞争对手对比#

8.3 Cerebras: 最直接的比较#

8.4 行业整合浪潮#

9. NVIDIA 收购#

9.1 交易结构#

9.2 五层战略分析#

9.3 市场反应#

10. 局限、争议与未解决问题#

10.1 SRAM 容量天花板#

10.2 不支持训练#

10.3 TruePoint 精度争议#

10.4 生态系统局限#

10.5 独立实体#

11. 总结与未来展望#

11.1 核心贡献#

11.2 关键启示#

11.3 展望 (2026-2030)#

参考来源#