1. 概述

晶圆级集成(Wafer-Scale Integration, WSI)并非 Cerebras 的原创概念。1980 年,IBM 大型机之父 Gene Amdahl 创立 Trilogy Systems,试图将整片晶圆制造为单一处理器。Trilogy 从 IBM、Sperry Rand 等机构融资 2.3 亿美元——当时硅谷历史上规模最大的创业融资——但在原型测试阶段,整片晶圆在通电后短路并烧至发出暗红色光,金属布线离层,散热方案完全失效。加上一次毁灭性的 Fab 水灾和公司总裁的突然去世,Amdahl 本人在一次车祸中重伤,Trilogy 在创建 5 年后以彻底失败告终。同一时期,德州仪器、ITT 和美国国家安全局(NSA)均尝试过 WSI 路线,但共同结论是:要制造商用晶圆级芯片,需要 99.99% 的制造良率——这在当时被认为至少 100 年内不可能实现。

Cerebras Systems 由 SeaMicro 核心团队(Andrew Feldman、Gary Lauterbach、Michael James、Sean Lie、Jean-Philippe Fricker)于 2015 年创立。SeaMicro 曾在 2007 年以高密度低功耗微服务器设计闻名,2012 年被 AMD 以 3.34 亿美元收购。该团队对如何用非常规架构解决系统级瓶颈有深刻理解——这种基因直接延续到了 Cerebras 对 WSI 的技术路线选择上。

Cerebras 在以下五个维度上提供了此前所有 WSI 尝试未能给出的工程解法[6][8]:缺陷容忍与良率控制、晶圆级跨 die 互连(reticle stitching)、热膨胀系数机械补偿、垂直供电架构、以及高流速直接液冷散热。这使得自 1980 年代以来悬浮于理论探讨中的 WSI 首次成为可量产的商业现实。

截至 2026 年,Cerebras 已推出三代 Wafer-Scale Engine(WSE-1/2/3),构建了从单芯片 CS-3 系统到 2,048 节点集群的完整产品线,2026 年 5 月 14 日在纳斯达克完成 IPO(代码: CBRS),以每股 185 美元募资 55.5 亿美元,首日开盘价 350 美元,全摊薄估值约 488 亿美元[15][17],成为自 2019 年以来美国最大的科技 IPO。


2. 产品演进: 从 WSE-1 到 WSE-3

2.1 三代晶圆级引擎核心参数对比

自 2019 年推出首款 WSE 以来,Cerebras 以约两年为周期推动技术代际跨越。制程从 TSMC 16nm 演进至 5nm,晶体管数从 1.2 万亿增长至 4 万亿,核心算力从 47 PFLOPS 跃升至 125 PFLOPS。以下为三代 WSE 与 NVIDIA H100 的全面物理参数对比:

规格参数 WSE-1 (2019) WSE-2 (2021) WSE-3 (2024) NVIDIA H100 (对照)
制程工艺 TSMC 16nm TSMC 7nm TSMC 5nm TSMC 4N
晶圆/裸片面积 46,225 mm² 46,225 mm² 46,225 mm² 814 mm²
晶体管数量 1.2 万亿 2.6 万亿 4.0 万亿 800 亿
AI 优化核心数 400,000 850,000 900,000 16,896 (CUDA cores)
板载内存 (SRAM) 18 GB 40 GB 44 GB 0.05 GB (L2 缓存)
片上内存带宽 9 PB/s 20 PB/s 21 PB/s ~0.003 PB/s (HBM3)
片上互联带宽 100 Pb/s 220 Pb/s 214 Pb/s 0.0576 Pb/s (NVLink)
FP16 峰值算力 47 PFLOPS 75 PFLOPS 125 PFLOPS ~2 PFLOPS
系统产品 CS-1 CS-2 CS-3 DGX H100

2.2 代际演进中的关键变化

WSE-1 (2019): 首代商业化晶圆级芯片,将 400,000 个核心和 1.2 万亿晶体管集成在 16nm 制程上。18 GB 片内 SRAM 提供 9 PB/s 带宽,47 PFLOPS 算力。CS-1 系统为 19 英寸机架式设备,证明了 wafer-scale 路线的商业可行性。首批客户为 GlaxoSmithKline、AstraZeneca 等生命科学机构和美国国家实验室。

WSE-2 (2021): 制程跳至 7nm,晶体管数翻倍至 2.6 万亿,核心数增至 850,000 个。40 GB SRAM 配合 20 PB/s 带宽,将算力推至 75 PFLOPS。WSE-2 进入计算机历史博物馆展览,被命名为 The Biggest Chip In the World。CS-2 系统首次支持训练超过 120 万亿参数的模型,并支撑了 Andromeda(16 台并联,1 ExaFLOP)和 Condor Galaxy 系列超算。

WSE-3 (2024): 5nm 制程,4 万亿晶体管,900,000 核心,44 GB SRAM(SRAM 增长趋于饱和——从 WSE-2 到 WSE-3 仅增长 10%,而晶体管数增长 54%),21 PB/s 带宽,125 PFLOPS。CS-3 以 15U 机箱、23 kW 功耗实现了与 WSE-2 相同的功耗下性能翻倍[2][4]。被 Time 杂志评为 2024 年最佳发明。

2.3 CS-3 系统规格

规格项 参数
处理器 WSE-3 (5nm, 4 万亿晶体管, 900,000 核心)
峰值算力 125 PFLOPS (FP16)
片内存储 44 GB SRAM (21 PB/s 带宽)
外部存储扩展 MemoryX (1.5 TB ~ 1.2 PB)
集群扩展上限 2,048 节点 (256 ExaFLOPs)
散热 专有水冷 (100 L/min, 20 C)
功耗 ~23 kW
外形 15U 机架
模型容量 最高 24 万亿参数

2.4 Condor Galaxy 超算网络

Cerebras 与阿布扎比 G42 集团合作部署 Condor Galaxy(CG)系列超算:

系统 公布时间 峰值算力 晶圆核心数 地点
CG-1 2023 年 7 月 4 ExaFLOPs 5,400 万 美国
CG-2 2023 年 11 月 4 ExaFLOPs 5,400 万 美国
CG-3 2024 年 3 月 (动工) 8 ExaFLOPs 5,800 万 达拉斯
全网络聚合 - 16 ExaFLOPs 1.66 亿 跨区域

2.5 科学计算标杆: 分子动力学模拟

在与桑迪亚国家实验室、劳伦斯利弗莫尔国家实验室(LLNL)、洛斯阿拉莫斯国家实验室(LANL)及美国国家核安全局(NNSA)的合作中,研究人员在 WSE-2 上成功模拟了 800,000 个原子间的高精度相互作用[3][20]。该模拟以 1 飞秒(10 的 -15 次方秒)为步长进行计算,在 WSE-2 上单步耗时仅为微秒级别,其速度大幅超越了当时基于传统节点构建的世界第一超算 Frontier,体现了晶圆级架构对强耦合物理系统仿真中极致局部实时反馈需求的天然硬件适配性。


3. 光罩极限的突破: 划片槽缝合与晶圆级光刻工艺

3.1 物理约束: Reticle Limit

半导体光刻工艺的核心限制来自光学镜头的视场(Field of View)。当前主流的深紫外(DUV)和极紫外(EUV)光刻机,单次曝光所能印刷的最大图案面积受限于 reticle(掩模版)的物理尺寸——通常为 26 mm x 33 mm,约 858 mm²。这意味着无论采用何种设计,任何单次曝光形成的裸 die 物理面积均无法超越这一极限。传统芯片制造商通过步进重复(Step-and-Repeat)工艺在晶圆上多次曝光同一图案,随后沿划片槽(Scribe Lines)机械切割,将晶圆分割为数十至数百个独立芯片。

3.2 Reticle Stitching 工艺细节

TSMC 在一张 300 mm 晶圆上执行标准的 step-and-repeat 光刻,共印刷 84 个完全相同的 die(每个约 858 mm²,排列为 8x10.5 网格)。与传统工艺不同的是,Cerebras 在标准曝光完成后,增加额外的光刻步骤,在上层金属层中制造跨越划片槽区域的微型金属导线。这些导线长度小于 1 mm,运行在片内金属化层级的中上层,将 84 个 die 的片内互联网络(2D Mesh Fabric)物理连接为单一连续平面。

该跨 die 互连系统包含超过 100 万条导线,协议栈层面内置了针对缺陷导线的冗余机制(备用导线 + 自动绕行)。从编译器和软件视角看,这 84 个 die 的边界完全不存在——整个晶圆呈现为一个统一的、连续的 2D Mesh 计算平面。

技术代价: Reticle stitching 增加了光刻掩模版数量和生产步骤,晶圆的制造成本高于普通 GPU 晶圆。但 Cerebras 的论点在于,这一额外成本被晶圆级集成所消除的片外封装、片间互联和系统集成成本所抵消。

3.3 核心微观设计: 单核心 0.05 mm² 的物理意义

WSE-3 的单个 AI 优化核心面积为 0.05 mm²——这约为 NVIDIA H100 中一个流式多处理器(SM,约 6 mm²)面积的 1/120。这一极小的核心尺寸具有多重物理意义:

  • 缺陷代价最小化: 在给定缺陷密度下,一个缺陷只会令 0.05 mm² 的硅面积失效,而非 6 mm²——缺陷经济成本降低 120 倍
  • 细粒度冗余: 在固定硅面积内,可以集成远超需求的物理核心数,提供充裕的冗余备件
  • 短互连延迟: 核心间物理距离在数十微米量级,信号传播延迟仅为 1 个时钟周期

在这个 0.05 mm² 的微小空间内,硅面积分配大致如下: 约 50% 用于 48 KB 单周期 SRAM,其余 50% 为约 110,000 个标准门电路组成的通用张量与稀疏代数计算逻辑。单核心在 1.1 GHz 频率下峰值功耗仅为 30 mW。


4. 缺陷容忍与良率

4.1 缺陷密度的物理现实

TSMC 5nm 工艺的典型缺陷密度约为每 mm² 0.001 个缺陷(成熟制程数据)。在 46,225 mm² 的 WSE-3 上,这一密度转化为每张晶圆约 46 个随机物理缺陷。在传统芯片制造中,这些缺陷中的任何一个落在芯片有效区域内都会导致整个 die 报废——这就是 75 年来芯片越做越小而非越做越大的根本原因。

4.2 Cerebras 的解法: 100x 缺陷容差的三层机制

第一层: 核心微型化。 单核心 0.05 mm² 与 H100 SM 的约 6 mm² 形成核心代价不对等。在完全相同 0.001 缺陷/mm² 的缺陷密度下: WSE-3 一个缺陷以 50% 概率落在核心区域内,预期损失 0.025 mm² 硅面积;H100 一个缺陷以 99.8% 概率落在 SM 区域内,预期损失约 3 mm² 硅面积。由此折算

第二层: 物理冗余。 WSE-3 在晶圆上物理集成了 970,000 个核心,但标称启用仅 900,000 个。70,000 个额外核心(约 7.2% 物理冗余)提供了充足的备用容量。

第三层: Fail-in-Place 弹性路由。 在芯片上电初始化阶段,测试逻辑识别所有缺陷核心的位置,随后片上可重构互联网络自动绕过(bypass)失效核心,将相邻的健康核心重新映射到逻辑网格的对应位置。这一过程完全在硬件层自动完成,对软件层透明。

该三层机制的净效果: WSE-3 的有效活跃硅面积比例达到约 93%(900,000/970,000),在商业规模上获得了与切割芯片工艺相媲美的可用良率。Cerebras 的核心洞察在于: 解决良率问题不依赖减少缺陷,而在于使每个缺陷的经济代价趋于零。


5. 微观核心架构与片上数据流网络

5.1 计算核心的内部结构

每个 WSE 核心内部包含:

  • 48 KB 单周期 SRAM,采用 8-Bank 分割架构(每 Bank 6 KB,位宽 32-bit),支持每时钟周期同时执行 2 次 64-bit 读取 + 1 次 64-bit 写入无冲突访问
  • 256 字节软件管理高速缓存,专门存储累加器等高频变动数据结构
  • 110,000 标准门电路组成的计算逻辑,支持张量乘加和稀疏矩阵运算
  • 指令集原生稀疏触发: 当检测到输入权重为零时,自动跳过乘加操作,在处理高稀疏度大语言模型时获得数倍等效加速

5.2 片上互联网络架构

WSE 构建了基于 2D Mesh 拓扑的高速互联网络。每个核心集成一个 5 端口结构路由器(东、西、南、北、本地),支持双向 32-bit 单周期数据传输。每个物理传输包由 16-bit 计算数据 + 16-bit 索引数据组成,完美适配稀疏矩阵计算的坐标寻址需求。

网络通信在硬件层分为 24 种可独立配置的静态路由色彩(Color)。每种色彩拥有硬件隔离的专用缓冲队列,通过时间复用(Time-Multiplexing)共享物理总线进行非阻塞传输。片上 Fabric 原生支持硬件级单周期广播与多播(Broadcast/Multicast)。由于核心间物理连线仅数十微米,跨核心信号延迟仅为 1 个时钟周期(约 0.9 ns at 1.1 GHz)。

与 GPU 的架构本质差异: WSE 采用数据流架构(Dataflow Architecture)——数据到达驱动计算。32-bit wavelet(小波)消息在 2D 网格中传输,wavelet 的 5-bit 色彩标签决定路由路径和触发任务。当 wavelet 到达某色彩通道时,绑定任务发射执行。若权重为零,则不发射 wavelet,实现非结构化稀疏加速。相比之下,GPU 采用控制流架构(SIMT/Warp)——程序计数器驱动执行,所有 32 个线程在同一 warp 中执行同一指令,无法跳过零值计算。

5.3 片内存储层级架构

层级 介质 容量 聚合带宽 延迟 物理位置
L0 - 寄存器 核心私有 256 B 5.3 TB/s (单核心峰值) 1 cycle 核心内
L1 - SRAM 核心私有 48 KB x 900,000 = 44 GB 21 PB/s (全片聚合) 1 cycle 核心内
L2 - MemoryX DRAM + Flash 1.5 TB ~ 1.2 PB 专有协议 较高 外部机柜
L3 - SwarmX 交换网络 集群级 广播/归约硬件加速 依赖拓扑 集群互联

WSE-3 片内 44 GB SRAM 的 21 PB/s 聚合带宽,从根本上改变了算力经济。对比 H100 HBM3 的 3 TB/s,差距为 7,000 倍。更关键的是,SRAM 带宽随容量线性增长(每个 bank 可被相邻计算单元并行读取),而 HBM 带宽受限于物理 channel 数——这是架构性差异,非单纯工艺进步可弥补。


6. 供电、热管理与热膨胀机械补偿工程

6.1 供电挑战: 23 kW 下的电压一致性

WSE-3 满载额定功耗为 23 kW,工作电压约 0.8-0.9V(sub-volt 级别),要求持续注入约 28,750 至 30,000 安培的电流。在传统的水平二维供电架构中,电能从芯片边缘通过 PCB 横向母线输送。由于金属布线存在物理阻抗,30 kA 级别电流横跨 215 mm 晶圆时将产生灾难性 IR Drop——理论上边缘到中心的压降高达 9.6V,而芯片工作电压仅为 1V,中心区域核心根本不可能点亮。

解法: 三维垂直供电(Vertical Power Delivery)。 Cerebras 在晶圆正后方放置定制多层高密度电源分配 PCB,嵌入 300 余个高频降压电源模块(VRM)。电流沿垂直于晶圆表面的方向、以仅数毫米的物理距离直接投射至每个核心背部的微型电学触点上。84 个 die 区域每区独立调节电压,彻底消除横向 IR Drop。整个供电网络封装在被称为引擎模块(Engine Block)的四层物理夹层中: 冷板、晶圆、定制弹性连接器、电源 PCB。

6.2 热膨胀系数错配与机械补偿

系统面临的核心封装难题来自异质材料的热膨胀系数(CTE)错配:

材料 CTE (ppm/C) 65 C 温升下的边角位移 (215 mm x 215 mm)
2.6 ~36 µm
FR-4 PCB 15 (横向) ~210 µm
铜(冷板) 17 ~238 µm

PCB 在 65 C 温升下的膨胀幅度是硅的约 5.8 倍。对于传统封装(BGA、倒装芯片、引线键合),122 µm 的边角相对位移(PCB vs 硅)已超过其失效阈值 5-7 倍。

解法: 联合创始人 Jean-Philippe Fricker 领导设计了定制的合规弹性体连接器(Compliant Elastomeric Connector)。该连接器夹在晶圆与 PCB 之间,在垂直方向保持良好导电性,在水平剪切方向具备高物理韧性与形变回弹性。当温差导致 PCB 膨胀超过硅时,弹性连接层通过微观物理剪切形变吸收所有剪切应力,确保数十万个电源与信号引脚的接触可靠性。

此外,在冷板与晶圆背面之间嵌入动态滑动热界面材料(Ambulating Thermal Interface, ATI),由高导热物料与物理减摩材料叠合而成,允许水冷铜板在热形变时与硅表面发生微米级无损水平滑动,避免应力传递导致硅片物理碎裂。

没有现成自动化设备能精确处理如此大面积且脆弱的异质三维层叠组件。Cerebras 从零设计并制造了专用高精度对准与压力装配机台,完成晶圆级组件的机械结构闭环。

6.3 液冷散热系统

系统采用直接接触液冷(Direct-to-chip Liquid Cooling)。双冗余工业高压水泵以 100 +/- 10 L/min 的流速,将 20 +/- 2 C 的冷却水注入贴合晶圆表面的黄铜歧管冷板。冷板内部加工有微鳍片通道,最大化热交换表面积。

机房层面部署行级(Row-based)与机架级(In-rack)高精度流体歧管控制,数字监控流量和压力,杜绝死区(Stagnant Zones)。CSoft 软件层在无计算负载时运行动态占空哑操作(Power Ramp Smoothing via Dummy Operations),将功率陡峭度平抑在电学安全范围内,防止电压瞬间剧烈变动对晶圆级系统造成潜在物理损伤。


7. CSoft 编译管道与执行模式

7.1 编译器层级结构

Cerebras CSoft 软件平台的核心是 Cerebras Graph Compiler(CGC),负责将 PyTorch/TensorFlow 计算图无损映射至 900,000 个核心的物理网格。编译管道遵循逐层 Lowering 逻辑:

PyTorch 模型 – Lazy Tensor Backend (ATen 算子图捕获) – XLA HLO (高级优化自定义调用) – CIRH (Cerebras IR High, MLIR 方言, 全图级 rewrite passes) – 算子深度融合、常量折叠、公共子表达式消除、死代码剪枝 – 预置手写高性能内核库模式匹配 –【匹配成功】直接生成优化指令 –【匹配失败】CLAIR/LAIR (低级线性代数 IR) – AutoGen 自动内核编译器 – 多面体空间变换数学优化 – 2D 核心拓扑感知放置 – 8-Bank SRAM 分配 – 最终物理指令机器码

AutoGen 内核编译器支持 default、disabled、medium、aggressive 四级策略,为定制化开发提供自适应内核通用性。

关键约束: 计算图必须是静态图(Static Graph)——不支持动态形状或数据依赖的分支。编译时路由表针对 900,000 个核心一次性固定。

7.2 两种执行模式

图层流水线模式 (Layer-Pipelined) - 模型完全驻留片上:

flowchart LR
    Input[输入数据流] --> L1[WSE 分区 1
Layer 1] L1 --> L2[WSE 分区 2
Layer 2] L2 --> Ldots[...] Ldots --> LN[WSE 分区 N
Layer N] LN --> Output[输出]

特点: 模型参数完全驻留片上,多个微批次在晶圆上空间交错并发运行。编译器需解决 VLSI 平面规划——Cerebras 在 ISPD 2020 上证明为 NP-hard 的问题。适用于模型参数 <= 44 GB SRAM 的场景。

权重流模式 (Weight Streaming) - 当前默认:

flowchart LR
    subgraph MemoryX[外部 MemoryX 存储]
        W1[Layer 1 权重]
        W2[Layer 2 权重]
        WN[Layer N 权重]
    end
    W1 --> WS[WSE 全片
900,000 核心
单层计算] W2 --> WS WN --> WS WS --> Grad[梯度回传] Grad --> MemoryX

特点: 整片晶圆同时处理单层。权重驻留于外部 MemoryX(DRAM + Flash,最高 1.2 PB),按层序流式传输至晶圆。所有 900,000 个核心处理单一层,激活值留在片内,权重在计算完成后丢弃。扩展到 2,048 个系统仅需修改单一标志位。

7.3 软件复杂度的量级差异

在 GPU 集群上训练 1,750 亿参数大模型,通常需要 ~20,000 行分布式训练代码(Tensor Parallelism + Pipeline Parallelism + FSDP + DeepSpeed + Megatron-LM 的组合)。Cerebras 声称同等规模仅需 565 行 PyTorch 代码,训练 1 万亿参数模型的软件复杂度与 GPU 上训练 10 亿参数模型相当——这是一项经常被低估的竞争优势。

7.4 开发者接口

  • AI 推理用户: OpenAI 兼容 API,无学习成本
  • 模型训练用户: 标准 PyTorch / TensorFlow 框架,CSoft 接管底层
  • HPC 开发者: CSL SDK——基于 Zig 的 DSL,允许对单个核心编程、手动配置路由表、在 48 KB 中适配代码和数据。无线程概念、无共享内存、无 kernel launch,但也无需处理同步和竞态

8. 晶圆级超级计算机集群体系

8.1 集群组件

组件 功能 规格
CS-3 单系统计算单元 15U, 23 kW, 125 PFLOPS
MemoryX 外部权重存储节点 1.5 TB ~ 1.2 PB
SwarmX 集群交换网络 硬件级 Broadcast + 梯度 Reduce/Sum
CSL 集群互联拓扑 最高 2,048 节点, 256 ExaFLOPs
AI400X2 并行文件存储 90+ GB/s 持续带宽, 300万+ IOPS

8.2 DARPA 共封装光学项目

Cerebras 在 DARPA 资助下与 Ranovus 合作开发晶圆级共封装光学(Co-Packaged Optics)。目标是将 Ranovus 的光纤收发器直接贴装在晶圆边缘,以多波长多模光纤网络替代传统电学片外互联。该方案能提供普通 CPO 方案 100 倍以上的数据吞吐容量,同时大幅降低集群参数传递功耗。


9. 晶圆级架构与 NVIDIA GPU 集群

9.1 系统级物理规格对比

评估维度 Cerebras CS-3 NVIDIA B200 (单卡) NVIDIA DGX B200 (8卡节点) NVIDIA GB200 NVL72 (整机柜)
核心物理形态 单晶圆集成 (15U 机箱) 双 die 桥接 (SXM 模块) 8 卡并联 (10U 机箱) 72 卡高密并联 (整机柜)
FP16 峰值算力 125 PFLOPS 4.4 PFLOPS 36 PFLOPS 360 PFLOPS
板载内存容量 44 GB SRAM (片上) 192 GB HBM3e 1.5 TB HBM3e 13.5 TB HBM3e
内存访问带宽 21,000 TB/s (21 PB/s) 8.0 TB/s 64 TB/s 576 TB/s
片间通信性能 片内金属走线,零外部损耗 SXM 物理插槽 NVSwitch 片上路由 9 组高速铜缆 + 光交换
最大额定功耗 ~23 kW ~1,200 W ~14.3 kW ~120 kW
机架空间 15U 单插槽 10U 42U
LLM 训练编程复杂度 纯数据并行,~565 行代码 不适用 张量/流水线/FSDP 组合 极度复杂的网络拓扑配置

9.2 训练部署: 参数规模 vs 物理需求

模型参数规模 GPU 集群需求 (B200) Cerebras CS-3 需求
1,000 亿 (100B) >=12 颗 B200 + NVSwitch + InfiniBand 1x CS-3 + 2.4 TB MemoryX
1 万亿 (1T) 数百颗 B200 + 光纤互联集群 1x CS-3 + 1.2 PB MemoryX
10 万亿 (10T) 1,000+ 台 B200 服务器 1x CS-3 + 1.2 PB MemoryX

9.3 推理: Roofline 模型分析

LLM token 生成(decode)阶段的算术强度公式: 算术强度 = FLOPs / Bytes 约为 1 FLOP/byte。脊点(Ridge Point)= 峰值 FLOPS / 峰值内存带宽。

芯片 FP16 峰值 内存带宽 Ridge Point Decode 算术强度 状态
H100 989 TFLOPS 3.35 TB/s 295 FLOP/byte 1 FLOP/byte 99.7% 计算单元闲置
B200 4.4 PFLOPS 8 TB/s 550 FLOP/byte 1 FLOP/byte >99.8% 闲置
WSE-3 12.5 PFLOPS 21 PB/s 0.6 FLOP/byte 1 FLOP/byte 计算约束

WSE-3 是唯一在批大小(Batch-1)下 decode 阶段即为计算约束的芯片。这意味着每个单用户请求即可获得充分的硬件利用率,无需 GPU 被迫依赖大批次运行来摊销 HBM 权重读取开销。

实测推理性能对比(独立基准):

模型 Cerebras CS-3 NVIDIA DGX B200 优势倍数
Llama 4 Maverick (400B) 2,500+ tok/s/user[7][12] ~1,000 tok/s/user 2.5x
gpt-oss-120B (10 并发) 2,700+ tok/s 580 tok/s 4.7x
DeepSeek R1 70B 1,600 tok/s - -
Perplexity Sonar 1,200 tok/s - -

9.4 推理 TCO 对比

Cerebras CS-3 价格约 200-300 万美元/节点。DGX B200(8x B200)约 30 万美元。但 Cerebras 声称: 在同等在线 token 生成负荷下,CS-3 的综合 TCO(硬件 CapEx + 电力 OpEx)比 DGX B200 低约 32%,同时交付快 21 倍的单 token 交互速度。这一定价逻辑的核心在于: 一片 CS-3 在推理吞吐上等效于多台 DGX B200,且省去了 InfiniBand 网络、多机架空间和集群管理软件的巨额隐性成本。


10. I/O 瓶颈

10.1 I/O 瓶颈: 133,000x 的差距

片内 SRAM 带宽: 21 PB/s。片外 MemoryX/网络 I/O: 约 150-200 GB/s。差距: 约 133,000 倍。

对于适配 44 GB SRAM 的模型,这不成问题——所有数据在片内循环。但主流大语言模型正快速超越这一容量(Llama 4 Maverick 400B 在 FP16 下就需要 800 GB 权重)。WS 模式下,每层从 MemoryX 流式加载权重的速度受限于片外带宽,I/O 成为瓶颈。

Cerebras 与 AWS 的合作方案——Trainium 负责 Prefill,Cerebras 负责 Decode——本质上是对芯片在 Prefill(计算约束阶段)效率不足的直接承认。

10.2 SRAM 密度增长停滞

高密度 SRAM bitcell 的面积在 5nm 至 3nm 乃至 2nm 节点已基本停滞在约 0.021 µm²。SRAM 缩放面临物理极限(6T cell 的漏电和稳定性约束)。同期 HBM 正从 HBM3(~5 Gb/s/pin)迈向 HBM4(8+ Gb/s/pin),且堆叠层数从 12 层增长至 16 层,容量正朝 2028 年 1+ TB 的方向发展。Cerebras 的 SRAM 容量优势将在 2-3 代后面临结构性挑战。

10.3 未公开的吞吐交叉点

Cerebras 的惊呼级 tok/s 数据是单用户速度。GPU 通过批处理用户(Batch Processing)提升聚合吞吐量——同一权重读取为多个并发用户服务: 批大小 10-20 时,单 H100 的聚合吞吐可能已与单 CS-3 持平;批大小 128+ 时,DGX H100 系统以显著较低的硬件成本产生数千聚合 tok/s。Cerebras 从未在高并发场景下公布其聚合吞吐量。这是公开材料中最重要的缺失数据点。


11. 商业闭环、资本版图

11.1 收入增长轨迹

年份 收入 YoY 增长 关键驱动
2022 0.246 亿美元 - 生命科学客户早期部署
2023 0.787 亿美元 220% CS-2 开始出货
2024 2.903 亿美元 269% CG-1/2 交付 + G42 预付款发力
2025 5.10 亿美元 76% MBZUAI 大单 + 推理云启动

季度趋势加速明显: Q1 2025 为 0.995 亿美元,Q4 2025 达到 1.714 亿美元(年化约 6.86 亿美元)。

11.2 GAAP 利润的拆解: 纸面收益 vs 实质亏损

指标 2024 2025 变动
GAAP 净收入(亏损) (4.816 亿美元) 2.378 亿美元 扭亏为盈
包含: 远期合约负债消灭一次性非现金收益 - 3.633 亿美元 纸面调节
股权激励(SBC) - 0.498 亿美元 实际现金支出
Non-GAAP 经营性净亏损 (0.218 亿美元) (0.757 亿美元) 亏损扩大 247%
经营现金流 4.52 亿美元 (0.1 亿美元) 由正转负

关键洞察: 2025 年 2.378 亿美元的 GAAP 净利润为纸面利润,由对 G42 远期采购合同负债的资本重组产生的一次性非现金收益所驱动。剔除后,Non-GAAP 经营性亏损从 2,180 万美元扩大至 7,570 万美元——亏损放大了 247%。经营现金流由正转负的原因: 2024 年包含 G42 6.403 亿美元客户预付款(计入经营现金流良好),2025 年正向预付款减少且正在交付此前已预售的产能。

11.3 毛利率结构

业务线 2024 2025 Q1 2025 Q2 2025 Q3 2025 Q4 2025
综合毛利率 42% 39% - - - -
硬件毛利率 - 43% - - - -
云服务毛利率 - 30% 68% 26% 16% 21%

云毛利率从 Q1 的 68% 暴跌至 Q3 的 16%,反映新建数据中心容量利用率严重不足。Cerebras 正在从高毛利的硬件销售模式转向低毛利的云服务模式(OpenAI 合同的商业模式),这一结构性转变的毛利率收敛程度将决定公司长期盈利中枢。

11.4 IPO 定价史

日期 事件 价格区间/定价 备注
2025.10 首次机密 S-1 提交 终止 因 CFIUS 审查搁浅
2026.05.04 修正 S-1 公开 115-125 美元 2,800 万股
2026.05.10 首次上调 125-135 美元 认购超预期
2026.05.11 二次上调 150-160 美元 3,000 万股
2026.05.13 最终定价 185 美元 20x 超额认购
2026.05.14 首日开盘 350 美元 较定价 +89%
2026.05.14 首日收盘 311 美元 全摊薄估值 ~488 亿美元

从 pre-IPO 二级市场(Hiive)交易均价 187.53 美元 到 IPO 定价 185 美元 的一致性,侧面印证了市场对 Cerebras 非同质化 AI 处理器概念的高度预期。

11.5 融资历史

时间 轮次 金额 每股 隐含估值
2016.5 Series A 0.27 亿美元 - -
2018.11 Series D 0.88 亿美元 - 独角兽
2019.11 Series E 2.70 亿美元 - 24 亿美元
2021.11 Series F 2.50 亿美元 - 40 亿美元以上
2024.7-9 Series F-1 0.85 亿美元 14.66 美元 -
2025.9 Series G 11 亿美元 36.23 美元 81 亿美元
2026.1 Series H 10 亿美元 89.01 美元 -
2026.5.14 IPO 55.5 亿美元 185 美元 开盘 ~488 亿美元

从 Series H(89.01 美元)到 IPO(185 美元)仅隔 4 个月,涨幅 108%。从 Series F-1(14.66 美元)到 IPO(185 美元)在 22 个月内涨幅 1,162%。

11.6 OpenAI 协议的关键条款

  • 合同总值: ~200 亿美元以上(对外公开表述为 100 亿美元基础 + 可追加至 2 GW)
  • 算力规模: 750 MW(基础),最高 2,000 MW(可选)
  • 模式: 纯云容量订阅(非硬件销售)
  • 运营贷款: OpenAI 向 Cerebras 提供 10 亿美元流动资金贷款
  • 股权: OpenAI 获权证认购 Class N 非投票权普通股,在完成特定算力部署里程碑后可持有最高 10% 的 Cerebras 企业股权
  • 排他条款: 合同限制 Cerebras 向 Anthropic 销售产品

11.7 AWS Bedrock 合作

CS-3 系统作为底层算力引擎深度集成至 AWS Bedrock 托管推理服务,Trainium 处理 Prefill,Cerebras 处理 Decode。该合作为 Cerebras 打通了面向数十万中小商业客户和企业级开发者的合规商业通路,同时将最大的地缘集中度国别风险(阿联酋单一客户依赖)完成了实质性的美国本土化替代。


12. 客户集中度、地缘风险与竞争格局

12.1 客户集中度数据

客户 2024 收入占比 2025 收入占比 2025 应收账款占比 性质
G42 85% 24% - 阿联酋科技控股,战略投资者
MBZUAI 未成规模 62% 77.9% 阿联酋 AI 大学,G42 关联方
合计 85% 86% - 两客户合计占总收入 86%

12.2 G42 关系的多面性

G42 同时是 Cerebras 的客户(购 6.4 亿美元预付款)、供应商(算力合作)、合作伙伴(CG 系列超算联合运营)、投资者(Series G/H 参与 + 持有 350 万股)以及关联方(ASC 850 定义)。G42 在 2024 年获得以每股 0.01 美元行权的 1,857,516 股 Class N 普通股权证。

12.3 OpenAI 权证的争议条款

OpenAI 以每股 0.01 美元 的象征性价格(几乎为无偿)获得 3,340 万股权证——与 IPO 价格 185 美元、Series H 价格 89.01 美元 形成极端对比。该权证的价值转移规模在 30 亿美元至 60 亿美元之间(取决于市场价格),在历史上极为罕见。

12.4 竞争格局: Cerebras vs Groq vs SambaNova

维度 Cerebras Groq SambaNova
核心思路 晶圆级集成(巨大芯片) LPU(语言处理单元) 可重构数据流架构
芯片面积 46,225 mm² 标准单芯片 标准单芯片
制程 TSMC 5nm 自主 LPU (14nm) TSMC 5nm (SN50)
内存策略 片上 SRAM 44 GB SRAM(确定性延迟) 分层可重构
核心卖点 内存带宽/训练推理双用 极低且确定的延迟 灵活的数据流编程
融资/估值 IPO ~488 亿美元 ~10 亿美元+ 40 亿美元

12.5 NVIDIA 的结构性优势

尽管在推理延迟和内存带宽上 Cerebras 占据明确上风,NVIDIA 在以下维度的优势难以在短期内撼动:

  • CUDA 生态系统: 400 万+ 开发者、最广泛的框架支持、最成熟的模型优化库
  • 工作负载灵活性: 训练和推理使用同一硬件,支持任意模型架构
  • 供应链成熟度: 全球 OEM 系统集成商、备件市场、企业运维流程完善
  • 内存容量持续增长: HBM3e 到 HBM4 (2026) 到 2028 年 1+ TB,而 SRAM 密度增长停滞
  • 社区效应: 所有新模型首发于 CUDA/CuDNN,Cerebras 需要逐个模型人工适配

13. 总结与展望

Cerebras 的晶圆级芯片代表了自微处理器发明以来半导体工程史上一项独特成就。Gene Amdahl 在 1980 年以 Trilogy Systems 挑战 WSI 并以毁灭性失败告终,四十余年后,同一难题在五个关键维度上被给出了工程级解法——缺陷容忍、reticle stitching、热膨胀补偿、垂直供电、直接液冷——使 WSI 首次成为商业现实。

从技术角度看,WSE-3 的 21 PB/s 片内 SRAM 带宽将 LLM decode 阶段的 Ridge Point 降至 0.6 FLOP/byte,使得批大小 1 即为计算约束——这在 GPU 上是不可能的。这种架构特性在推理经济(Inference Economy)兴起的 2025-2026 年恰逢其时: 当推理超过训练成为 AI 的核心计算瓶颈时,Cerebras 的独特架构优势得以释放。

从商业角度看,Cerebras 收入从 2022 年的 2,460 万美元增长至 2025 年的 5.1 亿美元[10][13](20 倍/3 年),IPO 募资 55.5 亿美元,首日估值 488 亿美元——这是 WSI 技术路线的历史性资本验证。然而,Non-GAAP 经营性亏损从 2,180 万美元扩大至 7,570 万美元(+247%)、云毛利率从 68% 坠落至 16%、86% 收入依赖两个阿联酋关联方客户、OpenAI 以 0.01 美元/股获得 3,340 万股权证的价外条款——这些数字要求在狂热中保持冷静。

Cerebras 的技术路线不会取代 GPU,而是在一个特定的且日益重要的细分市场——大模型推理——建立了明确的竞争壁垒。未来 2-3 年的关键观测点:

  1. OpenAI 200 亿美元以上 合同的实际交付节奏和毛利率
  2. 高并发场景下的 CS-3 聚合吞吐量/TCO 数据(目前缺失)
  3. SRAM 密度增长 vs HBM 容量扩展的相对赛道
  4. 共封装光学(CPO)技术的落地能否将 I/O 瓶颈从 133,000x 缩小 1-2 个数量级
  5. CFIUS 出清后有更多美国本土企业客户加入后的客户集中度变化

14. 参考来源

  1. Cerebras Official Chip Page. https://www.cerebras.ai/chip
  2. Cerebras WSE-3 Press Release (March 2024). https://www.cerebras.ai/press-release/cerebras-announces-third-generation-wafer-scale-engine
  3. Wikipedia - Cerebras Systems. https://en.wikipedia.org/wiki/Cerebras_Systems
  4. IEEE Spectrum - Cerebras WSE-3: Third Generation Superchip for AI (March 2024). https://spectrum.ieee.org/cerebras-chip-cs3
  5. arXiv - A Comparison of the Cerebras Wafer-Scale Integration Technology with Nvidia GPU-based Systems (March 2025). https://arxiv.org/html/2503.11698v1
  6. Peak FLOPS Substack - Breaking down the Cerebras Wafer Scale Engine (April 2026). https://wafer.substack.com/p/breaking-down-the-cerebras-wafer
  7. Introl Blog - Cerebras Wafer-Scale Engine: When to Choose Alternative AI Architecture (April 2026). https://introl.com/blog/cerebras-wafer-scale-engine-cs3-alternative-ai-architecture-guide-2025
  8. TechCrunch - The five technical challenges Cerebras overcame (August 2019). https://techcrunch.com/2019/08/19/the-five-technical-challenges-cerebras-overcame-in-building-the-first-trillion-transistor-chip/
  9. TechCrunch - 600 亿美元 AI chip darling Cerebras almost died early on, burning 800 万美元 a month (May 2026). https://techcrunch.com/2026/05/16/
  10. Mostly Metrics - Cerebras IPO S-1 Breakdown (April 2026). https://www.mostlymetrics.com/p/cerebras-ipo-s1-breakdown
  11. Cerebras Blog - 100x Defect Tolerance: How Cerebras Solved the Yield Problem. https://www.cerebras.ai/blog/100x-defect-tolerance-how-cerebras-solved-the-yield-problem
  12. Cerebras Blog - Cerebras CS-3 vs. Nvidia DGX B200 Blackwell (September 2025). https://www.cerebras.ai/blog/cerebras-cs-3-vs-nvidia-dgx-b200-blackwell
  13. SEC.gov - Cerebras S-1 Registration Statement (April/May 2026). https://www.sec.gov/Archives/edgar/data/2021728/000162828026025762/cerebras-sx1april2026.htm
  14. Forbes - Cerebras, Groq And SambaNova Line Up To Compete With Nvidia (October 2025). https://www.forbes.com/sites/karlfreund/2025/10/21/cerebras-groq-and-sambanova-line-up-to-compete-with-nvidia/
  15. Reuters - Cerebras shares skyrocket in debut (May 2026). https://www.reuters.com/legal/transactional/cerebras-set-debut-stock-market-gripped-by-ai-mania-2026-05-14/
  16. Sacra Research - Cerebras vs Nvidia. https://sacra.com/research/cerebras-vs-nvidia/
  17. TechCrunch - Cerebras raises 55 亿美元, then stock pops 108% (May 2026). https://techcrunch.com/2026/05/14/cerebras-raises-5-5b-kicking-off-2026s-ipo-season-with-a-bang/
  18. Chip Yield Analysis Tool - Cerebras WSE-3 Wafer-Scale Yield Analysis. https://blackyabhishek.github.io/analysis/cerebras_yield_analysis.html
  19. Cerebras Blog - Supporting PyTorch on the Cerebras Wafer-Scale Engine (April 2022). https://www.cerebras.ai/blog/supporting-pytorch-on-the-cerebras-wafer-scale-engine
  20. Cell/Device Journal - Performance, efficiency, and cost analysis of wafer-scale AI (2025). https://www.cell.com/device/fulltext/S2666-9986(25)00147-4
  21. Hot Chips 2024 - Cerebras Wafer-Scale AI Presentation. https://hc2024.hotchips.org/assets/program/conference/day2/72_HC2024.Cerebras.Sean.v03.final.pdf
  22. Cerebras Blog - How Cerebras Solved the Yield Problem. https://www.cerebras.ai/blog/100x-defect-tolerance-how-cerebras-solved-the-yield-problem
  23. Cerebras and AWS Collaboration Press Release (March 2026). https://www.cerebras.ai/press-release/awscollaboration