Cerebras 与诸小龙在推理市场的竞赛

有人问我：Cerebras到底是什么东西？

我说：你见过一个晶圆有多大吗？直径30厘米，像张煎饼。英伟达把这张晶圆切成几百块小芯片卖给你；Cerebras把整张晶圆直接做成一块芯片。

这一刀没切，就是一场革命。

2025年底，Cerebras的WSE-3在推理Llama 4 Maverick（400亿参数MoE大模型）时，跑出了每用户2,500 tokens/秒的速度——比英伟达最新旗舰DGX B200快了2倍以上。而此时，国内最强的华为昇腾910C在单卡推理测试中，速度大约是2,300 tokens/秒。

这两个数字放在一起，你就知道为什么这篇文章值得你花10分钟读完了。

一、先搞懂推理速度这件事

做AI，有两件大事：训练和推理。训练是”让模型学会知识”，是一次性的重资产投入；推理是”让模型回答你的问题”，是每天24小时不间断运行的成本中心。

过去三年，行业只谈训练，大家都在抢H100堆算力。但2026年的趋势已经反转——推理占全球AI算力消耗的比例预计将突破三分之二。你跟ChatGPT说的每一句话，都是推理在消耗算力。

推理的核心瓶颈，不是算力，是内存带宽。

简单说：GPU从外部HBM（高带宽内存）搬数据，来回太慢了。你有再多的计算核心，数据喂不进去，照样闲着。这就是著名的”内存墙”。英伟达H100的内存带宽是3.3 TB/s——已经是业界天花板，但还不够。

Cerebras的解法很暴力：不搬运，直接在芯片上存。

WSE-3把44GB的SRAM直接集成在晶圆上，内存带宽高达21 PB/s（拍字节每秒）——是H100的7,000倍。整个模型的权重就住在芯片里，推理时根本不用去外面取数据。

这就是为什么它跑推理这么快。原理不复杂，但执行难度是地狱级别的。

二、数据对决：一张表看清楚差距在哪

数据说明：各厂商推理速度因测试模型、批处理大小、精度设置不同而差异显著。Cerebras数据来自官方及第三方基准测试；国产芯片数据综合各厂商招股书、学术评测及知乎行业分析，仅供量级参考。

三、Cerebras凭什么这么快？三个字：架构不同

Cerebras的领先，不是堆料堆出来的，是路线选对了。

（1）没有”芯片间通信”这个概念

英伟达的DGX机柜要把72块B200用NVLink高速互联，协调这些芯片通信本身就是巨大的工程开销。Cerebras的WSE-3是一块芯片，900,000个计算核心直接在一个硅片上通信，延迟是皮秒级，根本不存在”多卡协调”问题。

这就是为什么WSE-3在单用户延迟（TTFT，首token时间）上表现尤其夸张——240毫秒，做到了人类感知的”即时响应”门槛之内。

（2）内存带宽的降维打击

推理是内存带宽敏感型任务。国产主流芯片里，寒武纪MLU590的2 TB/s已经算很高了，但和WSE-3的21 PB/s相比，量级上就差了一万倍。

（不要觉得这个对比不公平——这恰恰就是架构路线不同带来的根本差距。）

（3）功耗效率出人意料

WSE-3整机（CS-3系统）功耗约23kW，却可以替代”几十块H100″的推理工作量。英伟达的DGX B200功耗则高达120kW。单位算力功耗，Cerebras并不吃亏。

四、国产四小龙的推理战力

说完Cerebras，不得不说说国产这几家的战力。

华为昇腾是唯一在牌桌上的选手。

昇腾910C的FP16算力约780 TFLOPS，功耗310W，推理效能约达H100的60%——这意味着它已经超过了英伟达专门向中国供应的H20。而且CANN软件栈有800万开发者，算是国内生态最厚的。与Cerebras的差距主要在单用户低延迟场景，但在大吞吐量集群推理上并不输太多，只是有换个计算逻辑（机柜级pooling vs 单用户native）。

寒武纪是”政策股”，但技术底子在补课。

MLU590的2 TB/s带宽和80GB显存，是国内GPU架构里的技术高点。2024年Q4它才刚开始盈利，2025年前三季度已盈利16亿元，在国产芯片里算是罕见的。但对标参考物是910B而非910C——落后华为一代，更别提Cerebras。

摩尔线程和沐曦，是两家”上市了但还在爬坡”的公司。

2025年底两家同时登陆科创板，首日分别暴涨469%和569%，市值都奔着3000亿去了。（市场有时候定价的是故事，不是芯片性能。）摩尔线程的S5000完成了从GDDR6到HBM的跨越，是里程碑；但CUDA兼容层15-30%的性能损耗，是短期内无解的软件工程债。

壁仞和天数智芯，主要还是在追训练侧的蛋糕。两者核心卖点是GPU全栈能力，但推理侧尚无可与外部公开对比的系统级基准数据。

五、Cerebras的三大软肋：是个偏科生

讲了这么多Cerebras的好，也要说清楚它的短板。作为投资者，这才是真正值钱的认知。

软肋一：CUDA生态是护城河，它进不来。

全球AI工程师都在CUDA生态里。Cerebras有自己的SDK，虽然支持PyTorch和TensorFlow，但不支持原生CUDA。企业迁移成本极高。这就是为什么它只能以”API服务”的方式卖推理能力，而不是直接卖芯片给企业部署。

软肋二：晶圆级制造良率，是悬在头顶的剑。

一块WSE-3晶圆里有4万亿个晶体管。芯片越大，制造缺陷概率越高。Cerebras通过”稀疏冗余核心”技术来规避这个问题，但量产成本和良率控制，至今都是行业密谜。

软肋三：大模型规模扩展受限。

WSE-3的44GB片上SRAM，对于Llama 70B这种模型已经够用；但下一代万亿参数模型，一块晶圆根本装不下。Cerebras有”Weight Streaming”技术来处理超大模型，但这时候它的速度优势会显著收窄。

六、真正的战场：不是芯片性能，是商业模式

▶ Cerebras卖的不是芯片，它卖的是”推理即服务”（Inference-as-a-Service）。

这是它和国产四小龙竞争的本质差异。国产厂商在卖硬件（把芯片塞进数据中心）；Cerebras在卖算力订阅（你调用API，我出推理速度）。

2025年，OpenAI签了一份合同，让Cerebras为其提供750兆瓦的算力支撑直到2028年，合同估值超过100亿美元。这才是Cerebras IPO时给出266亿美元估值的底气所在。

而国产四小龙的商业逻辑完全不同：它们在吃国家政策驱动的国产化替代红利，客户是中国国有云厂商、政府智算中心，采购动机是安全合规，而不是追求极致推理速度。这两条赛道，短期内并不直接竞争。

▶ 问题是：如果Cerebras的推理速度变成行业标准，国产芯片会面临什么压力？

当中国互联网大厂出海、国内头部AI公司需要向海外用户提供低延迟服务时，”国产AI芯片”的性能势必经受市场选择的考验。这是一个3-5年后才会真正爆发的矛盾，但有心人应该现在就看清楚。

七、怎么思考这笔投资？

Cerebras即将在纳斯达克上市（代码CBRS），目标估值266亿美元，2025财年营收5亿美元，对应60倍PS。

这不是一个用传统估值框架能安心买入的价格。但如果你相信”AI推理将成为新世纪的电力基础设施”这一判断，Cerebras是迄今为止最有差异化技术路线的纯推理基础设施公司。