黄仁勋说中国市场归零,马斯克的GPU在摸鱼:AI军备竞赛的另一面

五一假期的科技圈，两条新闻撞在了一起。

五一期间，一段黄仁勋的采访在中文科技媒体上刷了屏。

采访来自SCSP播客《Memos to the President》。黄仁勋在节目里说了一句话：

“在中国，我们现在已降为零。”

他说的是英伟达在中国AI芯片市场的份额。他用了一个词——“适得其反”——来形容美国的出口管制政策。

同一时间，《The Information》爆出另一件事：

马斯克的xAI，坐拥全球最大的GPU集群——约55万张英伟达GPU。但模型浮点运算利用率，只有11%。

一条是”卖不出去了”。

一条是”买了用不起来”。

放在一起看，比单独看哪一条都有意思。

55万张卡，只跑出了6万张的效果

先解释一个概念。

MFU（模型浮点运算利用率）不是任务管理器里那个GPU占用率。它衡量的是：显卡理论算力峰值，实际有多少用在了模型训练上。

11%意味着什么？

55万张卡的理论算力，实际产出的训练吞吐量，只相当于约6万张卡。剩下89%的算力，不是在计算——是在等。

等数据搬运。等隔壁机柜传参数。等上一次同步完成。

做一个对比：

公司	MFU利用率
xAI	≈11%
Meta	≈43%
Google	≈46%
行业及格线	35%-45%

不是差一点。是差了一个数量级。

说个背景。

xAI建集群的速度是行业传奇。

孟菲斯Colossus超算，从开工到上线，122天。 常规数据中心需要18-24个月。黄仁勋自己都说过：这”通常需要四年”。

快的代价，是软件没跟上。

Colossus的硬件部署是极限操作。分布式训练框架、并行策略、故障恢复机制——这些”软”的东西，加人没用。得熬时间，攒经验。

尤其是当集群从千卡级扩展到十万卡级，跨节点通信延迟会指数级放大。你的卡再快，也要等隔壁机柜把数据传过来。

NVIDIA自己的Megatron-LM基准测试早有印证：在6144张H100集群上，弱扩展场景MFU约47%；在4608卡的强扩展场景中，MFU约42%。通信开销始终是首要瓶颈。

xAI从1万张扩到55万张，这个问题放大了几十倍。

“硬件优先”，这次不太灵

熟悉马斯克的人对这个套路不陌生：先造出来，再优化。

特斯拉超级工厂。SpaceX火箭回收。星链卫星网络。都是先把物理资产铺下去，边跑边迭代。

制造业和航天领域，这个打法屡试不爽。

但在AI领域，情况不太一样。

制造业的瓶颈通常在硬件端——产线不够、良率太低。AI的瓶颈在软件端——训练框架、并行策略、数据处理管线。 硬件可以加速硬件，但硬件加速不了软件工程。

11%只是其中一件事。

时间轴拉长，问题不止这一个：

今年2月。 SpaceX以全股票交易收购xAI，合并估值1.25万亿美元——人类史上最大并购案。

一个月后。 xAI的11位联合创始人，全部离职。

马斯克自己在X上发帖承认：

“xAI was not built right first time around, so is being rebuilt from the foundations up.”（”xAI第一次没有建好，要从底层重建。”）

还是3月。 Cursor的两名核心工程师——Andrew Milich和Jason Ginsberg——跳槽到xAI。不是xAI的人出去创业，是反过来，从创业公司挖人补自己的编程工具短板。

4月21日。 SpaceX宣布获得以600亿美元收购Cursor的选择权。不收购？那也得付100亿美元”合作费”。Cursor自己估值已超500亿——花超过一家独角兽的钱，补xAI编程能力的坑。

4月15日。 马斯克确认特斯拉AI 5芯片流片成功，2027年量产。

再往前，3月。 他宣布启动TERAFAB——特斯拉、SpaceX、xAI联合英特尔，”人类史上最大芯片制造项目”，目标年产1太瓦算力，约等于当前全球AI芯片总产出的50倍。

超算、模型、编程工具、自研芯片——摊子越铺越大。

但最核心的模型训练效率，11%。

规模不等于能力。

黄仁勋的”0%”，是同一枚硬币的另一面

回到开头黄仁勋那句话。

2024年，英伟达在中国AI芯片市场还有约66%的份额。

华尔街投行Bernstein年初预测，这个数字会跌到约8%。

黄仁勋在节目里的原话是：降到了零。

比华尔街最悲观的预期还快。

美国的逻辑很简单：卡住先进芯片，就能卡住中国的AI。

但现实走的是另一条路。

华为昇腾950，芯片采购价只有英伟达同类产品的四分之一。单卡算力，比对华特供版高出2.87倍。

4月24日，DeepSeek V4发布。这是第一个把华为昇腾与英伟达GPU并列写入硬件验证清单的模型——八大国产芯片，全部Day 0适配。

黄仁勋的总结很直白——视频里是这么说的：

“放弃像中国这样规模的一整个完整市场，在战略上恐怕并不合理。我认为这在很大程度上已经产生了反效果。”

他承认，除了CUDA生态这道最后的壁垒，中国在低成本能源、数理人才、AI研究员数量上，依然是”最强劲的竞争对手”。

还有一个对比。

当马斯克55万张GPU只跑出11%利用率的时候——

DeepSeek V4的API输入缓存价，已经降到了GPT-5.5 Pro的七百分之一。

一边是堆卡用不起来。一边是没卡硬跑出路。

AI竞赛的下半场，不再是比谁卡多

过去两年，AI军备竞赛的叙事很简单：谁卡多，谁赢。

英伟达市值逼近5万亿。OpenAI融了1220亿美元，史上最大私募融资。xAI光速建超算、微软亚马逊谷歌押注Anthropic——全在抢算力。

但最近这段时间，这个叙事裂开了。

有卡不等于有用。

xAI的11%说明，十万卡级集群的软件工程挑战，不是”马斯克速度”能解决的。工程可以加速，软件架构的复杂度有底线。

卡脖子不一定能卡住。

英伟达中国份额，66%到0%，不到两年。同期国产芯片从”能用”走到了”好用”。黄仁勋的挫败感不是装的——生态壁垒在松动。

效率在重新定义竞争。

Meta 43%、Google 46%的利用率，说明软件工程才是下一阶段的胜负手。DeepSeek V4用不到百分之一的成本逼近顶级模型——算法效率，可以部分抵消算力差距。

回头看马斯克的AI布局——

超算（Colossus）。模型（Grok）。产品（Cursor）。芯片（TeraFab）。算力（特斯拉Dojo）。

每一项，都指向同一个逻辑：用规模碾过去。

但当55万张GPU只有11%在真正工作的时候。

当xAI创始人集体出走的时候。

当你要花600亿买编程工具来补课的时候。

规模，可能不是答案。

至少不全是。

数据来源：The Information、SCSP《Memos to the President》第31期、Bernstein Research、NVIDIA Megatron-LM官方基准、CNBC、IT之家、澎湃新闻、Wccftech、Tom’s Hardware、36氪、太平洋科技、中国日报。