从95%到0%,中国GPU市场的"后英伟达"时代
|
份额「清零」与算力狂飙的背后:谁在填补英伟达留下的千亿空白? |
上个月,英伟达CEO黄仁勋在接受美国智库SCSP采访时表示:受美国芯片出口管制政策影响,英伟达在中国AI GPU市场的份额“已降至0%”,中国企业填补了这一空白。
海外媒体分析认为,美国的出口管制加速了中国实现自给自足的进程;摩根士丹利预测,到2030年,中国76%的AI芯片供应将由本土企业提供,10年内深远改写AI芯片的竞争格局。
随着AI和大数据技术的广泛应用,中国算力规模呈现快速增长态势,整体规模从2020年的136.2 EFLOPs增长至2024年的617 EFLOPs(1 EFLOPs = 1018 FLOPs),年均复合增长率为45.9%。其中,
-
智能算力是引领算力规模指数级增长的核心,规模从2020年59.2 EFLOPs增长至2024年的438.07 EFLOPs(占比71%)。
-
通用算力规模2024年为178.93 EFLOPs,得益传统行业的数字化转型,如企业日常办公、数据存储管理、业务系统运行等常规计算场景释放稳定需求。

在此背景下,AI算力加速芯片作为专用计算引擎应运而生,按架构形态可分为GPU、ASIC、FPGA及新兴DSA四大类,各有其适用场景与技术路线。

GPU,AI训练与推理的主流选择
随着深度学习的发展,GPU在AI训练与推理领域逐渐成为主流选择。
GPU最初用于图形渲染,逐渐发展为通用计算加速引擎,其大规模并行计算架构可同时执行海量计算任务,成为现代计算基础设施的核心组件。

尽管GPU耗电量较高,但因应用灵活性、计算性能、开发友好性上的突出优势,使其成为AI计算场景中兼具效率与普适性的优选方案。具体,
-
从应用覆盖看,GPU同时适配AI训练与推理场景;在功能特性上,相较FPGA的半定制局限与ASIC的完全定制且不可更改性,适配性更优;在计算能力维度,以英伟达B200为代表的GPU产品性能远高于当前FPGA和ASIC相关产品;开发生态层面,GPU依托成熟开发环境与庞大开发者生态系统,远胜FPGA以及ASIC在开发工具兼容性上的事实表现。

-
GPU依然是AI市场的主导芯片:
其增长速度最快,市场份额预计从2024年的71%至2029年的80%。以ASIC和FPGA为代表的其他类型芯片也已实现商业化,并在市场中占据一定比例。

注:FPGA目前仅占整体AI芯片市场相对较小的比例(2024年<3%),故未将其显示为单独区块。
根据IDC数据,训练型AI服务器中GPU的价值占比高达73%,而推理型AI服务器中GPU的价值占比约为25%。
从英伟达训练服务器BOM占比来看,英伟达最近三代GPU产品A100、H100、B100配套的服务器中,GPU占比分别为69%、76%和79%,呈现不断上升的趋势。
-
GPU的技术壁垒:
GPU技术壁垒极高,需要协同攻克硬件架构设计、微处理器核心、存储层次结构、并行计算算法、编译优化、驱动开发以及完整软件生态等多个深度耦合的技术领域,形成了环环相扣的技术链。

GPU的构成
GPU的关键组件包括决定其处理能力和运算效率的微架构,以及由开发工具、程序库和应用程序接口(API)组成的强大软件生态系统,生态系统确保了开发者能够在各类应用场景中高效调用GPU的计算能力。
①硬件构成
GPU的硬件构成主要包括(按层级):GPC(图形处理簇) > TPC(纹理处理簇) > SM(流式多处理器,具体执行实际任务,核心组件又包括:核心、共享内存/L1 cache、寄存器、Warp Scheduler-线程调度器等)。

注:现代数据中心GPU虽然保留了GPC/TPC/SM的层级命名,但内部结构已大幅偏向通用计算,纹理单元在计算卡中被弱化甚至移除。
SM具有「复制」特性,每个SM结构完全相同,独立执行不同的线程块(Block),这就是GPU SIMT架构的本质——单指令多线程,通过SM复制实现大规模并行。

②软件生态系统
GPU生态系统由上层算法库;中层接口、驱动程序、编译器和底层硬件架构等构成。

-
主流通用GPU编程生态系统:
通用GPU行业由英伟达CUDA平台主导,自2006年推出以来,全球开发人员一直依赖该系统编程及训练AI模型,从而创造庞大的技术生态系统。
如今,超过80%的AI场景依赖该平台进行研发。即使出现新的通用GPU产品,兼容该平台对于应用广泛推广仍然至关重要。
三大细分GPU产品
根据功能定位,GPU主要分为全功能GPU、图形GPU和GPGPU。

①全功能GPU
这类GPU具备功能完备性与计算精度完整性,在工作效率、生态完整多样性以及兼容性等方面更具优势,能够更好地适应未来新兴及前沿计算加速应用场景的需求。
功能完备性:体现为在单一GPU芯片中集成了AI计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码等多种能力,满足多样化的计算需求;
精度完整性:体现为单一芯片支持FP64 Vector、FP32 Vector、TF32 Tensor、FP16/BF16 Tensor、FP8 Tensor、INT8 Tensor等不同计算精度,满足GPU加速不同场景的计算需求。
②图形GPU
专为图形渲染和PC游戏应用而设计,针对高清显示及高性能2D/3D图形计算进行了优化。计算机的图形处理任务主要由显卡承担,图形GPU作为显卡的核心部件。根据Jon Peddie Research数据,2024年全球独立显卡出货量为3470万张,同比增长12%。
因为图形处理往往涉及到大量的矩阵运算,计算量大但易于并行化,GPU通过简化控制单元并集成大规模的并行运算单元,实现对图形渲染等并行任务的良好支持。图形GPU通常内置图像渲染、视频编解码加速引擎、2D/3D加速引擎等专用运算模块。
③GPGPU(通用GPU)
省去了与图形显示和渲染相关的功能,专注于利用GPU架构执行通用并行计算任务。并针对不同计算领域的需求增加了专用矢量、张量、矩阵运算指令,提升了浮点运算的精度和性能。目前,已成为智算芯片的首选。
-
GPGPU特征:
1)高度并行性:GPGPU拥有大量并行计算单元,多条流水线可以在单一控制部件的集中控制下运行。
2)高内存带宽与多级缓存:GPGPU通常集成高速的GDDR或HBM显存颗粒,提供高访存带宽以处理数据密集型运算;GPGPU的多级缓存体系包括全局内存、共享内存、寄存器等,大幅提高数据访问效率、降低延迟
GPU的缓存机制:

关键参数
GPU的性能由多个关键参数决定,包括核心数量、工作频率、显存容量、显存带宽、计算能力与精度覆盖范围等:
参考英伟达的A100、H100芯片的性能对比,两者用于AI计算等场景:

1)核心数量
作为GPU的核心指标,核心数量越多,GPU在处理图形渲染、科学计算、AI计算加速等任务时能够处理更多线程,提升运算效率。核心数的增加不仅可以显著提升性能,也能有效分摊工作负载,从而更好地满足高强度计算需求。
GPU拥有成千上万个简单的计算核心,能够同时处理大量的计算任务。相比之下,CPU的核心数量较少(通常为4-64核),更适合处理复杂的单线程任务。如,英伟达的H100芯片:16896个CUDA核心,528个第四代Tensor核心。
2)时钟速度/频率
时钟速度指GPU每秒可执行的时钟周期数,对数据处理速度和性能输出具有直接影响。更高的时钟速度意味着在同等时间内能够完成更多的运算任务,满足对实时性、低延时的应用场景需求。
如,一个频率为1MHz的时钟信号,每秒会完成100万次周期性变化(时钟周期数 = 1秒/时钟频率)。
3)显存
GPU内的显存技术以HBM和GDDR为主,其中HBM相较GDDR(图形双倍速率同步DRAM)的传输速度更快、功耗更低,在高性能GPU芯片中应用广泛。
-
显存容量:
显存是GPU临时存储数据的空间,容量的大小在处理大型数据集、高分辨率图像或视频时尤为重要。较大的显存容量可减少GPU与系统内存之间的频繁数据传输,在多任务或高分辨率场景下有效提升性能和效率。
-
显存带宽:
显存带宽指单位时间内GPU内部存储器可传输的数据量。较高的显存带宽确保了在面对高负载时,数据能被快速送达处理核心,进而维持流畅的运行效率。对需要高吞吐量的应用(如深度学习推理或复杂图形渲染)而言,显存带宽是关键的性能瓶颈之一。

4)计算能力
计算能力通常以GFLOP/S(每秒十亿次浮点运算)表示,是衡量GPU并行计算性能的主要指标。
如,FP16 作为衡量人工智能训练芯片的核心指标之一,数值越大,代表芯片产品的计算能力越强。

5)计算精度覆盖范围
GPU支持的计算精度范围(如FP64、FP32、FP16、FP8、INT8等)反映了其在多样化任务中的灵活度。
能够支持多种精度水平的GPU不仅具备更高的灵活度,也能在多样化的AI任务中实现更佳的性能与能效。

多卡互连
随着模型规模、数据量、参数量的快速增长,单一芯片、单台计算设备已经无法满足不断涌现的大规模数据、多任务应用的需求。
通过集群互连弥补单卡性能不足、使用多台设备同时运算的“分布式并行”策略成为了当前及未来发展的主流选择,基于Scale Up与Scale Out的技术应运而生。

-
高速互连技术,具体落实“部署、连接和调用”:
然而进一步的,并行计算所产生的集合通信数据规模极大,如何部署、连接和调用这些分布式的计算网络或设备,以实现给定硬件条件下的最高运算效率,成为制约大模型分布式计算的瓶颈。
高速互连技术则在此环节发挥关键作用,多卡互连能力、卡间互连带宽直接影响集群有效算力,更优的互连技术方案能更好支持数据并行、流水线并行和张量并行等。
传统PCIe连接,面临NVLink等专用互联技术冲击:
传统架构中,GPU通过PCIe连接CPU导致无法直接点对点通信,且CPU提供的PCIe通道数量限制了GPU扩展。即便借助PCIe Switch实现多GPU接入和P2P通信,随着GPU占比攀升,PCIe带宽远低于处理器与本地内存的带宽,逐渐成为系统性能瓶颈。

英伟达推出的NVLink则实现了GPU之间的直接互连,相较于传统PCIe总线实现更加快速、更低延迟的系统内互连解决方案。但此类技术属于厂商私有方案,难以跨平台适配其他GPU场景,存在生态封闭性局限,也推动了开放异构智能加速系统的探索。

互联设备范围的拓展,GPU互联技术不仅支持GPU之间的互联,如英伟达2022年推出的Hopper架构中,还支持GPU与CPU的互联。

国产GPU互连方案近年来发展迅速,但整体仍处于追赶阶段,与英伟达NVLink存在一到两代差距。且,由于单卡算力差距难以短期弥补,国产厂商普遍采用超节点(SuperNode)工程化方案。

-
华为的突围:
华为在2025年Hot Chips大会上推出UB-Mesh技术,目标是用单一协议统一AI数据中心内外部节点的所有互连(即单一协议取代PCIe、CXL、NVLink和TCP/IP协议)。为实现这一目的,华为计划开源该协议。
然而,华为承认,在整个数据中心推广这一概念会带来新的挑战,尤其是从铜缆(仍在机架内部连接)过渡到可插拔光纤链路。长距离传输不可避免地需要使用光纤,但其错误率远高于电气连接。

竞争格局
全球GPU市场整体呈寡头垄断格局,英伟达、超威半导体2家厂商基本分割了全球市场。

中国通用GPU市场的国产化率持续上升。按收入计,2022年到2024年,国产化率由2%增加至3.6%,预计到2029年将达31%。

算力之争终归于生态之争,国产GPU的突围不在单点超越,而在能否筑起开发者不愿离开的护城河。