OpenAI MRC 超级计算机网络技术:加速大规模 AI 训练(中文翻译)

发布日期:2026 年 5 月 5 日原文链接:https://openai.com/index/mrc-supercomputer-networking/来源:OpenAI 官方博客
超级计算机网络加速大规模 AI 训练
前沿模型训练高度依赖可靠的超级计算机网络,能够在 GPU 之间快速传输数据。为提升速度和效率,OpenAI 与 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 合作开发了 MRC(Multipath Reliable Connection,多路径可靠连接):一种新型协议,可显著提升大型训练集群中 GPU 网络的性能和弹性。
我们已通过 Open Compute Project (OCP) 发布 MRC 规范,以便整个行业使用。
随着每周超过 9 亿人使用 ChatGPT,我们的系统已成为 AI 的核心基础设施,帮助全球个人和企业构建越来越强大的模型。在 Stargate 项目启动之前,我们与合作伙伴精心共同开发、部署和维护了前三代超级计算机。这些经验让我们坚信:要在 Stargate 规模下高效利用算力并完成使命,必须在堆栈的每一层(包括网络设计)大幅降低复杂度。
发布 MRC 规范是 OpenAI 整体算力策略的一部分:关键基础设施层的共享标准有助于更高效、可靠地在更广泛的合作伙伴生态中扩展 AI 系统。本文将介绍 MRC 的设计,包括:
-
如何构建多平面高速网络,提供冗余以应对网络故障,同时减少组件数量和功耗; -
MRC 自适应数据包喷洒如何几乎消除核心拥塞; -
部署中如何使用静态源路由绕过故障并消除整类路由问题。
这些优势共同帮助我们更快地将更好的模型交付给所有人。
为什么网络需要全新设计
训练大型 AI 模型时,单步计算可能涉及数百万次数据传输。一次传输延迟就会波及整个作业,可能导致 GPU 空闲。网络拥塞、链路和设备故障是传输延迟和抖动的最常见来源。
集群规模扩大时,这些问题会更频繁且更难解决。这使得网络技术成为 Stargate 设计的关键部分。
为实现当前 Stargate 超级计算机的规模,我们面临两大网络挑战:
-
尽可能减少网络拥塞(不可避免的瓶颈除外,如两个 GPU 同时向同一目的地发送数据)。 -
最小化网络故障对训练作业本身的影响。在足够大的规模下,即使最佳网络也会出现持续的链路和交换机故障。过去,单次故障常导致训练作业崩溃(需从检查点重启),或在网络重新计算路由时停滞数秒。这会浪费大量 GPU 周期和时间。在同步预训练中(众多 GPU 锁步协作训练单一模型),影响尤为严重。作业越大,单次链路波动或故障的影响就越大。这些工作负载就像“故障放大器”,因此预防至关重要。
我们的解决方案:MRC
我们的目标不仅是构建快速网络,还要在存在故障时提供高度可预测的性能,确保训练作业持续运行。
OpenAI 的 Scaling 团队与合作伙伴历时两年开发了这一技术。MRC 是一种新型网络协议,集成于最新的 800Gb/s 网络接口中。它能将单次传输分散到数百条路径、在微秒级绕过故障,并支持更简单的网络控制平面。
MRC 扩展了 RoCE(RDMA over Converged Ethernet),并结合 Ultra Ethernet Consortium 的技术以及基于 SRv6 的源路由,支持大规模 AI 网络结构。
MRC 已部署在 OpenAI 所有最大的 NVIDIA GB200 超级计算机上(包括与 Oracle Cloud Infrastructure 在德克萨斯州 Abilene 的站点,以及 Microsoft 的 Fairwater 超级计算机),用于训练前沿模型。我们还共同撰写了论文《使用 MRC 和 SRv6 的弹性 AI 超级计算机网络》。
基础:多平面网络
构建高弹性网络需从具有足够天然冗余的拓扑开始,即使链路或交换机故障,所有流仍能获得良好性能。
我们不再将每个网络接口视为单一 800Gb/s 链路,而是拆分为多个较小链路。例如,一个接口可连接 8 个不同交换机,从而构建 8 个并行网络平面,每个平面 100Gb/s。
这极大改变了集群形态:支持 64 个 800Gb/s 端口的交换机可改为支持 512 个 100Gb/s 端口。这使得仅用两层交换机即可构建完全连接约 13.1 万 GPU 的网络,而传统 800Gb/s 网络需三层或四层。
优势:
-
成本更低、功耗更低、路径多样性更高。 -
更多流量可留在 Tier 0 交换机本地,提升性能。 -
故障影响更小(丢失一条链路对带宽的影响从 ~3% 降至 ~0.4% 等)。
然而,多平面网络的路径多样性难以充分利用。传统协议要求单路径传输(确保包序),会导致流碰撞拥塞,且每个流只能使用一个平面。
MRC 的转变:将数据包喷洒到数百条路径
MRC 彻底改变这一模式:将单次传输的包喷洒到网络中数百条路径(跨越所有平面)。包可能乱序到达,但每个 MRC 包都包含最终内存地址,目的地可立即写入内存。
每个 MRC 连接为使用的多条路径维护少量状态:
-
检测路径拥塞时,切换到其他路径,均衡负载。 -
丢包时,立即停止使用该路径并重传(保守策略)。 -
使用探针包验证故障并检测恢复。 -
通过数据包修剪(packet trimming)处理目的地拥塞:交换机修剪负载,仅转发头部,触发显式重传请求,减少误判故障。
多平面拓扑 + 喷洒 + 负载均衡 + 修剪的组合,使 MRC 能在微秒级检测并绕过故障,远优于传统网络(可能需数秒稳定)。
用源路由取代动态路由
MRC 进一步简化网络。我们禁用动态路由(如 BGP),改用 IPv6 Segment Routing (SRv6) 源路由。发送方在包的目标地址中嵌入交换机标识符序列,指定精确路径。
交换机仅根据静态路由表转发,无需重新计算路由。MRC 负责选择路径并绕过故障,简化运维并提升可靠性。
生产环境中的表现
我们的训练网络拥有数百万条链路。在大规模下,链路波动不可避免。但 MRC 确保即使每分钟出现多次 Tier 0-Tier 1 链路波动,也对同步预训练作业无明显影响,甚至无需立即修复。
MRC 已帮助 OpenAI 在大规模集群中稳定训练前沿模型,大幅提升了可靠性和效率。
翻译说明:
-
本翻译力求准确、流畅,保留了技术术语的专业性(必要时附英文)。 -
原文包含图片、动画和图表(如拓扑图、动画说明),此处以文字描述为主。建议访问原文查看视觉内容。 -
完整技术论文 PDF(英文):https://cdn.openai.com/pdf/resilient-ai-supercomputer-networking-using-mrc-and-srv6.pdf -
MRC 规范(OCP):https://www.opencompute.org/documents/ocp-mrc-1-0-pdf