OpenAI MRC 超级计算机网络技术:加速大规模 AI 训练(中文翻译)

发布日期：2026 年 5 月 5 日原文链接：https://openai.com/index/mrc-supercomputer-networking/来源：OpenAI 官方博客

超级计算机网络加速大规模 AI 训练

前沿模型训练高度依赖可靠的超级计算机网络，能够在 GPU 之间快速传输数据。为提升速度和效率，OpenAI 与 AMD、Broadcom、Intel、Microsoft 和 NVIDIA 合作开发了 MRC（Multipath Reliable Connection，多路径可靠连接）：一种新型协议，可显著提升大型训练集群中 GPU 网络的性能和弹性。

我们已通过 Open Compute Project (OCP) 发布 MRC 规范，以便整个行业使用。

随着每周超过 9 亿人使用 ChatGPT，我们的系统已成为 AI 的核心基础设施，帮助全球个人和企业构建越来越强大的模型。在 Stargate 项目启动之前，我们与合作伙伴精心共同开发、部署和维护了前三代超级计算机。这些经验让我们坚信：要在 Stargate 规模下高效利用算力并完成使命，必须在堆栈的每一层（包括网络设计）大幅降低复杂度。

发布 MRC 规范是 OpenAI 整体算力策略的一部分：关键基础设施层的共享标准有助于更高效、可靠地在更广泛的合作伙伴生态中扩展 AI 系统。本文将介绍 MRC 的设计，包括：

如何构建多平面高速网络，提供冗余以应对网络故障，同时减少组件数量和功耗；
MRC 自适应数据包喷洒如何几乎消除核心拥塞；
部署中如何使用静态源路由绕过故障并消除整类路由问题。

这些优势共同帮助我们更快地将更好的模型交付给所有人。

为什么网络需要全新设计

训练大型 AI 模型时，单步计算可能涉及数百万次数据传输。一次传输延迟就会波及整个作业，可能导致 GPU 空闲。网络拥塞、链路和设备故障是传输延迟和抖动的最常见来源。

集群规模扩大时，这些问题会更频繁且更难解决。这使得网络技术成为 Stargate 设计的关键部分。

为实现当前 Stargate 超级计算机的规模，我们面临两大网络挑战：

尽可能减少网络拥塞（不可避免的瓶颈除外，如两个 GPU 同时向同一目的地发送数据）。
最小化网络故障对训练作业本身的影响。在足够大的规模下，即使最佳网络也会出现持续的链路和交换机故障。过去，单次故障常导致训练作业崩溃（需从检查点重启），或在网络重新计算路由时停滞数秒。这会浪费大量 GPU 周期和时间。在同步预训练中（众多 GPU 锁步协作训练单一模型），影响尤为严重。作业越大，单次链路波动或故障的影响就越大。这些工作负载就像“故障放大器”，因此预防至关重要。

我们的解决方案：MRC

我们的目标不仅是构建快速网络，还要在存在故障时提供高度可预测的性能，确保训练作业持续运行。

OpenAI 的 Scaling 团队与合作伙伴历时两年开发了这一技术。MRC 是一种新型网络协议，集成于最新的 800Gb/s 网络接口中。它能将单次传输分散到数百条路径、在微秒级绕过故障，并支持更简单的网络控制平面。

MRC 扩展了 RoCE（RDMA over Converged Ethernet），并结合 Ultra Ethernet Consortium 的技术以及基于 SRv6 的源路由，支持大规模 AI 网络结构。

MRC 已部署在 OpenAI 所有最大的 NVIDIA GB200 超级计算机上（包括与 Oracle Cloud Infrastructure 在德克萨斯州 Abilene 的站点，以及 Microsoft 的 Fairwater 超级计算机），用于训练前沿模型。我们还共同撰写了论文《使用 MRC 和 SRv6 的弹性 AI 超级计算机网络》。

基础：多平面网络

构建高弹性网络需从具有足够天然冗余的拓扑开始，即使链路或交换机故障，所有流仍能获得良好性能。

我们不再将每个网络接口视为单一 800Gb/s 链路，而是拆分为多个较小链路。例如，一个接口可连接 8 个不同交换机，从而构建 8 个并行网络平面，每个平面 100Gb/s。

这极大改变了集群形态：支持 64 个 800Gb/s 端口的交换机可改为支持 512 个 100Gb/s 端口。这使得仅用两层交换机即可构建完全连接约 13.1 万 GPU 的网络，而传统 800Gb/s 网络需三层或四层。

优势：

成本更低、功耗更低、路径多样性更高。
更多流量可留在 Tier 0 交换机本地，提升性能。
故障影响更小（丢失一条链路对带宽的影响从 ~3% 降至 ~0.4% 等）。

然而，多平面网络的路径多样性难以充分利用。传统协议要求单路径传输（确保包序），会导致流碰撞拥塞，且每个流只能使用一个平面。

MRC 的转变：将数据包喷洒到数百条路径

MRC 彻底改变这一模式：将单次传输的包喷洒到网络中数百条路径（跨越所有平面）。包可能乱序到达，但每个 MRC 包都包含最终内存地址，目的地可立即写入内存。

每个 MRC 连接为使用的多条路径维护少量状态：

检测路径拥塞时，切换到其他路径，均衡负载。
丢包时，立即停止使用该路径并重传（保守策略）。
使用探针包验证故障并检测恢复。
通过数据包修剪（packet trimming）处理目的地拥塞：交换机修剪负载，仅转发头部，触发显式重传请求，减少误判故障。

多平面拓扑 + 喷洒 + 负载均衡 + 修剪的组合，使 MRC 能在微秒级检测并绕过故障，远优于传统网络（可能需数秒稳定）。

用源路由取代动态路由

MRC 进一步简化网络。我们禁用动态路由（如 BGP），改用 IPv6 Segment Routing (SRv6) 源路由。发送方在包的目标地址中嵌入交换机标识符序列，指定精确路径。

交换机仅根据静态路由表转发，无需重新计算路由。MRC 负责选择路径并绕过故障，简化运维并提升可靠性。

生产环境中的表现

我们的训练网络拥有数百万条链路。在大规模下，链路波动不可避免。但 MRC 确保即使每分钟出现多次 Tier 0-Tier 1 链路波动，也对同步预训练作业无明显影响，甚至无需立即修复。

MRC 已帮助 OpenAI 在大规模集群中稳定训练前沿模型，大幅提升了可靠性和效率。

翻译说明：

本翻译力求准确、流畅，保留了技术术语的专业性（必要时附英文）。
原文包含图片、动画和图表（如拓扑图、动画说明），此处以文字描述为主。建议访问原文查看视觉内容。
完整技术论文 PDF（英文）：https://cdn.openai.com/pdf/resilient-ai-supercomputer-networking-using-mrc-and-srv6.pdf
MRC 规范（OCP）：https://www.opencompute.org/documents/ocp-mrc-1-0-pdf