大模型训练的混合并行技术综述 |《计算机学报》
中国科学院计算技术研究所和中国科学院大学的博士生张贵鹏和研究员孙毓忠博士,在《计算机学报》发表论文“大模型训练的混合并行技术综述”,该文摘要如下。
在生成式人工智能的迅猛发展推动下,基于Transformer架构的大规模预训练模型呈现出参数规模的指数级增长。面对数百亿甚至千亿级参数模型的训练需求,传统的单模态并行方法在计算效率、内存占用和通信开销等方面面临严峻挑战,从而促使混合并行技术逐渐成为大规模分布式训练的主流范式。
本文以Transformer架构的并行化特性为研究切入点,系统地分析了数据并行、张量并行、序列并行、流水线并行及专家并行的内在机制,揭示了不同并行策略之间的耦合关系与组合边界。通过整合算子内切分与算子间切分的数学模型,构建了混合并行策略的统一表示框架。该框架通过分离算子切分逻辑与并行拓扑映射,为现有研究提供了可扩展的理论分析工具。在方法论层面,基于该混合并行框架的理论推导,本文总结了基于计算图分解的自动并行搜索技术的发展路径。最后,结合当前技术瓶颈与新兴硬件架构,本文展望了从多模态计算协同与异构集群调度等方面的未来发展方向,为突破万亿参数模型训练的系统性挑战提供理论依据。
评论