大模型训练的混合并行技术综述 |《计算机学报》

chengsenw

25023
文章

0
评论

2026年3月29日 10:37:59项目开发评论1阅读模式

大模型训练的混合并行技术综述 |《计算机学报》

中国科学院计算技术研究所和中国科学院大学的博士生张贵鹏和研究员孙毓忠博士，在《计算机学报》发表论文“大模型训练的混合并行技术综述”，该文摘要如下。

扫描二维码或点击“阅读原文”看全文

在生成式人工智能的迅猛发展推动下,基于Transformer架构的大规模预训练模型呈现出参数规模的指数级增长。面对数百亿甚至千亿级参数模型的训练需求,传统的单模态并行方法在计算效率、内存占用和通信开销等方面面临严峻挑战,从而促使混合并行技术逐渐成为大规模分布式训练的主流范式。

本文以Transformer架构的并行化特性为研究切入点,系统地分析了数据并行、张量并行、序列并行、流水线并行及专家并行的内在机制,揭示了不同并行策略之间的耦合关系与组合边界。通过整合算子内切分与算子间切分的数学模型,构建了混合并行策略的统一表示框架。该框架通过分离算子切分逻辑与并行拓扑映射,为现有研究提供了可扩展的理论分析工具。在方法论层面,基于该混合并行框架的理论推导,本文总结了基于计算图分解的自动并行搜索技术的发展路径。最后,结合当前技术瓶颈与新兴硬件架构,本文展望了从多模态计算协同与异构集群调度等方面的未来发展方向,为突破万亿参数模型训练的系统性挑战提供理论依据。

文章二维码

大模型训练的混合并行技术综述 |《计算机学报》

【标兵选树】计算机科学与技术学院“红旗下的IT人”线下开放日活动顺利举办

24个计算机基础知识

计算机科学与技术学院|2026年春季学生组织、学生干部培训大会

与己和解,逐光而行|计算机科学与技术学院(软件学院)送给每一个在努力生活的你

信息技术-计算机软件行业综合财务实力展示

计算机科学与技术学院/软件学院 2026年硕士研究生招生综合面试考生须知

科普专栏| 计算机的技术沿革 ——从机械计算到智能时代

日常维护电脑小技巧

聘:财务、销售经理、化验员、新媒体运营,五险+包吃住+年底双薪等好福利等你来!

每天一个计算机小知识:netstat命令

加载中...

发表评论

热门搜索

发表评论