新加坡国立大学System Lab在读博士史子骥：利用自动化的分布式混合并行策略高效训练大模型

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

扩展深度神经网络已被证明在提高模型质量方面是有效的，同时它也带来了不断增长的训练挑战，包括训练效率、可编程性和资源适应性。新加坡国立大学System Lab在读博士史子骥在阿里云计算平台事业部实习期间，提出了一个针对巨型模型的通用且高效的分布式训练框架Whale。

Whale通过对不同并行化策略进行统一抽象、封装，在一套分布式训练框架中支持多种并行策略，并进行显存、计算、通信等全方位的优化，来提供易用、高效的分布式训练框架。Whale也提供了简洁易用的接口，用户只需添加几行代码即可组合各种混合并行策略。

同时Whale还提供了一种新颖的基于硬件感知的自动化分布式并行策略，可以感知不同硬件的算力、显存等资源，均衡不同硬件上的计算量，最大化计算效率。在具有 512 个 GPU 的生产集群中，Whale成功训练了一个行业规模的多模态模型M6，模型参数超过 10 万亿个，展示了出色的可扩展性和效率。

8月3日晚7点，「AI新青年讲座」第142讲，邀请到新加坡国立大学System Lab在读博士史子骥参与，主讲《利用自动化的分布式混合并行策略高效训练大模型》。

讲者
史子骥，新加坡国立大学System Lab在读博士；师从李佳临教授；研究方向为高性能计算和分布式机器学习，曾在AAAI/USENIX ATC发表论文，本科期间曾获SC17超算竞赛冠军，目前在阿里云计算平台事业部实习。

第142讲

主题
《利用自动化的分布式混合并行策略高效训练大模型》

提纲
1、大模型训练的难点
2、易用且支持多种并行策略的分布式训练框架Whale
3、基于硬件感知的自动化并行策略及显存、通讯优化
4、实操演示：通过几行代码实现分布式并行策略

直播信息
直播时间：8月3日19:00
直播地点：智东西公开课知识店铺

成果

Whale
《Whale: Efficient Giant Model Training over Heterogeneous GPUs》

项目主页
https://zijishi.xyz/publication/whale/

开源地址
https://github.com/alibaba/EasyParallelLibrary