新加坡国立大学System Lab在读博士史子骥:利用自动化的分布式混合并行策略高效训练大模型 | AI新青年讲座

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

有兴趣分享学术成果的朋友,可以与智东西公开课教研团队进行邮件(class@zhidx.com)联系。

扩展深度神经网络已被证明在提高模型质量方面是有效的,同时它也带来了不断增长的训练挑战,包括训练效率、可编程性和资源适应性。新加坡国立大学System Lab在读博士史子骥在阿里云计算平台事业部实习期间,提出了一个针对巨型模型的通用且高效的分布式训练框架Whale。

Whale通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位的优化,来提供易用、高效的分布式训练框架。Whale也提供了简洁易用的接口,用户只需添加几行代码即可组合各种混合并行策略。

同时Whale还提供了一种新颖的基于硬件感知的自动化分布式并行策略,可以感知不同硬件的算力、显存等资源,均衡不同硬件上的计算量,最大化计算效率。在具有 512 个 GPU 的生产集群中,Whale成功训练了一个行业规模的多模态模型M6,模型参数超过 10 万亿个 ,展示了出色的可扩展性和效率。

8月3日晚7点,「AI新青年讲座」第142讲,邀请到新加坡国立大学System Lab在读博士史子骥参与,主讲《利用自动化的分布式混合并行策略高效训练大模型》。

讲者
史子骥,新加坡国立大学System Lab在读博士;师从李佳临教授;研究方向为高性能计算和分布式机器学习,曾在AAAI/USENIX ATC发表论文,本科期间曾获SC17超算竞赛冠军,目前在阿里云计算平台事业部实习。

第142讲

主 题
《利用自动化的分布式混合并行策略高效训练大模型》

提 纲
1、大模型训练的难点
2、易用且支持多种并行策略的分布式训练框架Whale
3、基于硬件感知的自动化并行策略及显存、通讯优化
4、实操演示:通过几行代码实现分布式并行策略

直 播 信 息
直播时间:8月3日19:00
直播地点:智东西公开课知识店铺

成果

Whale
《Whale: Efficient Giant Model Training over Heterogeneous GPUs》

项目主页
https://zijishi.xyz/publication/whale/

开源地址
https://github.com/alibaba/EasyParallelLibrary