6月起,智东西公开课联合阿里云弹性计算团队共同出品「阿里云加速AIGC技术公开课」,主讲大模型的算力挑战、Stable-Diffusion AI绘画与AIGC模型训练加速。阿里云弹性计算产品专家张新涛、阿里云高级开发工程师吕倪祺、阿里云高级开发工程师于子淇三位技术专家将先后进行直播讲解。
目前,「阿里云加速AIGC技术公开课」前两讲已顺利完结。阿里云弹性计算产品专家张新涛、阿里云高级开发工程师吕倪祺两位技术专家,分别以《大模型时代如何应对大算力挑战》、《基于AIACC加速器快速实现Stable-Diffusion AI绘画》为主题进行了直播讲解。
7月3日19:30,「阿里云加速AIGC技术公开课」第三讲将开讲,由阿里云高级开发工程师于子淇主讲,主题为《如何利用GPU云服务器加速AIGC训练》。
阿里云GPU云服务器提供GPU加速计算能力,能够实现GPU计算资源的即开即用和弹性伸缩。同时配备阿里云自研的弹性RDMA网络,可以实现秒级的大规模RDMA组网,满足大模型计算过程中海量数据的高效传输需求。面向开发者,阿里云还推出了AI计算部署工具FastGPU,使开发者无需关注计算、存储、网络等资源的部署操作,即可达到简单适配、一键部署、随处运行的效果。
在第三讲,于子淇首先会对AIGC模型的实现原理进行介绍,然后分享阿里云基于弹性RDMA的GPU云服务器的技术特性,以及使用FastGPU在GPU云服务器上进行LLaMA模型部署的流程和finetune原理。最后,于子淇将从计算图优化和通信优化两个方面,讲解基于AIACC的LLaMA模型部署性能优化,并展示优化后的实际效果。
公开课内容
主题:如何利用GPU云服务器加速AIGC训练
提纲:
1、AIGC模型的实现原理以及典型模型
2、基于阿里云 eRDMA 的 GPU 云服务器
3、FastGPU一键部署LLaMA流程及finetune原理解析
4、基于AIACC的性能优化及效果展示
主讲人:
于子淇,阿里云高级开发工程师,负责阿里云神龙AI训练加速引擎AIACC-Training的训练性能优化,研发AIACC1.x以及 2.0两大版本,包括NCCL集合通信算子优化、Socket/RDMA通信优化、AIACC-Kernel计算优化、弹性训练、AI框架无感工程化等,具备AI分布式训练的系统级优化工作。
课程信息
直播时间:7月3日19:30
直播地点:智东西公开课直播间