「智猩猩AI新青年讲座」由智猩猩出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、AI Agent、CV等人工智能领域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。
「智猩猩AI新青年讲座」现已完结235讲,错过往期讲座直播的朋友,可以点击文章底部 “ 阅读原文 ” 进行回看!
近来,扩散模型已经成为强大的生成建模工具,在图像生成、视频生成等各种应用中都有着出色的表现。然而,尽管扩散模型具备卓越的生成能力,但其训练和采样速度较慢,限制了它们在实时生成任务中的使用。
扩散模型在效率方面主要面临着以下难题:
(1)现有的扩散模型中存在大量参数冗余;
(2)由于不同噪声水平的梯度不同,导致训练效率低下。
为了实现计算资源的高效分配,从而提升扩散模型的训练效率,密歇根大学安娜堡分校在读博士张挥杰提出了一种基于多级框架和多解码器架构的扩散模型。相关论文《Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures》收录于CVPR 2024。
改进的扩散模型主要有两个核心组件。
核心组件一:多解码器U-Net架构。包含一个可在所有阶段中共享的通用编码器,及针对每个时间阶段单独定制的解码器。这种方法(图(c))比在整个训练过程中使用单一架构(图(a))要高效得多。并且与以往每个子区间完全分离的结构(图(b))相比,可以减轻由不同梯度效应引起的阶段之间的干扰。
核心组件二:提出了一种新的时间步长聚类方法来选择阶段划分的最优间隔点。将时间步长聚类为多个具有特定参数的阶段。在这些不同的阶段中,采用定制化的多解码器U-Net网络架构与通用的共享编码器相融合。
5月28日10点,智猩猩邀请到论文一作、密歇根大学安娜堡分校在读博士张挥杰参与「智猩猩AI新青年讲座」236讲,主讲《利用多级框架和多解码器架构提高扩散模型训练效率》。
主讲人
张挥杰
密歇根大学安娜堡分校在读博士
师从曲庆。研究方向为生成式模型和扩散模型,具体包括提升扩散模型的训练效率、理解扩散模型的可重复性与一致性。相关成果发表在CVPR 2024、ICML 2024。
第236讲
主 题
利用多级框架和多解码器架构提高扩散模型训练效率
提 纲
1、扩散模型低效原因分析
2、多阶段框架与定制化多解码器架构设计思路
3、扩散模型改进后的性能提升表现
4、实验结果对比与未来工作展望
直 播 信 息
直播时间:5月28日10:00
直播地点:智猩猩知识店铺
成果
论文标题
《Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures》
论文链接
https://arxiv.org/abs/2312.09181
报名方式
对本次讲座感兴趣朋友,可以扫描下方二维码,添加小助手米娅进行报名。已添加过米娅的老朋友,可以给米娅私信,发送“236”即可报名。
我们会为审核通过的朋友推送直播链接。同时,本次讲座也组建了学习群,直播开始前会邀请审核通过的相关朋友入群交流。