「智猩猩AI新青年讲座」由智猩猩出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、AI Agent、CV等人工智能领域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。
「智猩猩AI新青年讲座」现已完结239讲,错过往期讲座直播的朋友,可以点击文章底部 “ 阅读原文 ” 进行回看!
近些年,基于扩散模型的文本到图像的生成展现出了卓越的质量,但其总体上推导的难度较大,且在推理时通常需要进行几十步采样才能得到较为理想的结果。这种采样方式不仅会降低生成模型的效率,还容易受到噪声和误差的影响,从而造成图像生成的质量低下。以往算法试图通过蒸馏来提高采样速度并减少计算成本,但是都未能达到想要的效果。
为了解决以上问题,德州大学奥斯汀分校24届博士刘星超提出了一个快速、一步生成图像的模型InstaFlow,达到了生成图像的质量接近Stable Diffusion且显著减少计算资源需求的目的。相关论文为《Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow》、《InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation》,分别收录于ICLR 2023和ICLR 2024。
Rectified Flow基于一个简单的常微分方程(ODE),降低了推理难度,解决了使用非配对数据点学习两个分布之间传输映射的问题。
Rectified Flow通过学习ODE模型来模拟从π0到π1的传输过程。其中,ODE模型被训练以尽可能遵循沿π0和π1中抽取的点之间的直线路径前进。与传统的扩散模型相比,这种直线化的概率流动能够加快的生成速度。
InstaFlow将Stable Diffusion转化成一个超快速的一步生成模型。生成过程包括以下三个步骤:
首先,从预训练的Stable Diffusion模型中生成包含文本、噪声和图像的三元组。
其次,将生成的三元组训练成一个2-Rectified Flow直线化的生成概率流动模型。
最后,从2-Rectified Flow模型中蒸馏出InstaFlow模型,直接将噪声图像映射为原始图像。
6月18日10点,智猩猩邀请到论文一作、德州大学奥斯汀分校24届博士刘星超参与「智猩猩AI新青年讲座」240讲,主讲《利用直线概率流加速Stable Diffusion的训练推理》。
讲者
刘星超
德州大学奥斯汀分校24届博士
师从刘强教授。本科毕业于北京航空航天大学自动化专业。研究兴趣是生成式模型的底层原理及对生成式模型框架的改进。在ICML、NeurIPS、ICLR等机器学习顶级会议上发表十余篇文章,并多次担任JMLR等顶级期刊审稿人。
第240讲
主 题
利用直线概率流加速Stable Diffusion的训练推理
提 纲
1、扩散模型加速算法的研究现状
2、基于直线概率流的快速生成模型Rectified Flow
3、扩展至Stable Diffusion的一步生成模型InstaFlow
4、实验结果分析与前景展望
直 播 信 息
直播时间:6月18日10:00
成果
论文标题
《Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow》、《InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation》
论文链接
https://arxiv.org/abs/2209.03003、https://arxiv.org/abs/2309.06380
项目网站
https://github.com/gnobitab/RectifiedFlow、https://github.com/gnobitab/InstaFlow
对本次讲座感兴趣朋友,可以扫描下方二维码,添加小助手米娅进行报名。已添加过米娅的老朋友,可以给米娅私信,发送“240”即可报名。
我们会为审核通过的朋友推送直播链接。同时,本次讲座也组建了学习群,直播开始前会邀请审核通过的相关朋友入群交流。