对比离散扩散生成模型在跨模态音乐和图像生成中的应用

「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年，主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与AI新青年的直接交流，大家在AI学习和应用AI的过程中遇到的问题，也能够尽快解决。

「AI新青年讲座」目前已完结204讲；有兴趣分享学术成果的朋友，可以与智东西公开课教研团队进行邮件（class@zhidx.com）联系。

生成扩散概率模型（DiffusionProbabilistic Models）作为生成领域的主流模型已经得到了广泛应用。在跨模态的条件生成任务当中，除了生成数据本身的真实度等指标，模型的条件输入与生成输出的匹配度也是决定生成质量的重要因素。

现有的基于扩散模型的跨模态条件生成方法大多是将条件输入作为先验直接加入训练目标函数当中，这样的操作虽然直观但缺乏对匹配度的精细优化。

在 ICLR 2023 上，来自伊利诺伊理工大学的在读博士竺烨等人，将对比学习（contrastive learning）机制引入离散扩散模型的训练当中，通过直接增强条件输入与最终输出之间的互信息（mutual information）去提升两者之间的匹配度。

竺烨等人提出的对比离散扩散生成模型可以适用于不同的跨模态生成场景，如舞蹈视频到音乐生成、文字到图像生成、类别标签到图像生成等。在保证生成数据保真度的同时，优化两者之间的匹配度，并且加快扩散模型在训练中的收敛速度，加快生成速度。

4月21日上午10点，AI新青年讲座第205讲邀请到伊利诺伊理工大学在读博士竺烨参与，主讲《对比离散扩散生成模型在跨模态音乐和图像生成中的应用》。

讲者
竺烨，本科与硕士均毕业于上海交通大学，于伊利诺伊理工就读计算机博士，目前是普林斯顿大学计算机系访问学者；主要研究方向为计算机视觉、多模态学习和生成，相关研究成果发现在 ECCV、ICLR、TPAMI 等顶级会议及期刊上。

第205讲

主题
《对比离散扩散生成模型在跨模态音乐和图像生成中的应用》
提纲
1、生成扩散模型概述
2、跨模态的条件生成方法解析
3、引入对比学习机制的对比离散扩散生成模型
4、跨模态的视频-音乐和文本-图像生成应用

直播信息
直播时间：4月21日10:00
直播地点：智东西公开课知识店铺

成果
《Discrete Contrastive Diffusion for Cross-Modal Music and Image Generation》
https://arxiv.org/pdf/2206.07771
https://github.com/L-YeZhu/CDCD