「智猩猩AI新青年讲座」由智猩猩出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、AI Agent、CV等人工智能领域的最新重要研究成果。

AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。

随着扩散模型技术的引入,文本到图像(Text-to-Image, T2I)生成技术迎来了显著的飞跃,现有模型在该领域展现出了卓越的创造力和表现力。尽管如此,文生图模型在使用语言颜色名称来指定对象颜色时,由于这些标签覆盖的颜色范围较广,难以实现精确匹配,且现有的文生图个性化方法往往会导致颜色-形状纠缠问题。为了实现T2I任务中的精准颜色生成,来自巴塞罗那自治大学LAMP组博士后王凯提出了ColorPeel模型,首次解决了color prompt learning(颜色提示学习)问题,相关论文为《ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement》,收录于ECCV 2024。

ECCV 2024 颜色生成新突破!首次解决文生图扩散模型中的颜色提示学习问题 | UAB博士后王凯讲座预告

ColorPeel是一种基于扩散模型的精确颜色生成方法,其核心在于通过颜色和形状的解耦来提升T2I生成中颜色的精确度。

ColorPeel首先生成一系列基础的2D或3D几何形状,并将这些形状赋予用户指定的RGB颜色值或颜色坐标,作为训练数据。

扩散模型利用训练过程中学到的颜色特征,结合用户提供的颜色提示,生成具有精确颜色的图像。

ColorPeel中引入一个创新的交叉注意力对齐损失函数进行模型更新,旨在通过将颜色和形状从自动生成的目标颜色几何物体中解耦,使得模型能够更准确地学习颜色提示,避免颜色和形状特征的混合问题。

在生成阶段,用户通过提供文本描述和颜色提示来指导图像的生成。通过反向扩散过程逐步恢复出图像的颜色和形状信息。这个过程中,模型会不断优化图像,以确保其颜色、形状以及整体风格与用户的输入高度一致。

ECCV 2024 颜色生成新突破!首次解决文生图扩散模型中的颜色提示学习问题 | UAB博士后王凯讲座预告

8月15日10点,智猩猩邀请到论文共同一作、巴塞罗那自治大学LAMP组博士后王凯参与「智猩猩AI新青年讲座」247讲,主讲《文生图扩散模型中的精确颜色生成》。

讲者

王凯

巴塞罗那自治大学LAMP组博士后

在吉林大学计算机科学与技术学院分别于2014年及2017年拿到本科及硕士学位。2022年博士毕业于西班牙巴塞罗那自治大学LAMP组,导师为Joost van de Weijer,主要研究课题为持续学习,vision transformer,扩散模型以及域适应等课题。毕业后至今留组作为博后指导多名博士生进行相关领域的研究工作。
第247讲主 题
文生图扩散模型中的精确颜色生成
提 纲
1、文生图扩散模型颜色生成存在的问题
2、基于LDM的文生图精确颜色生成方法ColorPeel
3、解耦颜色和形状以提升模型颜色学习能力
4、实验结果展示与扩展应用

直播信息

直播时间:8月15日10:00
直播地点:智猩猩GenAI视频号

成果

论文标题
《ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement》
论文链接
https://arxiv.org/abs/2407.07197
项目网站
https://moatifbutt.github.io/colorpeel/
开源代码
https://github.com/moatifbutt/color-peel

入群申请

本次讲座组建了学习交流群。加入学习交流群,除了可以观看直播,并提前拿到课件外,你还能结识更多研究人员和开发者,所提问题也将会优先解答。

希望入群的朋友可以扫描下方二维码,添加小助手米娅进行申请。已添加过米娅的老朋友,可以给米娅私信,发送“ANY247”进行申请。

ECCV 2024 颜色生成新突破!首次解决文生图扩散模型中的颜色提示学习问题 | UAB博士后王凯讲座预告