「智猩猩AI新青年讲座」由智猩猩出品,致力于邀请青年学者,主讲他们在生成式AI、LLM、AI Agent、CV等人工智能领域的最新重要研究成果。
AI新青年是加速人工智能前沿研究的新生力量。AI新青年的视频讲解和直播答疑,将可以帮助大家增进对人工智能前沿研究的理解,相应领域的专业知识也能够得以积累加深。同时,通过与AI新青年的直接交流,大家在AI学习和应用AI的过程中遇到的问题,也能够尽快解决。
目前许多文生图模型展现出了生成高质量图像的出色能力,丰富了设计、影视等应用领域。同时,由于先进的显示技术和数字艺术等专业领域对视觉效果日益增长的需求,生成兼具美感与超高清分辨率(如4K、6K)的图像显得尤为重要。然而超高分辨率图像生成面临着巨大的挑战,例如语义规划时复杂性增加、细节合成困难以及大量的训练资源需求。
对于以上问题,来自香港科技大学的在读博士任菁菁联合华为诺亚方舟实验室等研究人员共同提出了基于级联扩散模型的超高分辨率图像生成模型Ultrapixel,实现了从1K到6K任意分辨率图像的生成,同时保持了计算效率和图像质量。相关论文为《UltraPixel: Advancing Ultra-High-Resolution Image Synthesis to New Peaks》。
UltraPixel是一种创新的高分辨率图像生成方法,它利用级联扩散模型、语义引导、隐式神经表示和高效参数共享等技术,以生成不同分辨率的高质量图像。
首先,UltraPixel接收用户输入的文本信息,这些文本信息作为生成图像的指导。根据指导,算法初始化一个低分辨率的图像表示,这个表示将作为后续高分辨率图像生成的起点。
UltraPixel利用级联扩散模型从上述低分辨率图像特征开始,逐步上采样至目标分辨率。每个阶段的上采样都依赖于前一阶段的输出,确保图像在不同分辨率之间的平滑过渡。同时,引入隐式神经表示来实现图像的连续上采样。这种表示方法能够更灵活地处理不同分辨率的图像,并在生成过程中保持图像细节和真实感。
在高分辨率图像生成过程中,UltraPixel将低分辨率图像中的语义信息融入到高分辨率图像中共享大部分参数,确保生成的图像既符合用户输入的文本主题,又具备丰富的细节和清晰的轮廓,这种参数共享机制也极大地提高了训练和推理的效率。
为了在不同分辨率下保持生成图像的质量,UltraPixel引入了尺度感知归一化层。这些归一化层能够自动调整参数以适应不同分辨率的图像,确保生成图像的一致性和稳定性。
最终,算法输出高分辨率、高质量的图像。这些图像在细节、清晰度和真实感方面均达到或超过现有方法的水平。
9月4日10点,智猩猩邀请到论文一作、香港科技大学(广州)在读博士任菁菁参与「智猩猩AI新青年讲座」251讲,主讲《超高分辨率图像生成》。
讲者
任菁菁
香港科技大学(广州)在读博士
师从朱磊教授,目前在华为诺亚方舟实验室进行研究实习。在计算机视觉领域的顶级会议和期刊CVPR, ICCV, ECCV, IJCV等发表了多篇论文。主要研究兴趣专注于通过增强或者生成的方式获得高质量的图像、视频等。
主题
超高分辨率图像生成
提纲
1、图片分辨率的重要性
2、现有的文生图模型的局限性
3、大图生成的挑战以及相关工作
4、基于级联扩散的大图生成模型Ultrapixel
5、总结分析与未来工作展望
直播信息
直播时间:9月4日10:00
直播地点:智猩猩GenAI视频号
成果
论文标题
《UltraPixel: Advancing Ultra-High-Resolution Image Synthesis to New Peaks》
论文链接
https://arxiv.org/abs/2407.02158
项目网站
https://jingjingrenabc.github.io/ultrapixel/
开源代码
https://github.com/catcathh/ultrapixel
入群申请
本次讲座组建了学习交流群。加入学习交流群,除了可以观看直播,并提前拿到课件外,你还能结识更多研究人员和开发者,所提问题也将会优先解答。
希望入群的朋友可以扫描下方二维码,添加小助手米娅进行申请。已添加过米娅的老朋友,可以给米娅私信,发送“ANY251”进行申请。