文本到图像扩散模型能够生成多样化、高质量的图像。但在手部渲染上存在困难,常产生解剖结构不正确的手部,从而导致“恐怖谷”效应。

为此,Seeing Machines联合澳大利亚国立大学提出,用于修复扩散模型生成图像中扭曲手部的端到端工具HandCraft。HandCraft能够与现有的预训练扩散模型无缝兼容,采用即插即用的设计,无需额外的微调或训练。相关论文成果收录于WACV 2025顶会上。

解决恐怖谷效应!澳国立提出扩散模型生成图像扭曲手修复工具 | 一作秦震岳博士主讲预告

HandCraft利用自动生成的手部模板图作为条件信号,能够修复扩散模型生成图像中的扭曲手部,使其解刨结构正确,实现精准的局部修复,不影响图像的其他部分;同时保持图像的姿势、颜色和风格一致,提高了图像的真实感,避免了“恐怖谷”效应。

解决恐怖谷效应!澳国立提出扩散模型生成图像扭曲手修复工具 | 一作秦震岳博士主讲预告

该团队还提出了MalHand数据集,其中包含多种风格中形态错误的手部生成图像,用于手部检测训练和手部修复基准测试;并通过定性和定量的评估展示了HandCraft在恢复手部解剖正确性的同时,还能保持图像整体的完整性。

12月25日晚7点,智猩猩邀请到论文一作、澳大利亚国立大学博士秦震岳参与「智猩猩AI新青年讲座」第261讲,主讲《扩散模型生成图像中的扭曲手修复》。

讲者

秦震岳,澳大利亚国立大学博士 

博士和本科均毕业于澳大利亚国立大学,本科获一等荣誉。博士毕业后工作于澳大利亚AI公司Seeing Machines,任机器学习科学家,以及于腾讯互动娱乐事业群(IEG),任高级研究员,有幸与Hongdong Li教授一起工作。在CVPR,AAAI,EMNLP,TNNLS等知名会议期刊发表论文6篇,研究方向主要为三维计算机视觉。目前任耶鲁大学博士后,研究方向为眼科医疗及多模态大模型。

第 261 讲

主 题 《扩散模型生成图像中的扭曲手修复》

 提 纲 
1、扩散模型生成图像时的手部扭曲问题
2、端到端自动化工具的必要性和重要性
3、利用HandCraft精确修复扭曲手部的解剖结构
4、实验结果分析及难样例的处理
5、总结

 直 播 信 息 

直播时间:12月25日19:00

论文成果

标题:《HandCraft: Anatomically Correct Restoration of Malformed Hands in Diffusion Generated Images》
链接:https://arxiv.org/pdf/2411.04332
项目地址:https://kfzyqin.github.io/handcraft/
收录情况:WACV 2025

入群申请

有讲座直播观看需求的朋友,可以添加小助手“米娅”进行报名。已添加过“米娅”的老朋友,可以给“米娅”私信,发送“ANY261”进行报名。对于通过报名的朋友,之后将邀请入群进行观看和交流。

解决恐怖谷效应!澳国立提出扩散模型生成图像扭曲手修复工具 | 一作秦震岳博士主讲预告