文本到图像的扩散模型在文本提示的指导下展示了前所未有的创作能力,例如在视觉艺术、合成数据集构建以及市场营销和广告中的图像编辑等创意工作。然而,基于特定主题生成个性化实例仍然具有挑战性。
为此,vivo影像规划预研部研究员官善琰等提出一种新的框架HybridBooth。该框架融合了基于优化和直接回归方法的优点,创造一种平衡质量和速度的混合方法,从而实现了高效、精确的主题驱动生成。相关论文成果收录于ECCV 2024。
同时,深度学习在模拟复杂粒子系统(如流体)的物理动力学方面显示出巨大的潜力。然而,神经网络是否可以直接从观察到的图像推断流体动力学仍然是一个悬而未决的问题。对此官善琰研究员等提出了神经流体NeuroFluid,其为首个基于粒子的流体动力学的无监督学习解决方案。相关论文成果收录于ICML 2022。
NeuroFluid关键思想是在端到端可训练的框架中,将基于粒子的流体模拟与粒子驱动的神经渲染连接起来,使两个网络可以联合优化,从而获得两者之间合理的粒子表示。实验数据表明,NeuroFluid学习了更加合理的流体动力学,可以在动态基础、预测和新视图合成方面产生不错的结果。
《易经·说卦》有言:“穷理尽性,以至于命”。 人类能够轻松辨别内在动态并适应新场景,但如何赋予机器像人类一样“观察、理解和推理”物理世界的能力往往面临巨大挑战。针对如何从视觉观察中准确地推断出实际的内在动力学问题,官善琰研究员等提出了基于学习且具有物理知识先验的神经材料适配器NeuMA。相关论文成果收录于NeurIPS 2024。
NeuMA促进对实际动态的准确学习,同时保持物理先验的通用性和可解释性。此外,还提出了一种粒子驱动的3D高斯溅射变体Particle-GS,能够连接模拟和观察到的图像,允许通过反向传播图像梯度来优化模拟器。
在不同材料和初始条件下对不同动态场景下的 NeuMA 进行了评估。该方法在物体动态基础和动态场景渲染方面具有竞争力,同时在新形状、多物体交互和长时间预测方面具有良好的泛化性。
11月19日19点,智猩猩邀请到vivo影像规划预研部研究员官善琰参与「智猩猩通用视觉讲座」04讲,主讲《基于视觉的物理规律反演》。讲座过程中将会分析当前视觉反演框架的局限性,介绍HybridBooth框架如何提升个性化反演精度,NeuroFluid在流体动力学中的应用,以及NeuMA神经材质适配器在内在动态建模中的优势。这些方法为基于视觉的物理规律反演提供了新的技术路径。
讲者
官善琰,vivo影像规划预研部研究员
1、一般视觉反演框架存在的问题
2、高效个性化属性反演框架HybridBooth解析
3、动力学视觉反演
-NeuroFluid解决视觉场景逆问题理解流体动力学
-神经材质适配器NeuMA提升内在动态建模精度
4. 实验比较与分析
直 播 信 息
直播时间:11月19日19:00
成果
论文标题
《HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation》
《Neurofluid: Fluid dynamics grounding with particle-driven neural radiance fields》
《NeuMA: Neural Material Adaptor for Visual Grounding of Intrinsic Dynamicas》
论文链接
https://arxiv.org/abs/2410.08192
https://arxiv.org/abs/2203.01762
https://arxiv.org/abs/2410.08257
项目地址
https://sites.google.com/view/hybridbooth
https://github.com/syguan96/NeuroFluid
https://xjay18.github.io/projects/neuma.html
如何报名
有讲座直播观看需求的朋友,可以添加小助手“沐可”进行报名。已添加过“沐可”的老朋友,可以给“沐可”私信,发送“通用视觉04”进行报名。对于通过报名的朋友,之后将邀请入群进行观看和交流。