智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影
智东西7月16日报道,NVIDIA将于7月28日至8月1日在美国丹佛市举行的顶尖计算机图形大会SIGGRAPH 2024上展示渲染、仿真和生成式AI领域的多项最新进展,包括如何通过AI研究来提高图像质量、优化3D呈现方式、使仿真模拟更逼真。
据悉,这次NVIDIA Research携20多篇论文参会,分享涉及推动合成数据生成器和逆渲染工具发展的创新成果。这些新研究进展适用于视觉生成式AI的扩散模型、基于物理的仿真以及日益逼真的AI渲染,能够为训练下一代模型提供助力。
其中有两篇论文荣获最佳技术论文奖,还有一些论文是与美国、加拿大、中国、以色列和日本的大学以及Adobe和Roblox等公司的研究人员合著的。
从落地价值来看,这些研究将有助于为开发者和企业创造出用于生成复杂虚拟物体、角色和环境的工具,帮助科学家理解自然现象,或协助机器人和自动驾驶汽车的仿真模拟训练。
在本届SIGGRAPH大会上,NVIDIA创始人兼首席执行官黄仁勋将与《连线》资深撰稿人 Lauren Goode进行炉边谈话,探讨机器人和AI如何影响工业数字化。
一、用扩散模型改进纹理绘制,30秒生成一致主体图像
扩散模型是文生图常用工具,可快速生成脚本或作品的视觉效果,缩短将创意变为现实的时间。NVIDIA有两篇论文与此相关。
NVIDIA与特拉维夫大学的研究人员联合开发的ConsiStory,引入了一种名为“主体驱动的共享注意力”的技术,可将生成一致主体图像所需的时间从13分钟缩短到30秒左右,使多幅同一个主角的图像生成变得更加容易。
这项研究对于绘制连环画或开发脚本等叙事应用场景来说很有帮助。
去年,NVIDIA研究人员凭借将文本或图像提示转化成自定义纹理材料的AI模型赢得了SIGGRAPH的Real-Time Live最佳展示奖。今年其研究团队又发表了一篇介绍如何将2D生成扩散模型应用于3D网格上的交互式纹理绘制的新论文,使艺术家能够基于任何参考图像实时绘制出复杂的纹理。
二、研究基于物理的仿真,加速模拟真实世界的运动
基于物理的仿真能缩小实物与其虚拟呈现之间的差距,使数字物体和角色如同在真实世界中一样运动。多篇NVIDIA Research论文介绍了相关突破性进展,包括一种更加高效的头发建模技术、一种可将流体仿真速度加快10倍的工作流等等。
一篇与卡内基梅隆大学研究人员合著的一篇新型渲染器论文,是获评本届SIGGRAPH“最佳论文”的五篇论文之一。
这个渲染器不是用于物理光建模,而是能够用于执行热分析、静电分析和流体力学分析,其方法易于并行化且不需要繁琐的模型清理,为加速工程设计周期带来了新的可能性。
针对基于文本提示模拟复杂人体动作的挑战,研究人员通过将强化学习与监督学习相结合,展示了如何训练SuperPADL框架再现5000多种技能的动作,以及该框架如何在消费级NVIDIA GPU上实时运行。
另一篇论文介绍了一种神经物理学方法,将AI应用于学习物体(无论是以3D网格、NeRF还是由文本转3D模型技术生成的实体物体呈现)在环境中移动时的行为方式。
三、提高渲染逼真度,模拟衍射效应提速1000倍
NVIDIA的另一组论文介绍了一些新技术,能将可见光建模速度提速最高达25倍,将模拟衍射效应(例如用于训练自动驾驶汽车的雷达模拟)提速最多达1000倍。
路径追踪可对多个路径(穿过场景的多束光线)进行采样,从而创造出照片般逼真的图片。ReSTIR是NVIDIA和达特茅斯学院研究人员在SIGGRAPH 2020上首次发布的路径追踪算法,是将路径追踪技术应用于游戏和其他实时渲染产品的关键。
今年NVIDIA有两篇SIGGRAPH论文介绍了如何提高ReSTIR的采样质量。其中一篇论文由NVIDIA与犹他大学合著,介绍了一种重复利用计算路径的新方法,最多可将有效采样数增加 25 倍,大大提升了图像质量。另一种方法则是通过随机改变光的路径的子集来提高采样质量。这有助于更好地运行去噪算法,减少最终渲染中产生的视觉伪影。
▲从左到右:早前采样、25倍改进后的样本和参照图像之间的视觉质量比较。示例由Blender工作室提供。
NVIDIA和滑铁卢大学的研究人员合著的一篇论文则解决了自由空间衍射问题。自由空间衍射是一种光线在物体边缘扩散或弯曲的光学现象。其方法可以与路径追踪工作流集成,以提高复杂场景中模拟衍射的效率,最多可提供1000倍的加速。除渲染可见光外,该模型还可用于模拟波长较长的雷达、声波或无线电波。
四、教会AI用3D思维进行思考,为城市规模级3D重建提供基础设施
NVIDIA研究人员将在SIGGRAPH上展示一些用于3D呈现和设计的多用途AI工具。
例如,NVIDIA与达特茅斯学院研究人员合著的一篇论文获得了最佳技术论文奖,介绍了一种呈现3D物体如何与光相互作用的理论,能将各种不同的外观统一到一个单一的模型中。
NVIDIA与东京大学、多伦多大学和Adobe Research合作撰写的一篇论文介绍了一种可在3D网格上实时生成平滑的空间填充曲线的算法。以前的方法需要运行几个小时,而该框架的运行时间只需几秒钟,并能够支持用户对输出结果进行高度控制,以实现交互设计。
还有一篇论文介绍了一种GPU优化的3D深度学习框架fVDB。该框架能够匹配现实世界的规模,为实现城市规模3D模型和NeRF的大空间尺度与高分辨率以及大规模点云的分割和重建提供了AI基础设施。
结语:生成式AI+仿真技术,缩小现实与虚拟世界之间的距离
作为图形与加速计算领域的领跑者,NVIDIA多年来在SIGGRAPH大会上介绍了许多覆盖视觉计算与图形渲染的前沿论文。这些研究进展不仅持续提升仿真建模的真实感和效率,还推动了计算机图形学、计算机视觉、人机交互和AI技术的融合,使得模拟真实世界的相互作用日益成为可能。
凭借增强重建能力和提升仿真质量的特性,生成式AI通过正成为显著加速模拟仿真发展的新引擎。用合成数据训练大模型,又能加快生成式AI应用的落地。仿真与生成式AI技术的相辅相成,使得解决仿真模型与物理世界一致性难题的研究取得更多突破,最终将赋能工业制造、自动驾驶、具身智能和机器人等行业,助力解决现实世界中的各种复杂工程挑战。
在SIGGRAPH 2024期间,NVIDIA研究人员还将举办NVIDIA OpenUSD日,展示开发人员和行业领导者如何通过使用和发展OpenUSD来构建AI赋能的3D工作流。