与AI大模型搭档、做空间计算助攻,英伟达如何给数字孪生开路?

智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

在NVIDIA创始人兼CEO黄仁勋描绘的未来蓝图中,实现互联的虚拟世界一直是重要愿景之一。

黄仁勋将计算机图形学、物理学、人工智能(AI)称作NVIDIA的三个“灵魂”。用于构建和运行元宇宙应用的核心内容引擎NVIDIA Omniverse,便位于这三者的交汇处,它犹如未来数字孪生的操作系统,为工业和科学案例模拟大规模物理精准的虚拟世界提供了基石。

今年Omniverse的一大更新是提供Omniverse Cloud API。在3月举行的NVIDIA GTC大会上,NVIDIA公布5个全新的Omniverse Cloud API,宣布将Omniverse企业级数字孪生带入苹果Vision Pro,并分享了与西门子、微软、罗克韦尔自动化等行业领先企业合作的落地应用进展。

面向未来数字孪生,如何将大模型与Omniverse的协同?NVIDIA将在增强空间计算和高保真仿真体验方面扮演怎样的角色?近日,NVIDIA中国区高级技术市场经理施澄秋、NVIDIA中国Omniverse业务负责人何展对Omniverse最新进展进行了进一步分享与解读。

NVIDIA Omniverse的数字孪生已经涵盖汽车、制造、媒体、建筑、能源、科学运算仿真等行业。据介绍,Omniverse在全球的三个最新应用方向是数字孪生工厂、产品设计、基于产品设计的配置系统。其支持团队包括NVIDIA内部资源(售前技术团队、售后技术团队,还有技术算法团队等),倾注很多资源的个人及初创企业开发者,以及ISV合作伙伴。

一、5款全新API帮企业提效,降低引入Omniverse功能的门槛

很多行业用户正在创建数字孪生,来设计、模拟、构建、运营、优化整个资产及工作流程,提升运营效率,节省成本。

数字化将使各行各业能够构建1:1符合真实物理规律的数字资产,通过精准的3D仿真和构建物理产品的环境,来帮助客户、企业整个供应链、生产链、行业链里各环节的人员实现降本增效。

NVIDIA Omniverse是一个构建和部署工业数字化应用的技术平台,基于OpenUSD的方式,将已有的工具和数字资产与全球最大的大规模设计和模拟行业生态系统相连接。

Omniverse驱动的应用程序和相关软硬件环境从根本上改变了复杂的3D工作流,使得个人、团队乃至分布在各个不同地点的跨国企业,都能够构建一个统一的工具和数据的工作流。

为了让Omniverse更易访问,NVIDIA打造了Omniverse Cloud API。

与AI大模型搭档、做空间计算助攻,英伟达如何给数字孪生开路?

(1)USD Render,利用RTX的强大功能,比如全光线追踪渲染图像,而且这些图像数据是用符合业界标准USD的方式来描述的,也就是说已有的ISV程序下适用现在已经习惯使用的数据资产,用USD方式描述,就可以用USD Render来调用API,进行高阶RTX GPU的渲染。

(2)USD Write,允许用户修改OpenUSD场景中的数据,并能够实时与之交互。

(3)USD Query,是实现整个场景的查询和互动式操作。

(4)USD Notify,可以实时跟踪USD更新的状态,并且能够实时通知用户,比如我是A用户,B用户或者我的乙方做了一些小改动,可以实时通知我这个数字资产有改动,改动了哪些地方。

(5)Omniverse Channel,可以用来连接用户和工具在同一个场景中进行实时的协作。

以前要打造一个把Omniverse融入进去连接到云端系统,企业需要专业知识和大量的人力、物力、时间去迭代已有版本,可能涉及到大范围代码重写。

NVIDIA中国区高级技术市场经理施澄秋解释说,这相当于把一座房子里面所有装修都拆掉,从毛坯开始重新装修,最后可能装修得很漂亮;Omniverse Cloud API则相当于一个小规模翻新,不需要大拆大改,Omniverse Cloud里的资源是随时ready的,企业只需利用API里的相应指令去调用想用的Omniverse功能,不需要重写代码,能够显著降低开发门槛,提高效率。

这些API将会在今年晚些时候在微软Azure云上提供,支持开发人员自行托管或作为托管服务。

二、迈向AI时代的数字孪生,AI大模型与Omniverse如何协同?

就像大语言模型在训练过程中需要人类的反馈一样,数字孪生新时代也需要物理的真实反馈,来确保在虚拟环境中学习的AI能在物理世界中真实的1:1的执行。当3D虚拟世界连接到真实的物理世界时,企业就可以通过AI支持的监控持续运行,并优化他们的数字孪生和物理孪生。

AI已经进入物理世界。NVIDIA Omniverse中国区业务负责人何展谈道,NVIDIA AI Enterprise和Omniverse两大平台正在开启AI时代的数字孪生。每一栋建筑、仓库、工厂都将实现AI并进行优化,新一代数字孪生需要虚拟世界来训练和测试AI,值得信赖的高性能AI需在一个遵守物理定律的数字孪生世界中进行模拟、测试和验证。

NVIDIA为自己的业务创建了Omniverse,打造了涉及自动驾驶、具身智能机器人、生成式AI、3D生成算、数字人技术、气象学研究、合成数据等一系列应用案例。同时,Omniverse也可以帮助更多的企业,涉及领域从研究、产品设计、运维、创意到市场和营销。

AI大模型能够把Omniverse和USD数字资产连接起来。施澄秋提到Omniverse的组件ChatUSD可使用对话式AI进行USD访问。

例如在Omniverse里想调用一个数字资产,在场景里放一盏灯,使用ChatUSD,说“给我放一个大概1.8米高度、60W左右,能够适应30平方米卧室的落地灯”,它马上就可以调出来。

谈到AI数字孪生的训练部署对应用的具体要求,施澄秋主要提到三方面:效率,高保真,渲染。

对于应用程序而言,首先是训练和部署的效率,效率决定一切;第二,高保真,意义在于渲染精度、模型精度、训练精度,不同客户对精度有不同要求,NVIDIA会区分不同场景做不同取舍的计算、渲染;第三,渲染到最终用户的显示设备上,最后渲染出的结果要漂亮、符合物理定律、有光线追踪,渲染出的4K结果画质要好,最终落到GPU算力上。

随着自动驾驶汽车和机器人需求的增加,AI开发人员可能需要更多的传感器数据来训练、测试、验证AI感知系统。这些感知系统可通过传感器模拟方式去实现一个合成数据1:1数字孪生世界,在Omniverse构建的虚拟世界里进行训练、测试、仿真、验证等等。

这些合成数据需要物理上非常精确的符合物理定律的渲染。许多仿真生态系统正使用Omniverse Cloud API来进行扩展、仿真、传感器的工作流程,从而加快产品上市时间,能够节省收集真实世界传感器数据的巨额成本。

随着Omniverse扩展到全球最大的工业软件生态系统,全球工业企业都可以加速软件定义产品,并加速自主移动车辆、自动驾驶车辆乃至人形机器人、智能仓储、大规模智慧城市等工作流程。

三、将Omniverse引入苹果Vision Pro,做高保真体验的“神助攻”

NVIDIA与苹果合作,将Omniverse带到Vision Pro上,使开发人员通过互联网连接就能具备完整的RTX实时物理渲染特性的应用程序和数据集。

NVIDIA GDN是一个由图形就绪数据中心组成的全球网络,利用NVIDIA全球云到边缘流式传输基础设施来提供流畅、高保真的交互体验,可将先进的3D体验流式传输到苹果Vision Pro。通过将繁重的计算任务转移到GDN,用户可以处理苛刻的渲染用例,而无需考虑数据集的大小或复杂程度。

与AI大模型搭档、做空间计算助攻,英伟达如何给数字孪生开路?

施澄秋分享说,由于移动设备算力有限,本地运算很难得到一个非常理想的高保真最终渲染结果,因此结合远端和边缘的算力,以及用流媒体的方式去呈现,可能是现阶段比较现实和折中的一个理想解决方案。

Omniverse里的GPU是ready的,是顶尖的RTX GPU。RTX GPU里有三个核心点:1、传统着色部分,可用来做像素渲染,确保画面是美轮美奂的;2、光线追踪加速,用包裹体便利的方式做实时光线追踪,延迟更低,帧率很高,对用户的互动性也更强;3、张量,RTX GPU里都有针对张量运算的核心,能进行AI加速,比如像大模型、生成式AI、NeRF等。

云端用Omniverse的API来打造和连接各式各样的应用程序,再用基于USD或OpenUSD方式去打通数字资产之间的连接和调用,最后通过RTX GPU的算力和高保真符合物理定律的实时光线追踪的方式,去完成画面渲染。即从原材料到粗加工、精加工,最后端上一盘可口的饭菜,能让实实在在的3D空间场景呈现在苹果Vision Pro用户的眼前。

施澄秋说,人眼看到的分辨率受制于显示设备。RTX GPU有很多复杂特性,能够以较低精度去渲染没看到的画面,以高精度去渲染用户当前看到的画面,也就是说有相当多的视野以外的低精度预渲染方式在后台运行。它可能建立在一个运动预测和模型感知基础上。

另外一个实现的方式就是AI,利用生成式AI可以动态实时支持破损画面的修复,支持缺失像素的填补。因为有很多画面是用低渲染度方式渲染的,也就是说4K分辨率可能只用1080p的分辨率去渲染,只渲染了1/4的像素,这时用生成式AI去渲染另外的3/4没有被渲染出来的画面,可以快速用一个1080p低渲染精度生成一个4K渲染。

游戏开发商或基于Omniverse、基于虚幻引擎或Unity很多客户做3D场景或数字孪生构建时,也可以利用这个技术,即DLSS技术。这个不仅对于游戏开发商有用,对于数字孪生、数字资产管理、VR/XR的方式同样适用。

因为单眼4K分辨率太高了,要做光线追踪、物理模拟很困难,必须要把算力推动到最集中的视野中间去。实现方式包括DLSS、neural graphic、NeRF等。

用AR/VR设备查看内容时,如果头转动的时间跟画面同步不匹配,就像人坐车一样,大脑、小脑、眼睛看到的和运动感知的交感神经系统不匹配的话,就晕了,所以如果VR算得不够快、延迟不够低,可能会晕,甚至严重时会恶心想吐。

全保真也好、高保真也好,不仅看到的画面要细腻、要逼真,分辨率要高,同时物理模拟,比如像云、光影、火焰、粒子、空气、动力,都要符合自然界真实的规律,同时还要能够在头显设备上实现低延迟屏幕画面的呈现。

结语:云端3D内容落地空间计算,B端应用预计早于C端应用

展望云端3D内容在XR空间计算上的应用趋势,施澄秋认为,B端应用一定早于C端应用,当B端的应用做到比较成熟时才会推到C端去使用,因为C端用户的体量更庞大。

在算力和整个基础设施比较受限的现阶段场景下,首先去满足专业级用户对于最严苛应用环境和场景情况的需求,因为这类用户对成本的敏感性不高,对于基础建设和使用的终端设备上投入预算的限制也没有C端用户那么高。

当整个使用、拥有、运营成本降低后,AI或云端的算力大幅提升,供给侧短缺不像现在这么受限,那时C端可能会真正蓬勃发展,游戏、娱乐等行业就能通过VR/AR/XR的方式去实现。