智东西(公众号:zhidxcom)
作者 | GenAICon 2024

2024中国生成式AI大会于4月18-19日在北京举行,在大会第二天的主会场AIGC应用专场上,极佳科技创始人&CEO黄冠博士以《技术与应用闭环,从视频生成走向世界模型》为题发表演讲。

黄冠认为,当下所有“通用智能”都在走向“端到端大模型”,一切问题都变成了“高质量数据”问题“世界模型”是未来具身智能最重要的“高质量数据”来源,它结合互联网数据、仿真数据、遥操数据、真实采集数据等多种数据,学习、训练、组合,从而得到交互式物理世界模拟器。

极佳科技正基于世界模型打造新一代数据平台,面向端到端自动驾驶和通用机器人提供服务。极佳科技DriveDreamer自动驾驶世界模型、WorldDreamer通用世界模型目前已成功商业化落地

以下为黄冠的演讲实录:

今天我主要跟大家汇报讨论一下我们在视频生成、世界模型方面相关的思考和进展,以及主要想分享一下我们对于打造通用具身智能新一代数据引擎的想法。

我们总结了通用智能目前大的发展趋势,整个行业在从以GPT和Sora为代表的通用内容智能,走向通用行动智能。无论是Agent、自动驾驶还是机器人,其核心是从产生内容到产生行动。当大模型能可靠地产生行动,那么对整个经济和社会的影响肯定是更大范围的,才是大家所谓的走向真正的“第四次工业革命”。

一、世界模型发展三大方向:视频生成、自动驾驶、通用机器人

世界模型这个词一开始是杨立昆提出的,他说GPT不能达到AGI,我们需要世界模型。其实这两年国内外,大家越来越认识到世界模型的重要性,核心是分三个方向在发展,包括视频生成、自动驾驶和通用机器人,都非常关注世界模型的进展。

极佳科技黄冠:为通用具身智能打造数据引擎,商业化落地速度国内最快丨GenAICon 2024

首先是视频生成。今年年初Sora引爆整个AI圈子,值得注意的是OpenAI并没有把Sora看成一个单纯的文生视频模型,而是把它叫做World Simulator(世界模拟器),这就有了世界模型的雏形。去年下半年Runway也公开宣布说他们要走向通用世界模型。

我们也有一个工作叫WorldDreamer,应该是全球比较领先的用Transformer新一代架构,不是Diffusion架构,去走向通用视频生成和世界模型。

极佳科技黄冠:为通用具身智能打造数据引擎,商业化落地速度国内最快丨GenAICon 2024

其次我们看到自动驾驶这个行业。既然是世界模型,一定会影响物理世界,会对物理世界有极强的理解和预测能力。

所以我们看到特斯拉从去年年中开始说他们在做General World Model(通用世界模型),同时特斯拉不断在视频基础模型这个方向加大投入。还有Wayve是一家英国的自动驾驶公司,这是比尔·盖茨在投了OpenAI之后,立马就去英国投的一家公司,因为比尔·盖茨觉得Wayve让他看到了物理世界AGI的希望。

极佳科技也是国内最早开始做自动驾驶世界模型的公司,我们的模型叫DriveDreamer,目前已经实现了大规模的商业落地应用。

更大的趋势,大家看到现在在通用机器人方向,伯克利、Covariant做了一系列跟世界模拟器、世界模型相关的工作,包括他们最近发的RFM机器人大模型相关工作。谷歌也在做可交互式的世界模型,人形机器人创企1X也通过世界模型预测未来、实现通用机器人。

全球世界模型跟视频生成、自动驾驶、通用机器人行业结合起来,正在非常快速发展。

二、通用智能走向端到端大模型,世界模型是最重要的高质量数据来源

目前的趋势是,所有通用智能都在走向端到端大模型,无论是生成式智能,包括语言、视频、图像、3D等的理解和生成;还是具身智能,包括自动驾驶、通用机器人等。

特别是自动驾驶,大家看到最近马斯克频频给特斯拉V12造势,它是标准的Video-in Action-out(视频输入-动作输出)系统。通用机器人也是最新的硅谷趋势,大家都在走向端到端、Video-in Action-out这样一个范式。

在这个趋势下,一切问题就变成了高质量数据的问题,因为这已经不再是过去规则驱动的系统了,需要高质量端到端的数据去迭代,去训练这样生成式智能或具身智能的系统。

我们认为,世界模型是未来具身智能最重要的高质量数据来源。现在大家看到有很多种解决数据问题的方式,包括从互联网的图像、视频数据去学习,还有用仿真数据去学习,或者像斯坦福通过ALOHA机器人等遥操设备去做端到端学习,自动驾驶或机器人通过真实采集的数据去学习。

行业里大家首先通过各种仿真的方式去解决Sim2Real的问题,以及通过更大规模的部署,解决更多真实数据来源的问题。

所以我们认为未来的数据来源一定会走向世界模型,它会结合上面所有数据去学习训练组合,得到交互式的物理世界模拟器

三、基于世界模型打造新一代数据平台,商业化落地速度国内最快

我们目前在做的事情,就是基于世界模型打造新一代的数据平台,面向端到端自动驾驶和通用机器人。平台底层是一个以视频生成和世界模型为核心的基础模型。大家知道Sora目前是不可用的,无论是成本还是速度,我们会追求速度和成本达到数量级的降低。

同时我们会有完备的平台服务,通过数据方式去服务端到端通用自动驾驶,以及通用机器人的通用操作、通用移动等相关场景,助力具身智能行业爆发。

极佳科技目前在自动驾驶世界模型上,相关技术是全球最领先的之一,同时我们商业化速度也是全球最快的。我们和国内很多主流的头部主机厂已经开始实际的商业合作,通过世界模型,用于数据生成、闭环仿真等相关方向。

极佳科技黄冠:为通用具身智能打造数据引擎,商业化落地速度国内最快丨GenAICon 2024

同时,更具想象力和价值的场景,是我们面向通用机器人的世界模型和物理世界模拟器,这个方向我们的技术目前在国内也是比较领先的,同时我们商业化落地速度也是国内最快的。

其核心跟驾驶一样,首先它可以作为一个模拟器在通用机器人的数据生成、闭环仿真方面有重要的作用,同时后面也可以作为方案一部分,走向机器人的端到端方案。这个范式跟过去的自动驾驶和机器人分模块范式很不一样,会走向大一统的面向通用具身智能的端到端整体架构

极佳科技黄冠:为通用具身智能打造数据引擎,商业化落地速度国内最快丨GenAICon 2024以上是黄冠演讲内容的完整整理。