机器人把全套家务都包了！美国明星创企CEO揭秘“思维链”式长程任务规划

机器人前瞻（公众号：robot_pro）
作者｜葛文婷
编辑｜漠影

机器人前瞻4月10日报道，近日，Physical Intelligence联合创始人Sergey Levine做客播客节目《Invest Like The Best》，与主持人、风险投资公司Positive Sum创始人兼CEO Patrick O’Shaughnessy展开深度对话。两人围绕机器人通用基础模型这一核心话题，探讨了技术难关、具身智能愿景、机器人演示的价值、机器人真正的奥林匹克赛以及数据飞轮等前沿议题。

“我们开发了一些流程和系统，专门用于导入各类新任务。经过测试发现，它们几乎能解决所有问题，可唯独有两件事做不到，一是把正装衬衫翻过来，二是让机器人用手指剥开橙子。”Sergey Levine坦言。他进一步解释道，采用“思维链”式工作机制，确实能让机器人完成复杂的长程任务，比如整套洗碗、摆碗筷、擦桌子。这听起来很天才，但同样机制却无法让机器人徒手剥开一个橙子。

以下是这期博客主要几个的核心内容：

1、愿景：Physical Intelligence致力于开发机器人基础模型，使其具备控制任意具身系统、完成任意任务的能力。

2、长尾问题：可以利用多模态大模型蕴含的常识解决机器人领域的“长尾问题”。

3、技术路径：Levine分享了团队目前采用的VLAs技术策略，探讨了用这种策略提升模型泛化能力的可能性，认为机器人领域不必专门定义一个具体的数据库数值，真正要做的是打磨机器人系统，让机器人自己走进现实世界去收集更多数据，形成数据飞轮。

4、“思维链”式工作机制：Sergey Levine透露，可以采用“思维链”式工作机制让机器人具备长程能力。

5、机器人要不要酷？：机器人必须要在有用的基础上尽可能酷炫。

6、机器人真正的奥林匹克赛：真正的“奥林匹克”应该是人类觉得简单、机器人却觉得难如登天的家务活。

7、机器人形态：通用模型具有“形态不可知性”，未来的机器人不必局限于模仿人类形态，而应根据任务需求设计最优工具，由通用智能统一控制。

8、机器人演示的意义：机器人演示并非哗众取宠，而是具有其独特价值。

9、推动技术发展的客观因素：技术进步+硬件成本下降是推动机器人技术发展的两个客观因素。

一、开发通用大模型，打造机器人的统一“大脑”的愿景面临着重重挑战

Patrick O’Shaughnessy：

各位好，今天我的嘉宾是Sergey Levine。他是Physical Intelligence的联合创始人兼研究员。

在播客开始前我要先做个说明：我是Physical Intelligence的投资人，因为我相信这是解决机器人问题的最重要的公司之一。

我们今天要探讨的问题，我称之为机器人领域的“稻草人”问题。

如今，各式各样的机器人正以各种新奇炫酷的形态不断涌现，但它们真正迫切需要的，是一套真正意义上的智能系统，一颗统一的“大脑”，这正是Physical Intelligence全力攻坚的方向。

他们致力于开发基础模型，旨在让任何物理机器人在任何环境中都能执行任何任务。这一挑战令人望而生畏，需要汇聚世界上许多顶尖的研究人员。Sergey作为其中的领军人物之一，正与大家共同努力解决研发期间需要解决的问题。这就是我们今天对话的背景。

Sergey Levine：

没错，我们正在共克所有的难关。

Patrick O’Shaughnessy：

能够深入了解这个可能是目前最令人兴奋、最具影响力的技术开发领域，对我来说将是一次真正的享受和乐事。

在我们回溯过去之前，能不能先请您定义一下，在您看来，什么是“物理智能”？

Sergey Levine：

从根本上说，Physical Intelligence致力于开发机器人基础模型，使其具备控制任意具身系统、完成任意任务的能力。

广义上讲，你可以这样想象：就像语言模型正迅速演变成一个能够处理任何“可用语言表达的任务”的系统一样，我们想要构建的是一类新型模型，它能够完成任何“可由物理驱动设备执行的任务”。

我们认为，从长远来看，在完全通用的层面上解决这个问题，实际上可能比针对非常具体、狭窄的应用领域去搞“特例化”要更容易。

这与语言模型的情况又非常相似：事实证明，在某些方面，以完全通用的方式解决自然语言任务，要比狭隘地针对机器翻译、情感分析等特定任务去攻关，反而更加容易。

Patrick O’Shaughnessy：

相比于做一个只负责洗碗之类的专用机器人，选择做通用模型这条路，其中的原因可能并不那么显而易见。

那么，我们需要理解的关键权衡点是什么？你们又是基于什么做出了现在的决定？

Sergey Levine：

关于这个问题，我可以分两部分来回答。第一部分是关于大语言模型的类比，第二部分是这对机器人领域意味着什么。

首先，从自然语言领域的证据来看，我们曾看到过很多开发“领域特定解决方案”的尝试，旨在解决具体问题。比如，有人会花大量时间研究英语和法语的差异，然后构建一个机器翻译系统。

而大语言模型之所以能统领所有这些不同的应用领域，是因为它们能够利用更广泛的数据源。

这不仅仅是说“我们有用于这个应用的数据，也有用于那个应用的数据，把它们合并起来”那么简单。实际上远不止于此。

当你能利用弱标注数据（比如在语言模型案例中，你直接从网络上抓取的数据）时，你实际上学到了更多关于这个世界的知识。因此，你建立了一个理解世界的基础。在此基础之上，再去构建不同的应用，效率会高得多。

把这个逻辑带入机器人领域，显然计算方式看起来不太一样，因为在机器人领域，我们并没有像互联网规模那样的数据集可以直接利用。
但“理解世界”这一概念，对机器人来说其实更加重要。

因为如果你有各种不同的任务，甚至是各种不同的物理系统，你可以选择去训练一个个单独的“洗碗专家”或“叠衣服专家”，但也可以选择训练一个真正理解物理交互的模型。就像人类可以非常迅速地掌握新技能一样。因为我们理解物理交互，所以我们可以直观地推断出在这种既新又熟悉的情况下会发生什么。这一切都能非常快地自我引导。

所以，如果我们能从许多来源、许多应用、许多机器人那里获取数据，我们就能拥有一个具备物理理解能力的模型。在此平台之上添加新应用，将会变得容易得多。

Patrick O’Shaughnessy：

那么对你来说，研发这种通用模型最具挑战性的部分是什么？

特别是当你看到那些其他方案时，那些可能对普通人来说更直观、更容易理解的方案。

比如，大家看到一个机器人到处移动，只在做一件具体的事，大家一眼就能看懂：“哦，它看起来就是干这个的。”

那么，相比那种直观的感觉，你们现在做的通用大模型，最棘手、最难搞定的地方究竟在哪里？

Sergey Levine：

我觉得这个问题其实其实贯穿了我的整个职业生涯。

因为当你从事机器人学习研究时，越是追求通用性，越是追求有效的泛化能力，你就越难做出一个让人眼前一亮的演示。

要知道，想要做一个让人兴奋的演示，方法通常是挑选一个很酷的任务，控制环境中的所有其他变量，把场景布置得完美无瑕、一尘不染，然后只让机器人在那一个特定设置下跑通。这就是做机器人演示的常规套路。

但是，泛化能力没法只在某一个点上展示。

泛化的核心在于：机器人能做一件人类都能做的、相对平凡的小事，但它能在任何情况下都能做。

我们在去年四月发布过一些演示，展示我们的机器人清理厨房。我觉得这挺酷的，但如果你脱离背景单看其中一个视频，你会觉得：“哦，就是在拿盘子嘛，谁都会拿盘子。”

但实际上，我们只是把这个机器人放进了那个家庭环境来做演示，它从未在那个特定的环境中接受过训练。

所以很明显，你必须得了解其中的门道，才能明白为什么这实际上是在推动技术的前沿。

Patrick O’Shaughnessy：

在你看来，你们这项事业的分量究竟有多重？

换句话说，假如你们真的做成了，我很想听听你会如何定义这种“成功”。

除了“我们跨越了通用物理智能这道鸿沟”这种技术层面的说法，当你们真的跨过了那条线时，那究竟意味着什么？

Sergey Levine：

在我看来，通用具身基础模型一旦实现，最令人兴奋的一点在于：它将能够释放人们的想象力，让大家随心所欲地构建机器人和其他具身系统。

对我来说，个人电脑之所以意义重大，是因为它让普通人也能通过拼凑组合，搞出各种酷炫的东西。从90年代开始，涌现出了一场应用层面的“寒武纪大爆发”，后来互联网更是加速了这一进程。

我认为机器人领域也会发生类似的事情，但今天还无法实现。因为如果你想实现一个很酷的新点子，你不得不去构建一个庞大的技术栈，基本上得先把“智能”这个难题从头解决一遍。

但如果有一个现成的解决方案可以依托，比如一个基础模型，你只需要给它一个提示词，它就能提供基础功能，然后你再针对你的应用进行微调或调整。这样一来，对于很多人、很多公司来说，去尝试各种新奇的想法就变得切实可行了。

有时候我们会误以为机器人只会是某一种形态，就像人类一样，只不过我们要造的是“金属人”，那就是机器人了。但我不这么认为，因为没有任何一项技术是那样发展的。

它更像是一个工具箱。你可以利用它组装出各种酷炫的应用，发挥极致的创造力。比如，我可能会造一个有五只手臂的机器人，它能在空中晃荡，然后自己摸索出解决你特定领域问题的最佳方案。

当然，你也可以在软件层面进行实验，但你需要一个正确的平台来支撑这一切。而我认为，基础模型正是那个平台。

Patrick O’Shaughnessy：

在你看来，人形机器人这条技术路线，究竟有哪些利与弊？

Sergey Levine：

它的一个优点是，你把它展示给别人看时，对方会说：“啊，我懂了，真酷！”

Patrick O’Shaughnessy：

比如说，最近大家都在热议Optimus机械手，对吧？

Sergey Levine：

但这确实很酷。我认为这很有价值，它能极大地激发人们的想象力，让大家以一种易于理解的方式去构想未来的模样。

但在我看来，它只是未来我们将拥有的众多机器人形态中的一种而已。

从根本上说，无论对于哪种机器人，智能面临的挑战都是极其相似的。我不认为我们应该针对某一种特定的躯体去解决智能问题，我们应该用一种通用的方式来处理它。否则，当你需要海量数据时，针对单一形态去搞智能，真的很难行得通。

造机器人最酷的一点在于，它们最终根本不需要受限于人类的外形，你可以为特定的工作打造最合适的工具。

你可以想象这样一个场景：有一群由1000架四轴飞行器组成的蜂群机器人在建造房子。

我认为在未来，我们会拥有一个机器人基础模型，它可以适配各种各样的应用。这些应用的范围可能非常广，从推土机到人形机器人，再到机械臂，包罗万象。

当然，这个模型可能需要针对特定形态进行适配。也许我们需要进行微调，也许我们需要一些上下文信息来让它理解那个特定的身体是如何运作的。

但是，如何与物体交互、物体在世界上如何运动、因果关系是如何运作的。这些根本性的规律，对于所有这些不同的机器人来说，都是通用且守恒的。

Patrick O’Shaughnessy：

你有没有特别钟意的例子，能说明真正的通用智能能做到什么事情？

而且这些事情，如果是那种仅限于人形机器人的智能，或者是其他特定形态的智能，是做不到的？

Sergey Levine：

有几个方面我觉得值得我们深思。

首先，我们可以制造体型巨大的机器，也可以制造极其微小的机器。

我认为从长远来看，这绝非短期能实现的，但放眼未来，在医学和外科手术领域，确实存在许多令人兴奋的应用前景。

届时，我们不仅不会局限于那些长得像人的机器人，甚至可能不再局限于那些必须由人类来控制的机器人。

因为目前，例如在机器人手术中，完全还是依靠远程操控。所以，你需要一种人类能够实时控制的设备，并且还得具备足够灵巧的操作水平。当然，目前的基于学习的系统也受限于这一点。

但从长远来看，我们可以想象去解决这个难题。

二、Sergey Levine详解机器人通用模型的里程碑和进化之路

Patrick O’Shaughnessy：

如果回顾机器人研究发展到今天的时间轴，你认为有哪些最重要的里程碑？我觉得在讨论当前状况和未来方向之前，先厘清历史背景，会非常有帮助。

你能不能带我们走一遍这个历史时间轴，讲讲那些关键的节点？

Sergey Levine：

从某种程度上说，对机器人系统进行端到端控制其实是一个非常、非常古老的想法，对吧？

比如，最早的利用端到端学习的自动驾驶系统出现在20世纪80年代。我记得大概是1986或1987年，ALVIN（卡内基梅隆大学的一个早期自动驾驶项目）就展示了一个由神经网络控制的公路驾驶系统。那时候的神经网络是从摄像头获取输入，体积小得可怜。

所以，虽然有些概念由来已久，但在机器人学习的历史上，真正的难点在于：你需要一个系统，它既能处理你想要解决的应用，训练成本又要足够低。

也就是说，你不需要为了每一个想要攻克的应用去收集海量数据，它能利用常识来处理长尾场景——也就是当世界上发生了一些奇怪的事情时，它能做出合理的反应，并且，对于它本该做的事情，它必须是稳健、快速且可靠的。

想用机器学习把这一切凑齐，是非常、非常困难的。机器学习在数据充足时效果最好。如果你天真地面对一个机器人问题，比如“我想洗碗”，那你显然得去收集海量的洗碗数据。但这并不划算，因为当你转向下一个应用时，你又得把那个流程重新走一遍。所以，训练能够处理多种任务的通用模型至关重要，因为这样你针对每个新任务所需的数据就会少得多。

但这还不够。

这也是过去几年变化最大的一点：你还需要处理那些不寻常的场景。对于这些场景，你很可能没有任何经验。你需要依赖的是从其他来源获取的知识，并将其落地到那个新情境中。

人类在这方面极其擅长。比如你在开车，路中间发生了点状况，有人立了个牌子写着“别过来，煤气泄漏”之类的。你可能从未经历过这种事，但你可以把这些信息拼凑起来，推断出在那种异常情况下该怎么做，因为你有常识。

这在机器人学习领域曾是一个巨大的谜团：常识从何而来？

而这正是过去几年发生改变的地方。事实证明，多模态语言模型非常擅长汲取知识并尝试将其表达出来。虽然它们不太擅长将这些知识落地到物理情境中，但它们确实懂很多东西。

所以现在，我们实际上有了一条路径，可以通过利用多模态大模型中包含的知识来获得这种常识。

但这也带来了挑战，因为你必须以正确的方式接入那些知识。你不能只是给它看一张图然后问：“你会怎么做？”因为它缺乏上下文，它不知道你是个机器人，不知道你的长相，也不知道当下的具体情况。

这就是一个技术挑战。整个研究界在解决这个问题上已经取得了一些进展。但最重要的是，这就像是隧道尽头的光。

好吧，现在我们有了这种汲取大量知识的方法，这能帮我们搞定那些长尾场景。

Patrick O’Shaughnessy：

在时间轴上，有没有能对应上 AlexNet 或者 Transformer 那样的里程碑事件？

也就是说，有没有哪些重大事件，是你认为未来在撰写这段历史时，大家都会一致公认的转折点？

Sergey Levine：

这是一个好问题，但我觉得现在下定论还为时过早。

我认为至少得往前追溯十年左右，才能找到类似这样的例子。

最早期的端到端学习系统出现在80年代，那绝对算是一个里程碑。

我认为2010年代初期的深度强化学习系统也是一个里程碑。深度强化学习给了我们一种超越人类表现水平的方法，我认为这对机器人系统来说至关重要。

再就是最近几年出现的东西。不过你也知道，因为时间太近，我还不确定未来人们会如何看待这些进展，或者是否会将其视为转折点。

但我确实认为，多模态大模型的出现是一个非常重要的进步，因为它们可以适配到机器人控制中，从而带来那种常识。

我觉得未来几年我们可能会见证相当多的重要事件，也许那些才是未来人们会津津乐道的转折点。

三、十余年深耕，搭建起VLA框架

Patrick O’Shaughnessy：

能不能讲讲你个人探索这个问题的历程？

比如，最初是在什么时候、因为什么契机让你对这个领域产生了兴趣？

以及从那以后，你是如何规划、如何决定将自己的个人时间和精力投入到哪些具体方向上的？

Sergey Levine：

我是从2014年开始涉足机器人领域的。那时候我刚拿到研究生学位，正在加州大学伯克利分校跟着Peter Abbeel教授做博士后研究。

其实在那之前我从来没碰过机器人，但我觉得拿完学位后应该再多学点东西。既然他的实验室是做机器人的，我就想试着把之前学到的知识应用到这个领域。在此之前，我其实是做计算机图形学的。

我一直想真正搞懂的一件事是：如何让AI系统越做越好。

我觉得这力量无穷。如果你能拥有一个系统，它做得越多就越好，永无止境，那它就没有上限，最终能掌握你想要的所有技能。

起初，我尝试用一种非常“白板”的方式去解决这个问题。也就是说，从零开始，练习某项特定技能，然后在这个技能上变得更强。

这种方法还行吧。在有限的环境里你能让它跑通，也能看到效果。但很难把它变成一个能在开放世界里工作的通用系统。因为如果它在这边练习好了，到了那边环境变了，它又得从头练起。

后来我尝试了下一步，那是我在谷歌工作时候做的事。我想看看能不能让很多机器人一起学习，能不能把20个机器人放在一个房间里，让它们一起学习？

这招确实管用，泛化能力也有了，但很难处理那些长尾情况、那些边缘案例，对吧？因为那样它就成了某项特定任务的“偏才”，它的世界里就只知道这一件事。

我认为的下一步，就是我刚才提到的：把这种练习技能的能力与大量的先验知识结合起来。

这其实是一个非常、非常难的问题。不光是机器人领域难，我觉得整个AI领域都难。可以说，过去几十年里AI两个最令人印象深刻的成果就是生成式AI和深度强化学习。

如果你想找个单一的例子来代表生成式AI，那就是大语言模型；而深度强化学习的代表就是AlphaGo。它们都令人惊叹，但原因截然不同。

生成式AI之所以惊人，是因为它能复刻人类能做的事，比如画出看起来像人类画的画，对吧？

而深度强化学习之所以惊人，原因恰恰相反。它能做出人类想不到的事情，就像那著名的“第37手”。

所以我认为，最大的挑战、我个人想达成的目标以及我希望Physical Intelligence能解决的问题就是“如何在引入生成式AI赋予模型所有知识的同时，又能利用强化学习机制让机器人表现出超越人类的性能表现。”

虽然我现在还没完全搞定，但我觉得我们已经取得了一些不错的进展。

Patrick O’Shaughnessy：

所以，具体来说，你过去做了什么，现在又在做什么，来让这一切成真？

Sergey Levine：

所以在过去几年里，我们首先着手建立基础架构。

这个基础就是所谓的视觉-语言-动作模型（VLA）。你可以把它理解为一个经过改装、专门用于身体控制的大语言模型。

这类模型的训练方式是：先在文本数据上进行预训练，然后利用网络上大量的图像数据进行适配以理解图像，最后再利用非常多样化的机器人数据将其适配到机器人身上。

这是一个起点。这是一种将网络知识注入到模型中、使其能够控制机器人并展现出有趣行为的方法。

在此基础上，我们研究了两条线索：如何让系统利用常识来处理异常情况，以及如何通过强化学习使其自我进化。

获取常识的方法，本质上就是利用思维链。

当机器人进入一个场景时，它不会直接开始行动，而是先思考被要求做什么。

比如，如果指令是“打扫”，它会观察厨房的场景并思考：“好吧，基于此，我应该把盘子捡起来。”

它实际上是在自言自语。它会说：“捡起盘子”，然后去执行。

这就解锁了所有的先验知识，因为这些中间推理过程受益于网络规模的预训练。

这很好，这解决了边缘案例的问题。

而强化学习的部分则是在你练习了几次之后介入的，它让你直接通过经验在任务上表现得越来越好。

比如，我们有一个制作浓缩咖啡的演示，那个系统练习制作浓缩咖啡很多次，并利用这些练习来提高稳健性、提高速度、提高吞吐量。

我们在这方面还没做完，我觉得还有很多工作要做，但至少我们已经迈出了第一步。

Patrick O’Shaughnessy：

言归正传，其实机器人数据本身就是一个很好的切入点。

你看，我正在观察这一代机器人的原型。我看到这里有个摄像头，可能在别的地方还有些传感器。实际上，这些数据就是由分布在机器人不同部位的各种传感器收集的，而且这些传感器的布局都是经过精心设计的。

Sergey Levine：

是的，关于传感器，我想说的是，我觉得你其实可以用比想象中更少的传感器做很多事情。

比如眼前的这个平台，它只有三个摄像头：每个手腕上一个，底座上一个。

它没有触觉传感器，也没有力觉传感器，配置非常基础，成本也很低。

我敢肯定，更多的传感器肯定会让它变得更好，但优秀的学习方法其实可以很好地弥补传感器配置的不足。

比如，手腕上的摄像头本质上就是伪装的触觉传感器，因为当你触碰物体时，你可以通过摄像头看到该物体局部的形变。

Patrick O’Shaughnessy：

如果把现在的情况类比到80和90年代AI领域的“专家系统”，你会发现一个能通用的教训，而且这个教训有点反直觉：你不需要去教它任何具体的东西，只需要用数据去“轰炸”它。

既然现在有这么一个庞大的互联网数据蓄水池，那就来聊聊这个“蓄水池”吧，具体该如何为机器人领域建立这样一个数据蓄水池呢？

Sergey Levine：

是的，我觉得没人真的知道，到底需要多少机器人数据才能训练出真正具有泛化能力和强大实力的具身智能。

但我的直觉是，我们其实并不需要知道确切数字。

我们需要做的，是把这些系统打磨到足够有用的程度，让它们能走进现实世界，自己去收集更多数据。

说白了，特斯拉从来不会担心他们的车能收集多少数据。甚至情况恰恰相反，他们担心的是数据是不是太多了，对吧？

所以我认为，关键不在于去量化，比如算出“获得终极机器人数据集的确切代价”。关键在于打造一个能走进现实世界的系统，它要足够有用，能干各种各样的活，这样它就能源源不断地拉取更多数据。

Patrick O’Shaughnessy：

你刚才举了特斯拉的例子。那是一个完美的系统，因为它在拥有A之前就已经很有用了——毕竟有人类在驾驶它，顺便就收集了数据。

既然如此，为什么不一开始就以“制造一台有用的单体机器人”为最佳切入点，从而让同样的飞轮效应发生呢？

Sergey Levine：

我觉得这是个好主意。

Patrick O’Shaughnessy：

那你觉得这是你会去探索的方向吗？

Sergey Levine：

我觉得并没有什么“唯一正确的答案”，对吧？

我认为在某些领域，部署由人类控制的系统是非常合理的。而在另一些领域，部署半自主系统则更讲得通。这完全取决于具体的应用场景，对吧？

毕竟机器人并不是只有一种形态。比如，可能有些人不希望家里的机器人是由场外人员远程操控的；但也许对于某些应用来说，这一点根本无所谓。

Patrick O’Shaughnessy：

如果从Physical Intelligence成立之初算起直到今天，在这一路的研究过程中，最让你感到惊讶的发现是什么？或者说，关于研究本身的特性，有什么是你没想到的？

Sergey Levine：

让我感到惊讶的一点是，我们在灵巧性方面取得的进步比我预期的要大得多。

基于我之前的工作经验，我原本以为，想要让机器人具备处理各种不同场景、各种不同物体的泛化能力，会很难。当然，我们有充分的理由相信，只要收集越来越多的数据，效果就会稳步提升。

但令人惊讶的是，我们竟然能让这些系统表现出非常灵巧的行为，而且并没有为此做什么特别的事情。

顺便说一句，同样的情况也适用于让系统适配不同的具身形态。我们能让模型在各种其他机器人上运行，包括带有多指机械手的机器人，或者具有不同自由度的机器人。

显然，我们需要获取数据，也需要对模型进行微调。但模型本身并不需要改变。甚至不需要通过任何提示词来告诉它这个机器人是什么。

这也让我很惊讶，因为我原本以为我们需要一些花哨的技术，才能让系统适应更快、更灵巧、更复杂的任务，以及不同类型的机器人形态。但实际上，它的泛化能力似乎非常强。

四、利用“思维链”式工作机制，解决机器人长程任务难关

Patrick O’Shaughnessy：

我一直对能力光谱很感兴趣。特别是想知道，在哪些方面，现在的系统比你预想的要更先进，而在哪些方面，它们又不如人们预期的那么厉害呢？

Sergey Levine：

这在机器人领域一直是个很难理解的问题。有一个机器人专家常提到的概念，叫做莫拉维克悖论。其实这在AI的所有领域都存在，但在机器人领域尤为突出。

我们有一种认知偏差，倾向于认为对我们来说简单的事情，对机器来说也应该简单。

比如，解微积分问题对大多数人来说很难，但拿起一个杯子对大多数人来说很容易。所以我们觉得，“哦，机器应该也能轻松做到这个”。

但事实恰恰相反。有些事情对我们来说容易，是因为我们必须擅长这些，否则我们就无法生存。

我们非常擅长在丛林中发现老虎，因为那些不擅长发现老虎的人已经被老虎吃掉了，他们没能活下来。正是因为这个原因，我们才有了这种认知偏差。

所以我们认为某些事情应该很简单，但实际上它们是极具挑战性的工程难题。

不过，情况正在发生变化，机器学习稍微改变了这个等式。

如果要靠手工编程让机器人去任何地方拿起任何杯子，那很难。但如果是让一个机器学习系统去做这件事，如果你有数据支持，其实并没有那么难。

我认为我们会越来越多地看到一种转变：那些数据收集很直接的领域，随着时间的推移，它们最终会落入“简单”的范畴，即使它们在物理层面上很复杂。

但也会有些领域，数据收集很困难，需要更多的常识，需要在多个抽象层级上进行推理，需要把你在其他领域学到的物理技能与从网络上获得的知识连接起来。

那些领域将会很艰难。那也是我们需要更多技术突破的地方。

Patrick O’Shaughnessy：

所谓的“常识科学”到底是什么？你刚才提到了常识。就像当我们说这个词的时候，它具体是指什么意思？

Sergey Levine：

就机器人学习而言，我们可以把它看作是一种语义推理：利用从其他领域学到的知识，来解决当前手头的物理任务。

你可以把常识看作是肌肉记忆的对立面。

所谓的肌肉记忆，就像你从事一项运动，你反复练习某个动作，几乎不需要思考。你就像开启了自动驾驶模式一样去执行。

而在我看来，我不确定这是否是传统的定义，但我认为这是一个合理的定义

常识是指：当你通过观察、阅读或听闻，知道某件事是真实的。而现在你身处一个情境中，那个事实与你当下需要做的事情高度相关。

于是你能够建立起这种联系，将其应用到你的处境中，立足于你所处的环境，并做出正确的决定。

Patrick O’Shaughnessy：

我觉得另一个非常有意思的区别是，大家都用过聊天机器人。你问它一个问题，它给你一个答案；再问一个，再答一个。

但我们现在正在见证像Claude Code这样的工具带来的变化：你给它一个复杂的任务，它能够执行非常长的操作序列。衡量的标准变成了它在失败之前能坚持多久。

那么在机器人领域，类似的这种长程能力是指什么呢？

Sergey Levine：

这正是我们目前投入大量精力在研究的事情。事实上，在某种程度上，方法论并没有太大的不同。

正如我提到的，我们现在的模型采用的是一种“思维链”式的工作机制，并运用这种机制来完成推理任务。

当你拥有了这种能力，你实际上就可以执行非常长程的任务。你可以让机器人去把洗碗机里的碗碟全部取出来，放到正确的橱柜里，擦拭台面，或者做所有这类事情。

有趣的是，我们在大 6个月前发现，我们的模型已经到了这样一个阶段：仅仅通过用高层指令对它们进行监督，就能获得提升。
这是什么意思呢？

你拿一个机器人，把它放在一个新的厨房里，让它去打扫厨房。它开始工作，然后在某个地方失败了。

那么，现在该怎么办？好吧，你添加更多的数据。

传统上，在这种情况下我们会做的是添加更多的遥操作数据，以覆盖更广泛的厨房场景。但我们突发奇想尝试了一下：如果我们不添加更多的遥操作数据会怎样？如果我们只是添加更多带有语义指令标签的数据会怎样？

也就是说，基本上只需要获取机器人的任何经历，然后用一些语义指令给它打上标签，但不添加任何更多的底层动作数据。

结果这竟然真的有用。这实际上提高了泛化能力，且意味着，瓶颈实际上已经从最底层发生了转移，也就是机器人执行物理任务的能力转移到了中间层。

现在，系统的瓶颈更多地在于它理解场景并选择正确下一步的能力，而这可以通过语言来进行监督。

这可是件大事，因为这意味着现在真的可以有人直接跟机器人对话了。

Patrick O’Shaughnessy：

没错，就是指导，基本上只要跟它说话就能让它变得更好。

那么，假设现在是2050年，如果到时候我的厨房里还是没有机器人在帮我洗碗，你认为最可能的原因是什么？为什么到了那个时间点还没能做到？

Sergey Levine：

我的猜测是，这里有一长串的挑战，在某种程度上与技术和人的互动有关。自动驾驶汽车在这方面其实没什么不同。

让大众对在路上部署自动驾驶车辆感到放心，这是一个巨大的挑战，其难度不亚于让技术达到那个水平本身。

举个例子，早期的特斯拉自动驾驶就有点争议，因为它并不完美。当时就有一个问题：人们能容忍这种程度的不完美吗？

所以对于机器人来说，可能有些任务人们会容忍它的不完美，容忍它需要从错误中学习；但在某些领域，人们是不会感到舒服的。

比如，你能容忍它偶尔打碎你的盘子吗？也许几年后它就不再打碎盘子了，但在此期间它还做不到完美。

你能容忍这样一个机器人在有小孩的家庭里存在吗？也许不能。这也很正常，对吧？

所以我认为，弄清楚这些因素是如何相互作用的，以及这对时间线意味着什么、这些系统如何通过经验变得更好，这是一个棘手的问题。

我认为这需要非常谨慎、非常敏感地去处理。可能有些领域更适合部署这些系统，让它们去闯荡、去收集更多数据。而也许其他领域则需要更多的呵护。

Patrick O’Shaughnessy：

你能想象出一个纯粹技术层面的解释，来说明为什么这件事可能行不通吗？

Sergey Levine：

我认为最大的技术风险在于如何应对各种各样不同的情况。

如果我们要处理的是一个定义明确但稍显混乱的环境，比如打扫酒店房间，或者在餐厅里协助人类厨师，这类事情，我很清楚该怎么把它们搞定。

但如果你想象的是一个机器人进入家庭，我知道有一个地方会面临挑战，那就是会有许多意想不到的事情发生。

你需要一个非常擅长推断现状、并能据此适应或做出智能反应的系统。

我认为我们有很多想法可能可以解决这个问题，但这确实是问题中最难的部分。

当你身处一个什么都可能发生的环境中，并且你在控制一个能影响周围世界的物理设备时，你真的需要把事情做对，至少在某种程度上是这样。

这并不意味着你必须每次都成功，但这确实意味着你必须做一些合理的、人们能够接受的事情。

我认为关于如何做到这一点，可能是最具挑战性的部分。

Patrick O’Shaughnessy：

如果回到刚才关于正确模型的思考，关于用物理智能的方法来完成这一整套工作，能不能帮我把它简化到极致？

比如，一种做法是：我们要构建各种各样的东西，各种不同形态的机器人，来做各种各样的事情，然后把所有这些数据混合在一起，开始在评估指标上进行实验，看看怎么让它变得更好。

这是不是最简单的方法了？还有没有更简单的方法？

我这么问是因为，我很想把它与一些你感兴趣、但你没有在做、而其他人正在做的其他方法进行对比。

Sergey Levine：

你看。在我看来，最重要的是让系统具有通用性，特别是关于它如何能被改进这一点。

举个例子，手工设计的机器人控制器在改进方面就不具备通用性，因为它需要人类工程师亲自介入去优化它。

基于学习的系统，比如基于学习的感知系统，就更通用一些，因为它只需要人类标注员去标注更多的数据。

而一个能从自身经验收集的数据中自主学习的系统，通用性就更强了，因为你甚至不需要人类标注员。

所以，关键在于这种通用性，特别是关于改进的通用性，我们在很大程度上都是围绕这一点来做决策的。

所以我不知道机器人的正确设计是不是应该装三个摄像头。我也不知道它是否需要触觉传感器。

我们对这些持开放态度。我想我们会尝试很多不同的选择。

我甚至不确定从长远来看，它是否还会搭载语言模型。也许我们会有一些其他类型的模型，在非常多样化的数据上进行训练，但关键就在于这种通用性的水平。

Patrick O’Shaughnessy：

还有哪些问题对你来说最有趣？

Sergey Levine：

我认为这个领域有一个非常重要的问题，也是我认为研究界和技术界尚未完全解答的，那就是不同数据源之间的二元对立，特别是关于真实数据和仿真数据，这是一个非常有争议的话题，我对此有很强烈的个人看法。

但我认为值得指出的是，如果我们看看人形机器人，如果你看过那些展示人形机器人做各种杂技动作的视频，对吧？那里有一套特定的技术流程在起作用，它非常重度依赖仿真，而实际上对真实世界数据的依赖很轻，很多时候，甚至可以说是零真实世界数据。

而在另一方面，那些在机器人操作领域行之有效的方法，往往是截然相反的。它们通常很少使用仿真数据，而是使用大量的真实世界数据和非常庞大的基础模型。

令人惊讶的是，在这两个机器人领域，主流方法看起来如此不同。

现在，也许最终会有一方胜出，从长远来看，有一种特定的方法可以搞定一切，或者，也许某种对这些想法的综合才是关键。

我不知道答案。我有我自己的主观看法。我认为我们正在采取的方法是非常好的。但我认为，观察这种现象并思考“为什么这些东西如此不同”，是很有趣的。

五、在有用的基础上尽情造酷炫机器人

Patrick O’Shaughnessy：

你能聊聊机器人“酷”和“有用”之间的关系吗？

比如波士顿动力的机器人就非常酷，那个后空翻简直酷毙了。但我实在想不出有什么需求是必须让机器人做个后空翻才能解决的。

所以我很想知道，你是怎么看待在“酷”和“有用”之间做权衡优化的？

Sergey Levine：

我认为我们采取的策略，我不知道这是否是正确的策，是受限于“必须有用”这一约束条件的，在此基础上，尽可能让它变得酷炫。

这也反映在我们的博客文章和视频中。

我们做决策时，首要依据是我们对什么能推动我们迈向真正通用、广泛适用的机器人基础模型这一点的评估。

但在这样做的过程中，我们试图用我们能抛出的最艰难的挑战来对它进行压力测试。

而这些最艰难的挑战，往往就是那些看起来很酷的东西。

所以，比如我们并不是为了制造一个能做浓缩咖啡或者叠衣服的机器人而起步的。

但在构建这些通用系统的过程中，我们发现这些任务会特别具有挑战性，特别令人兴奋，我们用它们来测试，看看能把系统推到什么程度。

六、机器人奥运会最难的不是跑跳，而是完成日常生活任务

Patrick O’Shaughnessy：

你能聊聊机器人奥运会吗？

Sergey Levine：

是的，有一位叫Benji Holsen的先生，他以前在Alphabet旗下的Everyday Robots工作。他花了很多时间思考机器人到底能做什么任务。
所以他在不久前写了一篇非常有意思的博客文章。他基本上是说：嘿，中国举办过那种机器人奥运会，机器人在跑道上跑来跑去、跳来跳去等等，但这也许不是我们真正应该担心的挑战。

如果来一个围绕着人类日常任务的机器人奥运会，怎么样？这更像是一个悖论：“那些人类觉得非常容易，但机器人却难以应付的任务。”

他列举的例子包括：开门、清洗沾满油脂的煎锅、用塑料袋捡狗屎。这些都是人类不觉得有什么挑战性的事情，但目前的机器人系统却做不到。他大概列了十几个这样的任务。

我们想试一试。这实际上并不是一个经过精心策划的研究项目。

我们开发了一些流程和系统，专门用于导入我们想要处理的各种新任务。我们当时想：好吧，测试这个的好方法就是，这里有一大堆任务清单，让我们就按照我们开发的这个流程走一遍，看看它是否有效。所以这几乎就像是对我们内部操作和模型训练系统的一次测试。我们尝试了这些东西，结果发现我们几乎能解决所有的问题。

我们没做到的……有一件事我们做不到，就是把正装衬衫翻过来，因为这个机器人的夹爪伸不进袖子里。所以我们可能需要换个夹爪。而且严格从技术上讲，剥橙子我们也没成功，因为他说要用手指剥，而我们的手指力量不够。我们不得不使用像小刀这样的小工具。基本上其他的我们都能做。

我觉得真正有趣的是，我是说，显然这很酷，视频也很棒，如果有人看过那些视频的话。

有一点我认为很重要，需要记住的是：我们并没有为此开发任何特殊的东西。我们真的只是把它当作对我们任务导入流程的一次测试。

我觉得这很有趣，因为它展示了通用性的力量。

当你拥有这种通用系统时，你真的可以在不做任何特别复杂的事情的情况下，搞定所有这些疯狂的任务。

Patrick O’Shaughnessy：

我刚才很好奇，当你提到超人能力时，比如关于灵巧度之类的，我们在哪些方面受到了限制？无论是我们能做到的，还是我们能控制的，即使机器人变得更小。除了这些，在体能方面，我们还有哪些维度可能会超越人类的能力？还有哪些发展趋势是你最感兴趣的？

Sergey Levine：

这里有个很有趣的点。

我们当时在做一个任务，机器人必须插线缆，比如电源线或者网线之类的。

当一个人做这件事时，我是说，显然如果你练习很多次，你会做得很好。但如果一个人没有经过大量练习就做这个，你会频繁地停顿，对吧？

因为这不仅仅是个体力活。你需要认知上的停顿来思考发生了什么。你得确保线缆对齐了之类的，所以你做得非常慢。

如果你是遥操作一个机器人，你会做得更慢，因为这中间有一层间接性。结果发现，直接进去把这些停顿找出来并去掉，其实相当简单。
而且你可以进一步加快速度。所以你可以得到一个任务，让人类演示什么是成功，然后你可以让机器人练习这个任务，并以同样的方式成功，但是速度要快得多，效率也要高得多。

做到这一点最通用的方法是使用强化学习。但如果你只想要速度，也有一些简单的技巧可以用。

所以这就是一个例子，说明你可以拥有一台机器，在某种程度上做得好得多。

人类之所以做得慢，是因为存在一个处理瓶颈，他们必须处理正在发生的事情。但在计算机科学中，人们非常清楚如何加速处理过程。

七、形态不重要，重要的是能控制任何形态的通用模型

Patrick O’Shaughnessy：

Michael Crichton有一本很棒的书叫《Prey》，里面提出了一个关于形态的问题。

看起来对于给定的问题，可能存在一种最优的、或者一组最优的机器人形状来执行任务，你应该做的是分析这个问题，然后拥有一个几乎可以变形或转化为正确形态的东西。你怎么看待这一点？我是说，在形态方面的创新，而不是在数据方面。

Sergey Levine：

在模型方面？我认为在机器人领域，在形态上进行创新的能力一直受到很大限制，这主要是因为AI的挑战。所以，如果你使用传统 AI流程，比如你在做某种运动规划之类的东西，你就很难随便拼凑出一个新机器人。因为当你这样做时，你必须表征系统的动力学特性。你必须做仿真，建立所有这些模型。

如果你能在车库里组装一个机器人，加载一个机器人基础模型，然后告诉它去做一堆事情，也许它做得不完美，也许需要更多数据才能真正完美，但你至少能让这东西动起来。

我认为这可能成为一个非常强大的引擎，让每个人都能去实验这些东西。

所以我不认为我是设计完美机器人的合适人选。当然，这里有人比我擅长得多。但总的来说，这就像个人电脑一样。我认为关键在于让人们去实验、去摆弄它，并彻底降低这方面的准入门槛。

我认为那样我们就会看到更多的创造力。就像人们刚开始使用个人电脑时，形态的数量是有限的。

现在你可以在手机里有一台电脑，在车里有一台电脑，在冰箱里有嵌入式电脑。它们无处不在，而且形态各异。

通用性、好的软件、好的基础，在这个基础上你可以构建应用程序，这些是赋能的关键。

Patrick O’Shaughnessy：

你的联合创始人Lak King曾经向我描述过，物理智能那种非常人性化的感觉，他说就像学骑自行车，就是有那么一个时刻，你之前还完全不知道怎么骑，然后突然之间你就会了。

那种感觉就是物理智能，那种顿悟的瞬间。

Sergey Levine：

你知道吗，这其实有一个生理学解释。

有一些在猴子身上进行的关于使用工具的研究。你实际上可以在大脑中找到——比如哪些神经元会被激活——来帮助猴子搞清楚它的手在哪里。
结果发现，如果猴子使用了工具，这些神经元是根据工具尖端的位置激活的，而不是根据手的位置。

所以，工具作为你身体的延伸，这真的是一件生理学上的实事，你的大脑字面意义上就是这么做的。

Patrick O’Shaughnessy：

那么，既然知道了这一点，这又会如何影响你研究的思路呢？

Sergey Levine：

嗯，我认为对我来说，这意味着物理智能在某种程度上应该与具身无关。

一个好的基础模型应该能够搞清楚如何去操控它所控制的任何身体，以及它手头拥有的任何工具。

这基本上是一个问题，而不是许多不同的问题。

并不存在所谓的“人形机器人问题”、“汽车问题”、“推土机问题”或者“固定在桌子上的机器人问题”。

只有一个问题。如果你以完全的通用性解决了它，那真的非常、非常强大。

八、机器人技术发展的初期阶段，后物理智能领域会最先迎来显著变革

Patrick O’Shaughnessy：

我们正处于见证大语言模型在商业、经济等领域带来工作和转型的早期阶段。

当然，我们在工程领域已经看到了这种趋势。

你认为，当机器人技术也进入类似阶段时，您最期待出现怎样的变化？

你觉得全球在部署这些通用型、多功能机器人方面，目前最擅长的领域是哪里？

人类天生富有创造力，你预计，在机器人技术发展的初期阶段，世界会在哪些领域最先迎来显著变革？

Sergey Levine：

后物理智能。是的，这真是一个非常有趣的问题。我真的不知道，对吧？

就像我不认为任何人能够预测语言模型stuff是如何演变的，人们可能会猜到，但这就是为什么我一直回到这个想法：也许关键在于让人们尝试很多事情。

就像大语言模型应用的一个真正神奇之处在于它们真的很容易上手。

有人可以拼凑出一个非常酷的新原型，在底层其实只是在提示GPT之类的东西，但他们可以对其进行实验。

他们可以试一试，看看它能做什么。

让许多人、许多聪明人快速地迭代和制作各种原型，这拥有一种惊人的力量。

这就是很大程度上为什么物理智能公司非常重视参与感。比如我们开源了我们的模型。

我们希望与许多其他正在制造机器人的公司合作，因为我们都看到了让许多人尝试各种事情所带来的巨大力量。

九、机器人需要从数据中学习

Patrick O’Shaughnessy：

机器人圈子里大家都在争论些什么大事儿？

Sergey Levine：

显然我是个学者，所以对我来说，所谓的争议就像是在会议上有人跟我吵架。但我可以告诉你我卷入过的那种争论。

这其实是一个很有趣的轨迹。在早期，我和人们争论的主要问题是：“学习在机器人中有一席之地吗？”

我认为之所以这经常成为一个争议点，部分原因在于，在传统的工程流程中，机器人看起来与软件制品非常不同，它们是物理的，它们可以影响周围的事物，还有安全考量。

它们可能会陷入很多奇怪的情况，而机器人研究社区花了很长时间才真正内化这一点：你并不一定需要把物理知识之类的东西编程进去。

比如当机器人在规划时，你并不一定需要在你的机器人里面放一个物理模拟器，但你实际上可以拥有一个学习系统，让它自己搞清楚所有这些东西。这在很长一段时间里都是一件非常有争议的事情。

我认为在这一点上，大家都已经接受学习是机器人技术中非常重要的一部分，但我认为对于端到端学习是否是正确的方向，还没有普遍的共识。基本上，我不认为大家对“惨痛教训”有普遍的认同。

“惨痛教训”说的是，你不应该把机器编程成你认为它应该思考的方式，而应该让它从数据中学习。这并不是一个被普遍接受的观点。

我认为反对它有很好的理由，但我认为从长远来看，如果你想要那种通用性，特别是机器在自我提升能力方面的通用性，那么我们需要主要从数据中学习。

Patrick O’Shaughnessy：

反对的有力论点是什么？

Sergey Levine：

最有力的方式就是：如果你想要在一个真正复杂、开放的世界环境中获得可靠的东西，那你就不能不去利用你已经知道的关于物理世界的知识。但我们的教科书里全是这些东西。所以，为什么我们不直接把我们从教科书里知道的东西插进去呢？

Patrick O’Shaughnessy：

什么是组合式学习？你能描述一下吗？

Sergey Levine：

我可以给你举个例子，这可能是一种更生动形象的沟通方式。

这个例子其实是我的一个学生想出来的。他让一个语言模型提供一个用国际音标制作三明治的食谱。

国际音标就是字典里用来解释单词发音的那些符号。它非常独特，因为它只在字典里作为单个单词出现，就像你从未见过用国际音标写的自由文本段落，但如果你问一个好的语言模型，它会为你写出国际音标的段落。这就是组合式泛化。这意味着你从未见过这种特定的语言，这种特定的字母表被用来写段落，但你理解段落，理解它是可以用不同的字母表组合而成的。所以你可以解决这个问题。

你可以想象同样的事情也会发生在机器人领域：你已经学习了一系列的技能，现在你可以组合和混合这些技能，并应用它们来解决新问题。

Patrick O’Shaughnessy：

我不禁好奇，在你看来，机器人系统最终能攻克的最后一类任务会是什么？

Sergey Levine：

我觉得给小孩换尿布会非常、非常难。嗯，我觉得确实如此。

我觉得这其实又是一个新的莫拉维克悖论：人们在某些方面极其擅长。我们在身体技能上表现得非常出色，与他人互动的能力也同样出众。

这其实很合乎情理，毕竟，我们的许多生存活动都离不开这些能力。比如，那些涉及人际互动、需要真正帮助他人的事情，像扶人起床这类事，其实比人们想象的要难得多。

因此，我认为像照顾老人、照看幼儿这样的工作，将会非常辛苦，而且很可能比大多数人预想的还要艰难。

Patrick O’Shaughnessy：

毕竟这关系到重大安危。

Sergey Levine：

这不仅仅是因为在很多地方风险很高，当时某件事情正在处于一个关键时期的时候，它背刺了我们也算一个。

就像我们是为了与人互动和进行物理操作而进化出来的。如果你在帮某人上楼梯或者起床之类的，你不需要非常仔细地思考你要怎么做。你凭直觉就知道。所以我认为这恰恰体现了Moravec’s Paradox（莫拉维克悖论）的精髓所在。

十、机器人模型“大脑”的黑暗地带

Patrick O’Shaughnessy：

如果我把大语言模型看作一个大脑，而现在它实际上已经研究了一切，我不知道还能怎么形容。

然后我再想想机器人的大脑，也就是机器人模型的大脑。

大脑的黑暗部分是什么？有哪些东西是它无法研究或渗透的？或者说，有哪些领域一直非常困难，虽然很重要，但我们一直很难涉足？

Sergey Levine：

人们非常擅长的一件事，就是利用物理类比来理解其他情境。

我不知道这是大语言模型能做到的还是做不到的。

这是人们经常使用的一种能力。

他们在日常生活中使用它，也用它来解决非常复杂的问题。

比如，你可以说这家公司有很大的动量。这是一个物理类比，你完全明白这是什么意思，就像我不需要向你解释那句话一样，但如果你仔细想想，这其实是一件相当复杂的事情。

关于“动量”这个词，有很多相关的论述。

有一次对理查德·费曼的采访，他谈到了他关于亚原子粒子所做的类比。

他说，好吧，我们用了“自旋”这个词，但这东西并不是真的在旋转，它不像一个旋转的陀螺，但所有这些类比真的帮助我们理解它。

这不仅仅是以一种允许解释概念的方式，它实际上能得出结论，能推导出推论，而且那些推论实际上是讲得通的。

所以这真的很了不起，我们被如此预设好去与物理世界互动。

所以你拥有物理智能，你可以在日常对话中使用它，说那家公司有很大的动量，你也可以在推进基础理论物理时使用它，这真的很了不起。

我不知道大语言模型是否能做到这一点，也许它们可以，但我认为真正理解物理交互、因果结构，所有这些东西，这其中确实有些名堂。
而且很明显，这是人们从中获益良多的东西。

十一、在研究中学会把握时机是研究者们重要的课题

Patrick O’Shaughnessy：

我很想聊聊研究人员在现实世界中扮演的角色。那些真正从事研究工作的人。令人颇感震惊的是，全球范围内真正负责推动几乎所有大语言模型进展的人其实寥寥无几。

以伊利亚这样的例子为例，那么在机器人领域又会是怎样的情况呢？世界上究竟有多少人能真正对这一发展轨迹产生深远影响？此外，我还想请教一下所谓“优质研究”究竟意味着什么？

我认为，关于科学问题，这类问题往往很难回答。这是因为，我们有时，尤其是回顾历史时，总倾向于特别强调某些重要里程碑。在机器学习领域，这种情况尤为明显。

比如，你可能会说：“像AlexNet就是一个重大突破。”这话没错，确实是个大进步。但我觉得，同样重要的是要记住：这些进展之所以能取得，是因为无数人尝试了各种各样的方法，甚至一些失败的经历也颇具启发意义。

就像我之前稍微低调地抱怨过一场有关机器人学习的争议一样。不过，我也不确定，如果没有这场争议，机器人学习是否还能以同样的速度向前发展。

诚然，你可以翻阅一下那些成功案例的清单，然后标记出：“哦，瞧瞧，这些人可真是屡屡一击即中啊！”

本垒打固然重要，但我觉得，在科学界，真正推动进步的，并不仅仅是那些本垒打。甚至一些失败和一些糟糕的想法，同样具有重要的启发意义，它们会引领我们走向更好的创意。

是啊，想想还真挺有意思的。你之前举的那个例子就特别有趣。研究发现，只要稍微给点指导，它就能变得更好。这种洞察似乎威力巨大、杠杆效应极高，这不禁让我好奇：关于如何成为一名出色的研究者，你都学到了些什么呢？

Sergey Levine：

研究与工程确实大不相同，因为在研究中，关键在于找到某个问题的答案，而这往往需要适当“走捷径”。

在研究过程中，最微妙的决策之一便是：何时尝试新方法，又何时坚持现有的做法？这一点极其微妙，也极其难以把握。一旦判断失误，就可能错过一些极为重要的发现。如果你判断错了，没有坚持足够长的时间，很可能就在成功边缘徘徊——明明已经快要找到答案了，却偏偏在最后一刻停了下来，这可真是糟透了！

或者，你可能会陷入僵局，就像年复一年地猛敲一块根本不会松动的石头一样。因此，如何恰当地把握时机、适时调整方向、从不同角度寻找突破口，以敞开大门迎接更多机遇；同时，又如何在关键时刻咬定不放、持续努力，直至最终攻克难题，这实在是一项极具挑战性的艺术。

这往往是最关键的决定。而且，有些人天生就有一种本能，能准确地做出正确的选择，这一点至关重要。

Patrick O’Shaughnessy：

你显然长期身处科研领域，而且本身就是一位杰出的研究者。那么，这些科研人员作为普通人来说，究竟是怎样的呢？他们又有哪些方面与普通人大不相同呢？

Sergey Levine：

我觉得它们其实都差不多。我想到那些我由衷敬佩、真正擅长这一行的人。

要找出一套固定不变的个性特质，还真有点难，说到底，或许唯一不变的，就是他们都能做出卓有成效的科学成果。要做到这一点，你必须对科学充满热情。但即便是这种热情，也可能源自截然不同的动机。

比如，我曾与一些人共事，他们极其高效，纯粹出于对新奇事物的渴望而驱动自己。他们根本不在乎自己的技术能带来什么实际用途，也毫不在意它是否真的有用，他们只在乎有没有酷炫的新点子。

我还接触过另一类人，他们一心只想解决某个具体问题，无论是在动手搭建东西，还是在反复试验验证，他们同样乐在其中，就像铆足了劲儿去攻克任何难题一样。这些不同类型的人都能非常出色地完成任务。

Patrick O’Shaughnessy：

你提到了研发和工程，这让我也联想到制造环节，就像埃隆可能会说的那样：“工厂本身就是产品。”事实上，整个问题中最棘手的部分，恰恰在于如何将最终成型的这种东西大规模量产，比如生产一亿个这样的产品。

你对这一环节是怎么看的呢？还是说，在现阶段，这还显得过于遥远？毕竟，这已经占用了你太多时间了。

Sergey Levine：

不，我认为这是方程中一个重要的组成部分。我并不确定它是否正是我们当下最亟需弄清楚的那个部分，但它无疑确实是方程的一部分。

正如你可能从我对其他问题的回答中猜到的那样，我更倾向于先攻克那个难点，然后再为其他环节放手去大胆尝试，对吧？

所以没错，大规模制造机器人确实很困难。如果你甚至不清楚后续要用哪种软件，或者根本不确定这到底是不是合适的机器人类型，那么大规模制造机器人就难上加难了。

因此，我认为，像Robotic Foundation模型这类通用人工智能工具所能带来的真正价值之一，就是帮助我们提前解决好许多其他问题，从而至少消除一部分不确定性。这样一来，当你真正开始规模化部署时，就能多几分信心。

十二、未来并非是人形机器人直接取代人类，而是人机默契协同

Patrick O’Shaughnessy：

这简直就像在真正投入工作一样。许多听这个节目的人都是企业家，或是经营公司的管理者。

一个非常热门的问题变成了，在智能化过程中，传统企业应该如何处理好机器人和人之间的关系。

不妨想想，是否可以借鉴多模态大模型，或者为这些模式的持续改进做好准备。那么，对于机器人领域，你又会如何回答同样的问题呢？

Sergey Levine：

这是一个非常好的问题，同时也非常棘手，因为技术正以如此迅猛的速度发展。

我想通过一个例子来说明为什么这个问题如此难答。

这个例子关于技术的特殊不确定性，虽然稍显具体，但确实能很好地体现这一点：机器人未来会更多地依赖演示，还是更多地依靠来自自主数据的强化学习？

我们正在同时研究这两方面，而且显然，这两者都至关重要。如果人们预期需要大量远程操控来生成大量演示数据，并且只需少量自主经验，那么他们对技术的准备方式就会大不相同；反之，如果仅需极少的演示数据，却拥有海量的自主经验，比如90%的自主经验搭配10%的演示数据，那么情况又将截然不同。

我们很期待在未来几年内能深入探究这些问题，但可以肯定的是，这将彻底改变我们对技术发展的正确应对策略。这正是技术变革所带来的一个典型案例。

Patrick O’Shaughnessy：

从商业角度来看，大幅改变这一点正是正确的思考方式，就像深入厘清你企业中劳动力的经济状况之类的问题一样。我很好奇，你如何看待这种变化将如何从根本上改变劳动力本身的性质。

Sergey Levine：

我认为，编码工具就是一个很好的范例，可以用来借鉴这种模式的运作方式。

比如，当编码工具出现后，我们突然发现不再需要软件工程师了——实际上，是编码工具提升了每位软件工程师的生产力。

当然，要确保人们能够熟练使用这些工具，还需要做不少工作；同时，为了让它们在恰当的场景中真正发挥作用，也必须进行一定程度的技术开发。而这些因素其实是共同演进、相互促进的。此外，它们还在不断变化，比如编码代理与代码补全就大不相同、工具也在不断演变等等，但我认为这对我们来说是个不错的模板，能让我们看到人工智能工具如何与人类协作，提升工作效率，同时也带来新的挑战。

我想，我们在机器人领域也会看到类似的情况。更现实的模式并非是人形机器人直接取代人类，然后人们就完全退出了。我认为，未来的场景会更接近这样一种状态：有些工作环节可以由机器人独立完成，有些环节则需要机器人与人类协同作业；还有一些环节，人类必须亲自参与，以使机器人发挥出更高的效率。

当然，也有反向的情形，让机器人完成某些任务反而能让人类的工作效率得到提升。这种互动配合的过程，正是我们此前在编码工具中所见到的那种“默契协作”模式。

十三、机器人演示本身具有其独特价值

Patrick O’Shaughnessy：

你有没有特别喜欢的机器人？这并不属于体能智能所做的事情。

Sergey Levine：

我真的很喜欢波士顿动力公司的机器人，尤其是最新版的Atlas，因为它在某些方面非常像人类，而在另一些方面又完全不像由人类操控的机器人。他们对关节的运动范围做了不少有趣的调整，这让Atlas能够完成一些相当酷炫的动作。此外，它还是一款非常灵活的机器人，这一点真的太酷了！正是凭借这种灵活性，它才能呈现出那些令人惊叹的演示效果。因此，我超级喜欢它。总的来说，我对波士顿动力公司所做的一切都特别着迷。

Patrick O’Shaughnessy：

或者，是否可以解读出这样一个事实：波士顿动力公司长期以来一直推出非常酷炫的演示，但实际上并未为客户带来任何真正有用的东西？

Sergey Levine：

是的，这确实是个公允的问题。我认为，对许多机器人公司而言，这也是个公允的问题。

坦白说，我大致想说的是那些旨在展示通往实用且高效成果之路上各种挑战的演示，是蕴含着巨大价值的。

当然，你也可以做一个演示，但它并不在通往有用和富有成效的道路上。但我觉得，演示本身仍具有其独特价值。

如果能恰当地将演示服务于特定使命，它们就能向人们直观地展现未来可能的景象，同时也能激发人们的思考与挑战意识。你只需在设定这些演示时保持诚实即可。

十四、商业落地与产品形态还需探索

Patrick O’Shaughnessy：

你对商业端点的思考有多深入呢？比如，就目前而言，Roomba堪称消费类机器人史上销量最高的产品，这一点还真有点令人意外。

当然，我们或许正处在某种“寒武纪大爆发”的边缘，但你有多少时间是在琢磨：这种产品形态可能会由此诞生，又或者，这会不会是我们撬动所有这些数据的突破口呢？

Sergey Levine：

我确实花了不少时间去思考这个问题。

我觉得，目前要把它简化成一个非常具体的答案，实在有点困难。不过，探讨各种可能性的空间倒也挺有意思的。

你知道，我们在开发模型、尝试不同任务、以及像机器人奥运会这样的演示活动时，其实都在进行某种原型设计：当我们试图用这些技术去做一些真正的事情时，会呈现出怎样的效果？

当然，这种真实程度各有不同，也会遇到各种各样的问题。所以，这确实是我们经常思考的一个话题。尽管我目前还远谈不上有什么确切的答案，但确实存在着这样一个充满可能性的广阔空间。接下来，我们也将在这个可能性空间里，尝试各种不同的实验与探索。

十五、技术进化+硬件成本下降客观上推动了机器人技术发展

Patrick O’Shaughnessy：

当你研究通用技术的历史时，如果说到成果，这无疑会成为一项重大突破——你往往会发现，围绕这项技术出现了一系列相互关联的要素，它们显然为这项技术的实现提供了助力。

比如，照明就是你所从事的工作的直接补充。那么，还有哪些其他令人意外的技术领域或趋势，虽然与你的工作不同，却同样帮助你实现了目标呢？

Sergey Levine：

因此，一个有趣的现象是，过去几年里，机器人硬件的价格已大幅下降。大约十年前我刚开始从事机器人研究时，我使用的是名为PR 2的机器人，据我所知，它的成本约为40万美元。

当我开始在加州大学伯克利分校组建实验室时，我用的机器人价格则在3万美元左右。

如今，这个机器人的每只手臂的成本可能只有前者的十分之一，我们认为甚至有可能更低。

这并非源于某种单一技术，而是因为这类技术同时涉及硬件和软件。

因此，我们这里所拥有的这种低成本设备，在工业环境中其实并不实用，因为依赖高度精准的传统控制方法无法驾驭它们。

正如你所说，目前存在着种类繁多、功能各异的先进技术，正是这些因素共同推动了此类产品的价格不断下降。而且我认为，这使得如今思考通用机器人技术变得更加切实可行。

十六、技术真相往往出现在研究论文里

Patrick O’Shaughnessy：

针对那些希望对本领域正在发生的重大里程碑事件保持相当技术性关注的人。这些信息具体出现在哪里呢？

Sergey Levine：

很多相关信息都出现在研究论文中。

遗憾的是，研究论文并不是一种特别容易获取的信息来源，因为要从海量内容中筛选出真正有价值的部分、厘清其中的信号以及理解某个研究结果的真正含义，着实需要一番细心琢磨，尤其是对于那些已经熟悉过往所有研究成果、了解研究起点的读者而言。

不过，这倒是个大问题。

我认为，机器人技术乃至整个科技领域都存在这样一种现象：公众所接触到的诸如演示样机或社交媒体上发布的视频，往往并不能很好地反映事物的真实状况。这些展示更多地被设计成一种能力极限的示范性呈现，而非深入揭示其背后的真正意义。

因此，要想真正理解某个演示究竟意味着什么，往往还得深入挖掘、细细探究。所以，研究论文或许才是最靠谱的途径。有时候，情况甚至更糟，你甚至不得不亲自与相关研究人员交流，才能真正弄清楚他们的洞见和故事。也许身处这种境地并不算太理想，但科学就是这样运作的。

十七、时间尚不确定

Patrick O’Shaughnessy：

当你们展望未来时，感觉什么最不确定？

Sergey Levine：

我确实认为，时间尚不确定。坦白说，自我们启动以来，我对时间的预期反而变得更加乐观了。

之所以说不确定，是因为这项技术的性质决定了它面临着巨大的“冷启动”挑战。我们需要先达到某个特定的实用性门槛，机器人才能真正被部署，去执行有用的任务，进而开始在开放世界的场景中大规模收集数据。

这就像是一个需要跨越“活化能”的过程，一旦突破就会迎来突变，但具体何时能突破，确实很难预测。

而且，由于采用的技术路线不同，时间表的走向也会大相径庭，这让情况变得更加复杂。比如我之前举过的例子，数据收集究竟是应该通过遥操作（远程人工控制），还是依靠自主系统，亦或是介于两者之间（比如某种“教练式”的辅助模式），这些选择都会彻底改变机器人部署和数据收集的工作方式。

正因如此，我确实认为目前存在相当大的不确定性。

十八、机器人技术成熟还需翻越更多山峦

Patrick O’Shaughnessy：

你正处于一个非常有趣的位置，因为你身处研究的中心。各种各样的人都在与你交流，向你提问。有哪些问题让你感到“人们竟然没有问过你”？又有哪些本该被问到的问题，却鲜有人提及呢？

Sergey Levine：

嗯，我觉得你刚才问的那个关于“人们该如何做准备”的问题，其实可以引申出一个更具体的场景，那就是如果我想开始使用自主机器人来干活，我该从哪儿着手呢？我是该先搭建运营体系？还是说，我该对现有的任务流程做一些调整，让它更容易被机器人接手？又或者，我是不是该设计新的硬件，比如专门设计一套硬件，好把你的软件直接插进去用？

而且我认为，人们对这一点往往做出很多假设。

比如，一个常见的假设是机器学习需要数据。那咱们就先弄个能收集数据的东西吧！

然而，这往往并不是最明智的假设，因为你需要的是合适的数据。也许有些数据很容易获取，比如拍些人们做某件事的视频就挺容易，但这并不意味着这些数据就是合适的。

而且，这种数据可能还高度依赖于具体领域，甚至取决于你对这项技术的假设成功。

所以我觉得人们对此确实会做出很多假设，尽管他们问我，我也未必能给出更好的答案。这其实是一个充满各种可能性的领域。

Patrick O’Shaughnessy：

我们讨论的这些时间跨度都很大、充满不确定性，而且是长期的。那么，眼下你正试图解决的那个问题，具体是什么，它又极其显而易见呢？

Sergey Levine：

那么，不剧透太多，我只能说，目前我们的一大重点其实是更好地理解这个问题中这种中层推理的环节。

因为我们觉得自己对如何习得底层的物理行为已经有相当不错的把握，但要让这些底层物理行为具备泛化能力，就必须借助大量这类常识性知识。而这些知识的表征方式或许至关重要。比如，大语言模型能够生成某些特定类型的表征，使得将文本转化为其他文本变得极为便捷。

然而，这未必就是具身系统所需的最佳表征形式。有时，具身系统需要以更空间化的方式思考问题；有时则需从语义层面入手；还有时，可能需要采用其他类型的表征。

因此，如何精准地构建这种内部思维过程，或许正是一个非常关键的问题。

而针对这一问题的答案，在具身基础模型的世界里可能会与在大语言模型的世界里有所不同。这正是我们正在着力研究的一个具体方向。

Patrick O’Shaughnessy：

那么假如有一天，我能把全球100位最资深、最活跃的机器人研究者聚集在一个房间里，调查他们对“机器人终将拥有无限能力”这一观点的确信程度，以及这一天何时会到来。你会把自己排在第几位呢？

Sergey Levine：

在资深机器人研究人员方面，我持乐观态度；不过在机器人创业者方面，我则持悲观态度。

Patrick O’Shaughnessy：

有趣，我完全理解创业者那一部分。你天生就是个乐观主义者。那你为什么会在研究者中属于乐观派呢？

Sergey Levine：

机器人技术有着悠久的历史，但取得的成就却寥寥无几。

这么说吧，尤其是在机器人人工智能领域更是如此。因此，坦白地说，目前市面上大多数正在从事有用工作的机器人，所采用的依然是20世纪80年代的最先进技术。

这其实并不完全是我们的错，只是这个问题本身确实很难攻克。正因如此，我认为我们有充分的理由保持谨慎。没错，我们在这一问题的某些方面或许已取得了很大进展，但还有许多其他难题亟待解决。

而我之所以对这一领域抱持乐观态度，部分原因在于，我多少能体会到过去哪些挑战对我来说尤其棘手。同时，我也能看到许多拼图碎片，它们或许能够被巧妙地拼合起来，从而有效应对上述诸多难题。

不过，正如我的一位伙伴Cairo喜欢说的那样：“只有当你翻过一座山头，才能看清后面是不是还有一座山，对吧？”

在机器人领域，我们确实已经翻过了太多的山头。

十九、波士顿的启发：良好的实验氛围是技术创新的温床

Patrick O’Shaughnessy：

既然这是一场持久战，那么对你来说，最大的灵感来源是谁，或者是什么？

Sergey Levine：

实际上，我深受波士顿动力公司的启发。

再次强调，我认为在技术层面有很多值得探讨的地方。

即便存在各种各样的前提条件、假设及其他限制因素，反复展示一些人们原本认为不可能实现的事物，依然具有极大的价值。

尤其是在机器人领域，无论我们如何评价那些演示效果之类的东西，我认为很公平地说，正是通过看到这些成果，人们才重新审视并修正了自己对可能性的固有认知。所以，这一点无疑是值得肯定的。

另外，我觉得那些能够营造出“实验氛围”的组织也给了我很多启发。

我认为有一些研究实验室在这方面做得非常出色。

事实上，OpenAI在历史上就做得很好，他们创造了一种氛围，让每一位研究人员都可以自由地尝试新事物，并且有能力将这些想法坚持到底。

就像ChatGPT，它最初基本上只是John Schulman（OpenAI 联合创始人）搞了一段时间的“个人宠物项目”。

它并不是那种有着厚厚的电子表格和饼图的、精心策划的企业战略，它更像是一个业余爱好项目。

所以我觉得，那些能够授权让员工去搞“个人项目”，并最终将其转化为改变世界的成功案例的组织，真的非常鼓舞人心。

当然，这也是我和我的合作伙伴们在Physical Intelligence这里的愿望之一，我们希望能尽最大努力提供这样的环境。

但这很难。我必须要坦言，要打造一家具备这种能力的公司，真的非常不容易。

Patrick O’Shaughnessy：

我感觉谷歌以前曾经有过那么一天，你做什么都可以。问题在于，那种精神，或者说……

Sergey Levine：

当我开始在谷歌工作时，我简直震惊了，我感觉自己拥有的影响力竟然达到了那种程度。

2015年，我和那里的许多同事一起做了一个项目，我们戏称它为“机器人农场”。我们找了几十个机器人，把它们放进一个实验室里，让它们不停地收集数据。这完全是一个自下而上的举动。事情的起因仅仅是我听说有人有一个仓库，里面堆满了没人用的机器人。

于是我就去问Jeff Dean（Google资深副总裁）和其他人，能不能把这些机器人搬进实验室里。

当时我心里其实就在想：“好吧，他们肯定不会当真的。”当时我刚入职，还只是一名4级研究员。

结果Jeff直接就说：“行啊，那就做吧。你需要什么？”

我现在还记得当时的感觉，心里就在想：“哇，我这辈子从来没想过自己能拥有这种话语权。”

当然，那时候我确实还很年轻，但我觉得那种体验真的非常特别。

而且我觉得，如果管理者们能营造一个让人们可以释放创造力、并拥有这种自主权的环境，那这个地方日后一定会变得大有可为。

二十、节目压轴问题：别人为你做过的最善良的一件事是什么？

Patrick O’Shaughnessy：

我的朋友Jesse有一个很棒的问题，我想问问你，在那些你没有参与的公司中，你最希望哪一家获得成功？为什么？

有些人会说是Boom（一家超音速飞机公司），因为他们想飞得更快。

但最近，当我问这个问题时，越来越多的人给出的答案是：只要这家公司能成功且它带来的是全球性的巨大影响力。

在做这些采访时，听你讲述你是如何思考并着手解决这个问题的来龙去脉，真的非常有趣。

最后，我有一个问所有人的传统压轴问题：别人为你做过的最善良的一件事是什么？

Sergey Levine：

这个问题挺难回答的，因为在我的职业生涯中，确实有很多时刻让我觉得得到了别人的扶持或提携。

我觉得我的性格就是这样，有时候身在局中并不懂得珍惜，只有事后回想起来才恍然大悟。

要说具体的例子，我脑海里大概浮现出了三个时刻，而其中一个其实我刚才已经跟你提过了，就是那个“机器人农场”的故事。

我特别感激Jeff和Vincent，因为他们愿意在我和同事身上赌这一把。

除此之外还有几个时刻。比如，当我在伯克利跟随Peter Beal开始做博士后研究时，我当时的机器人领域经验几乎为零，之前做的都是虚拟角色动画和计算机图形学。我觉得那是对我潜力的一次下注，而不是看重我当时的实际成就。

还有一个更早、甚至可能更微不足道的小插曲：在我上大学大二的时候，我得到了英伟达（Nvidia）的一份实习工作，那让我真正接触到了很多很酷的东西。我觉得当时的招聘经理也是对我投了一张信任票。

我认为这类事情对一个人的职业生涯真的至关重要。虽然当时我可能没有表现出足够的感激之情，但回过头来看，这些机会确实带来了巨大的改变。

希望未来，我也能为其他人的职业生涯带来同样积极的改变。

Patrick O’Shaughnessy：

好的，通过今天这场谈话我从你和你的同伴们身上学到了太多东西，非常感谢你！

Sergey Levine：

谢谢。

一、开发通用大模型，打造机器人的统一“大脑”的愿景面临着重重挑战

二、Sergey Levine详解机器人通用模型的里程碑和进化之路

三、十余年深耕，搭建起VLA框架

四、利用“思维链”式工作机制，解决机器人长程任务难关

五、在有用的基础上尽情造酷炫机器人

六、机器人奥运会最难的不是跑跳，而是完成日常生活任务

七、形态不重要，重要的是能控制任何形态的通用模型

八、机器人技术发展的初期阶段，后物理智能领域会最先迎来显著变革

九、机器人需要从数据中学习

十、机器人模型“大脑”的黑暗地带

十一、在研究中学会把握时机是研究者们重要的课题

十二、未来并非是人形机器人直接取代人类，而是人机默契协同

十三、机器人演示本身具有其独特价值

十四、商业落地与产品形态还需探索

十五、技术进化+硬件成本下降客观上推动了机器人技术发展

十六、技术真相往往出现在研究论文里

十七、时间尚不确定

十八、机器人技术成熟还需翻越更多山峦

十九、波士顿的启发：良好的实验氛围是技术创新的温床

二十、节目压轴问题：别人为你做过的最善良的一件事是什么？

相关推荐