李飞飞专访：实现全面智能，解决3D智能是基础性工程

智东西（公众号：zhidxcom）
编译 | 风衣
编辑 | 程茜

智东西12月17日消息，斯坦福大学教授、AI教母李飞飞于12月11日在重量级AI会议NeurIPS上发表了主题演讲，并在演讲前接受了IEEE Spectrum的独家采访。在专访中，李飞飞表示AI视觉模型与语言模型同等重要，而空间智能正是视觉智能的发展方向。未来空间智能将深度参与到我们的日常生活中，这一领域大有可为。

李飞飞也提到，应该为公共部门提供足够的数据与算力资源，以推动AI研究更好的发展。

李飞飞的研究已足以让她在AI的发展历史上占据一席之地。在深度学习革命中，她发挥了重要作用：深耕数年创建ImageNet数据库和竞赛，让AI系统挑战识别逾一千种物体和动物。2012年，一个名为AlexNet的神经网络在AI研究界引起了轰动，它的性能远远超过了所有其他类型的模型，并赢得了ImageNet比赛。从此，靠着海量、免费的网络数据和显卡提供的前所未有的算力，神经网络研究一飞冲天。在ImageNet问世后的13年里，计算机视觉研究人员掌握了对象识别技术，并转向图像和视频生成。

李飞飞是斯坦福大学人类中心AI研究所（HAI）的联合创始人，持续致力于突破计算机愿景的边界。就在今年，她创办了一家公司World Labs，生成用户可以探索的3D场景。World Labs致力于为AI提供“空间智能”，即生成3D世界、在3D世界中进行推理和交互的能力。

一、视觉和语言互补，空间智能是实现全面智能的基础

问题：您为什么将演讲的题目定为“攀登视觉智能之梯（Ascending the Ladder of Visual Intelligence）”？

李飞飞：我认为，仅凭直觉就能知道，AI的复杂程度和成熟程度是有不同层次的。在演讲中，我想传达这样一种感觉，即在过去几十年中，尤其是过去10多年的深度学习革命中，我们在视觉智能领域学到的知识已令人叹为观止，在这项技术上的能力也日趋成熟。我还受到了犹大·伯尔（Judea Pearl）“因果阶梯”的启发（《因果革命（The Book of Why）》,2020）。

这个演讲还有一个副标题，叫“从看到做（From Seeing to Doing）”，这是一个被大家低估的理念：无论对于动物还是AI，视觉都与交互、做事密切相关，这是对语言的某种悖反。但从根本上说，语言还是一种用来传递想法的交流工具。在我看来，视觉和语言恰好互补，都是极其重要的AI发展模式。

问题：您的意思是，我们会本能地对某些场景做出反应吗？

李飞飞：我说的不仅仅是直觉。如果多了解一下感知能力和动物智力的演变，就会发现视觉与这些都是紧密联系的。当我们能够从环境中获取更多信息时，进化的力量就会推动能力和智力向前发展。如果你感知不到环境，那与世界的关系就非常被动，不管是吃还是被吃，都会是非常被动的举动。但是，一旦你能通过感知从环境中获取线索，进化的力量就会增强，从而推动智力向前发展。

问题：您认为，让机器从环境中获得更多信息是我们深化机器智能的方式吗？

李飞飞：我不确定我会用“深化”来形容。我认为我们正在创造更强大的能力，AI正变得越来越复杂，功能越来越强大。我相信，解决空间智能问题是迈向全面智能的基础和关键，这点是绝对没问题的。

二、“世界是3D的”，空间智能是基础性工程

问题：我看过World Labs的演示视频，您为什么想要研究空间智能并构建3D世界？

李飞飞：我认为空间智能是视觉智能的发展方向。如果我们想要认真解决视觉方面的问题，将视觉与实际操作建立链接，那就会发现一个非常简单的、显而易见的事实：世界是3D的。我们不是生活在平面世界里，不管是机器人还是设备，所有的物理主体都将会生活在3D世界里，甚至虚拟世界也变得越来越3D。如果与艺术家、游戏开发人员、设计师、建筑师、医生交谈，您会发现即使他们在虚拟世界工作，这些虚拟世界也大都是3D的。如果花点时间仔细想想，认识到这个简单却重要的事实，那么毫无疑问，解决3D智能的问题就是基础性工程。

问题：我很好奇World Labs生成的场景是怎么做到既让物体持续存在、又让其运动符合物理规律的，感觉这是个让人兴奋的进步，因为即使是Sora这样的视频生成工具，也都还处于摸索阶段。

李飞飞：一旦你认识到世界的3D性，很多事情都是很自然的。例如，我们发布在社交媒体上的一条视频中，篮球被扔到某个场景里。因为它是3D的，所以才能实现这种效果。如果场景只是2D生成的像素，篮球就无处可去了。

李飞飞专访：实现全面智能，解决3D智能是基础性工程

问题：或者就像在Sora生成的视频一样，篮球可能会出现在某个地方，然后又莫名其妙地消失。在尝试推动这项技术向前发展的过程中，您面临的最大技术挑战是什么？

李飞飞：没有人能解决这个问题，这非常非常难。你在World Labs演示视频中可以看到：我们拍摄了一幅梵高的画，并用统一的风格围绕这幅画生成了整个连贯场景：艺术风格、光线，甚至那个地方会有什么样的建筑。如果你转过身，发现画面变成了摩天大楼，那就很没有说服力了。而且它必须是3D的，你必须能够进入其中进行探索。所以，它不仅仅是像素而已。

问题：您能谈谈用来训练它的数据吗？

李飞飞：那就太多了。

三、知识探索需算力资源支持，AI理解3D世界或带来大量创造力

问题：您在计算机负载方面有遇到什么技术困难吗？

李飞飞：空间智能需要大量的算力，而这是公共部门难以负担的。这也是我对进行学术休假、创建私营企业研发AI这件事感到兴奋的一部分原因。同时，这也是我一直倡导公共部门获取计算资源的原因之一，因为我自己的经历突出了必须拥有足够资源、以推动创新的重要性。

问题：让公共部门拥有更大的权力是很有意义的，因为它通常更专注于为了知识本身以及造福人类而追求知识。

李飞飞：知识探索确实需要资源的支持。在伽利略时代，正是最好的望远镜帮助天文学家观察到了新天体。而列文虎克则意识到放大镜可以成为显微镜，然后发现了细胞。每当新的技术工具出现时，它就会推动知识的探索。而在AI的时代，技术工具包括算力和数据。我们必须意识到，公共部门也需要这些资源。

问题：在联邦政府层面，您希望采用他们哪些措施来提供资源？

李飞飞：过去五年里，这一直是斯坦福大学人类中心AI研究所（Stanford HAI）的工作内容。我们一直在与国会、参议院、白宫、行业和其他大学合作，以创建NAIRR，即国家AI研究资源中心(the National AI Research Resource）。

问题：假设我们可以让AI系统真正理解3D世界，那会给人类带来什么好处？

李飞飞：它将给人们带来大量的创造力和生产力。我很希望能用一种更高效的方式设计我的房子。我知道，很多医学应用都涉及到要理解人体，这个非常特殊的3D世界。我们总在讨论一种人类能够创造机器人帮助自己的未来。但机器人是在3D世界中工作的，它们的大脑必须具备空间智能。我们也在谈论虚拟世界，让人们可以参观各地、学习概念或娱乐。而这些都依赖3D技术，特别是我们所说的增强现实（AR）这样的混合技术。我希望当我戴着眼镜漫步在国家公园时，它能为我提供关于树木、小径、云层的信息。我也希望借助空间智能来学习不同的技能。

问题：什么样的技能？

李飞飞：我举一个很普通的例子：如果我在高速公路上爆胎了，我该怎么办？现如今我会打开“如何更换轮胎”的视频。但如果我能戴上眼镜，看见我的车发生了什么，然后在指导下完成换胎，那就太好了。但这是一个最普通的例子。你也可以想到做饭、可以想到雕塑，各种有趣的事情。

问题：您认为有生之年我们能走多远？

李飞飞：我认为这在我们有生之年一定会实现，因为技术进步的速度特别快。你已经看到了过去十年发生的变化，毫无疑问，这也预示着未来的发展。

来源：IEEE Spectrum

一、视觉和语言互补，空间智能是实现全面智能的基础

二、“世界是3D的”，空间智能是基础性工程

三、知识探索需算力资源支持，AI理解3D世界或带来大量创造力

相关推荐