智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 漠影

最近一段时间,具身智能圈子最热的话题之一是:世界模型来了,VLA(视觉-语言-行动)是不是要退场?

打开社交媒体,“VLA时代终结”的论调甚嚣尘上。自媒体们热衷于用“颠覆”“取代”这样的词汇来描述这场所谓的范式更替,甚至直接将世界模型与VLA对立起来,仿佛一场技术更替已经发生。

但如果你真的走进一线,去问那些在实验室里的算法研究员、在真实场景里跑任务的工程师,得到的答案往往完全不同——VLA不仅没有消失,反而变得更重要,而且它的能力正在持续进化、变得越来越强。

4月23日,智平方的创始人郭彦东在一场演讲中正面回应了这场争议。他不站队,也不硬刚,而是把问题拉回原点:“不管叫什么名字,任何物理智能系统都离不开三样东西——看懂环境、听懂人话、做出动作。

VLA被终结了吗?智平方郭彦东:没有!它在世界模型的加持下持续进化,变得更强
▲智平方创始人郭彦东博士

换句话说,VLA不是某种“流行技术”,而是一个最接近第一性原理的结构。你可以改变它的组织方式,但内核仍然没变。

于是,一个更有意思的问题浮现出来:这场争论,真的在讨论技术替代,还是在误解技术演进?

一、VLA真的过时了吗?不如先问它到底解决什么问题

按惯例,要问对不对,先看是什么。

很多人争论VLA过时,似乎没搞清楚VLA的本质——它不是某个公司的私有技术,也不是一篇论文里的特定架构,它描述的是一个最基础的能力闭环:

Vision:感知世界,让机器人看见世界。

Language:理解与推理,让机器人理解意图。

Action:执行与控制,让机器人动手干活。

只要机器人要在真实世界里执行任务,这三个环节就绕不开。你可以用世界模型、物理模型、类脑模型去增强它,但很难绕开它。

VLA被终结了吗?智平方郭彦东:没有!它在世界模型的加持下持续进化,变得更强
▲机器人要在真实世界里执行任务绕不开这三个环节

这正是智平方在这场争论中的核心判断:变化的从来不是“要不要VLA”,而是VLA里面的几个基本要素如何被组织。

正如郭彦东在演讲里所说:“回到第一性原理,对于世界的感知、对于逻辑的推理、对于行为的控制,这三个组成部分是永远存在的。它们只是组织方式在发生变化。”这就好比说“吃饭”这件事永远不会过时,但吃什么、怎么吃、用不用工具,一直在变。

世界模型之所以火,是因为它补上了一个长期缺失的能力——预演未来。传统VLA更像是“反应式系统”:看到什么 → 理解 → 执行。而世界模型引入的是一种“前瞻能力”:在行动之前,先在“脑子里”跑一遍可能结果。

换句话说:世界模型更像是给VLA装上了一颗“想象力引擎”,让它能在行动前预演结果。

也正因此,郭彦东给出了一个非常清晰的定调:VLA始终是主航道,世界模型只是加速器。 他还在现场强调:“VLA不会消失,它会被不断加持,变得越来越聪明,它是通往物理世界智能的最强主航道。”

这句话把“路线之争”从对抗关系,重新拉回到演进关系。

二、从“只会听指令”到“越干越聪明”:VLA的三次进化

如果把VLA的发展画成一条时间线,会发现它是在快速演进。

智平方将这一过程总结为三代路径,是代表着机器人智能从“执行指令的工具”向“持续进化的主体”跨越的三个关键台阶。

VLA被终结了吗?智平方郭彦东:没有!它在世界模型的加持下持续进化,变得更强
▲VLA始终是主航道

第一代是端到端VLA。 2023年前后,当行业里大部分创业公司还在用开源模型拼凑、把视觉模型和语言模型简单串在一起的时候,智平方已经把感知、理解、控制捏成了一个统一的模型。

智平方的AlphaBrain是行业公认的中国创业公司中最早提出、最具原创架构的具身大模型(机器人大脑),在开源社区的第三方硬核评测中多项指标位列全球第一,且已在真实场景中完成深度验证。

第二代是融合世界模型的VLA。 到了2025年底,世界模型开始成为行业热点。行业出现“外挂式增强”和“内生式融合”两种路线,智平方选择的是后者。其于2025年底推出融合世界模型的VLA具身大模型,实现“先预测、后执行”。

这本质上是让机器人学会“思考”。以前机器人看到指令就直接动手,现在它可以在行动之前预演一下:如果我这样移动手臂,会发生什么?有没有更好的路径?会不会碰到障碍物?这种“行动前预演(Plan-before-act)”的能力,让机器人的操作精度和适应能力上了一个台阶。

VLA被终结了吗?智平方郭彦东:没有!它在世界模型的加持下持续进化,变得更强▲智平方具身大模型发展的关键节点

第三代是类脑VLA。今年4月,智平方对外披露了全球首个类脑架构VLA具身大模型——NeuroVLA。它模仿了人脑的分工结构,首次提出将小脑和脊髓的部分融入操作当中,实现模型毫秒级自适应控制与接近生物反射速度的响应能力,使机器人首次具备类似“肌肉记忆”的持续进化能力。

VLA被终结了吗?智平方郭彦东:没有!它在世界模型的加持下持续进化,变得更强

▲类脑VLA系统NeuroVLA的架构介绍

结果就是,机器人面对突发情况时,反应速度从几百毫秒降到了几十毫秒,而且还具备了类似“肌肉记忆”的持续优化能力。它不是每次遇到同样的问题都从零开始推理,而是在反复执行中变得越来越熟练、越来越稳定。

这三步走下来,VLA已经比当初强大了太多。

它从一个训练完成即固定的静态模型,变成了一个在部署后持续学习的动态系统;从一个执行指令的工具,变成了一个在任务中不断优化自身的智能体。这一切都是VLA框架内部的持续进化,而不是被什么东西替代。

三、全球首个一站式具身智能模型开源社区:AlphaBrain Platform到底给了开发者什么?

模型再好,用不起来也是白搭。智平方这次推出的AlphaBrain Platform,就是为了解决这一问题。

智平方称,它是全球第一个一站式、开箱即用的具身智能模型开源社区,是一个把数据、训练、模型、评测整条链路全部打通的体系。

VLA被终结了吗?智平方郭彦东:没有!它在世界模型的加持下持续进化,变得更强
▲AlphaBrain Platform

最值得关注的是,三条最前沿的路线,AlphaBrain Platform一次给齐。

第一条是类脑VLA模型NeuroVLA。 这是全球首个开源的类脑VLA,它引入的脉冲神经网络动作头,让机器人具备了在真实环境中持续适应的能力。不是每次重新训练,而是在部署过程中一边干活一边学习,越干越顺手。

第二条是基于RL Token的训练架构。 这是强化学习与VLA深度融合的方案,最厉害的地方在于训练门槛极低——只需要一张消费级显卡就能跑。以前对VLA做强化学习动辄需要几十块显卡的算力,现在普通开发者用自己的电脑就能做。

第三条是可插拔世界模型架构。 这是全球第一个实现世界模型可插拔化的开源方案。平台原生集成了NVIDIA Cosmos的原始权重,同时支持Cosmos、Wan、V-JEPA三大世界模型一键切换。开发者可以在同一任务中直接对比不同世界模型的表现,不用再为环境配置和接口对接发愁。

除了这三张王牌,AlphaBrain Platform还提供了统一的评测体系,覆盖了LIBERO、RoboCasa、CALVIN、BEHAVIOR-1K等8大主流Benchmark。现在所有模型在同一个环境里、用同样的数据、跑同样的测试,好模型不再靠“嘴强”。

就像郭彦东在发布会上说的那句话:“以前,开源一个模型是给你一个工具。现在,AlphaBrain Platform直接给你一个顶配全家桶——最前沿的模型、最趁手的工具、最标准的评测,一次配齐,开箱即用。”

这种“全家桶”式的做法,只有同时懂模型、懂工程、懂场景的公司才做得出来。因为你只有自己把整条链路跑通了、踩过坑了,才知道别人会在哪里卡住,也才知道该怎么把路铺好。

结语:VLA进化时,长出“想象力”和“肌肉记忆”

回到那个争论:VLA会不会被世界模型取代?答案可能很清晰:它不会消失,而且正在变得越来越强。只要机器人还得在真实世界里干活,看懂世界、听懂人、动起来这三样就一天不会少。

从2023年的端到端VLA,到2025年融合世界模型,再到今年4月的类脑VLA——智平方的每一次迭代都在注入新能力,而不是推翻重来。VLA还是那个VLA,但它已经拥有了世界模型的“想象力”和类脑架构的“肌肉记忆”。这种“守正不守旧”的态度,为这个争论提供了产业参考态度。

技术路线的争论终会过去,但那些在工厂里干活的机器人、在交通枢纽服务的机器人、在“智魔方”里一天做几百杯咖啡零失误的机器人,才是行业真正该关心的。而VLA这个框架,正沿着这一本质不断进化、变得越来越强。