VLA被终结了吗？智平方郭彦东：没有！它在世界模型的加持下持续进化，变得更强

智东西（公众号：zhidxcom）
作者 | 李水青
编辑 | 漠影

最近一段时间，具身智能圈子最热的话题之一是：世界模型来了，VLA（视觉-语言-行动）是不是要退场？

打开社交媒体，“VLA时代终结”的论调甚嚣尘上。自媒体们热衷于用“颠覆”“取代”这样的词汇来描述这场所谓的范式更替，甚至直接将世界模型与VLA对立起来，仿佛一场技术更替已经发生。

但如果你真的走进一线，去问那些在实验室里的算法研究员、在真实场景里跑任务的工程师，得到的答案往往完全不同——VLA不仅没有消失，反而变得更重要，而且它的能力正在持续进化、变得越来越强。

4月23日，智平方的创始人郭彦东在一场演讲中正面回应了这场争议。他不站队，也不硬刚，而是把问题拉回原点：“不管叫什么名字，任何物理智能系统都离不开三样东西——看懂环境、听懂人话、做出动作。”

VLA被终结了吗？智平方郭彦东：没有！它在世界模型的加持下持续进化，变得更强
▲智平方创始人郭彦东博士

换句话说，VLA不是某种“流行技术”，而是一个最接近第一性原理的结构。你可以改变它的组织方式，但内核仍然没变。

于是，一个更有意思的问题浮现出来：这场争论，真的在讨论技术替代，还是在误解技术演进？

一、VLA真的过时了吗？不如先问它到底解决什么问题

按惯例，要问对不对，先看是什么。

很多人争论VLA过时，似乎没搞清楚VLA的本质——它不是某个公司的私有技术，也不是一篇论文里的特定架构，它描述的是一个最基础的能力闭环：

Vision：感知世界，让机器人看见世界。

Language：理解与推理，让机器人理解意图。

Action：执行与控制，让机器人动手干活。

只要机器人要在真实世界里执行任务，这三个环节就绕不开。你可以用世界模型、物理模型、类脑模型去增强它，但很难绕开它。

VLA被终结了吗？智平方郭彦东：没有！它在世界模型的加持下持续进化，变得更强
▲机器人要在真实世界里执行任务绕不开这三个环节

这正是智平方在这场争论中的核心判断：变化的从来不是“要不要VLA”，而是VLA里面的几个基本要素如何被组织。

正如郭彦东在演讲里所说：“回到第一性原理，对于世界的感知、对于逻辑的推理、对于行为的控制，这三个组成部分是永远存在的。它们只是组织方式在发生变化。”这就好比说“吃饭”这件事永远不会过时，但吃什么、怎么吃、用不用工具，一直在变。

世界模型之所以火，是因为它补上了一个长期缺失的能力——预演未来。传统VLA更像是“反应式系统”：看到什么 → 理解 → 执行。而世界模型引入的是一种“前瞻能力”：在行动之前，先在“脑子里”跑一遍可能结果。

换句话说：世界模型更像是给VLA装上了一颗“想象力引擎”，让它能在行动前预演结果。

也正因此，郭彦东给出了一个非常清晰的定调：VLA始终是主航道，世界模型只是加速器。他还在现场强调：“VLA不会消失，它会被不断加持，变得越来越聪明，它是通往物理世界智能的最强主航道。”

这句话把“路线之争”从对抗关系，重新拉回到演进关系。

二、从“只会听指令”到“越干越聪明”：VLA的三次进化

如果把VLA的发展画成一条时间线，会发现它是在快速演进。

智平方将这一过程总结为三代路径，是代表着机器人智能从“执行指令的工具”向“持续进化的主体”跨越的三个关键台阶。

VLA被终结了吗？智平方郭彦东：没有！它在世界模型的加持下持续进化，变得更强
▲VLA始终是主航道

第一代是端到端VLA。 2023年前后，当行业里大部分创业公司还在用开源模型拼凑、把视觉模型和语言模型简单串在一起的时候，智平方已经把感知、理解、控制捏成了一个统一的模型。

智平方的AlphaBrain是行业公认的中国创业公司中最早提出、最具原创架构的具身大模型（机器人大脑），在开源社区的第三方硬核评测中多项指标位列全球第一，且已在真实场景中完成深度验证。

第二代是融合世界模型的VLA。 到了2025年底，世界模型开始成为行业热点。行业出现“外挂式增强”和“内生式融合”两种路线，智平方选择的是后者。其于2025年底推出融合世界模型的VLA具身大模型，实现“先预测、后执行”。

这本质上是让机器人学会“思考”。以前机器人看到指令就直接动手，现在它可以在行动之前预演一下：如果我这样移动手臂，会发生什么？有没有更好的路径？会不会碰到障碍物？这种“行动前预演（Plan-before-act）”的能力，让机器人的操作精度和适应能力上了一个台阶。

VLA被终结了吗？智平方郭彦东：没有！它在世界模型的加持下持续进化，变得更强 ▲智平方具身大模型发展的关键节点

第三代是类脑VLA。今年4月，智平方对外披露了全球首个类脑架构VLA具身大模型——NeuroVLA。它模仿了人脑的分工结构，首次提出将小脑和脊髓的部分融入操作当中，实现模型毫秒级自适应控制与接近生物反射速度的响应能力，使机器人首次具备类似“肌肉记忆”的持续进化能力。

VLA被终结了吗？智平方郭彦东：没有！它在世界模型的加持下持续进化，变得更强

▲类脑VLA系统NeuroVLA的架构介绍

结果就是，机器人面对突发情况时，反应速度从几百毫秒降到了几十毫秒，而且还具备了类似“肌肉记忆”的持续优化能力。它不是每次遇到同样的问题都从零开始推理，而是在反复执行中变得越来越熟练、越来越稳定。

这三步走下来，VLA已经比当初强大了太多。

它从一个训练完成即固定的静态模型，变成了一个在部署后持续学习的动态系统；从一个执行指令的工具，变成了一个在任务中不断优化自身的智能体。这一切都是VLA框架内部的持续进化，而不是被什么东西替代。

三、全球首个一站式具身智能模型开源社区：AlphaBrain Platform到底给了开发者什么？

模型再好，用不起来也是白搭。智平方这次推出的AlphaBrain Platform，就是为了解决这一问题。

智平方称，它是全球第一个一站式、开箱即用的具身智能模型开源社区，是一个把数据、训练、模型、评测整条链路全部打通的体系。

VLA被终结了吗？智平方郭彦东：没有！它在世界模型的加持下持续进化，变得更强
▲AlphaBrain Platform

最值得关注的是，三条最前沿的路线，AlphaBrain Platform一次给齐。

第一条是类脑VLA模型NeuroVLA。 这是全球首个开源的类脑VLA，它引入的脉冲神经网络动作头，让机器人具备了在真实环境中持续适应的能力。不是每次重新训练，而是在部署过程中一边干活一边学习，越干越顺手。

第二条是基于RL Token的训练架构。 这是强化学习与VLA深度融合的方案，最厉害的地方在于训练门槛极低——只需要一张消费级显卡就能跑。以前对VLA做强化学习动辄需要几十块显卡的算力，现在普通开发者用自己的电脑就能做。

第三条是可插拔世界模型架构。 这是全球第一个实现世界模型可插拔化的开源方案。平台原生集成了NVIDIA Cosmos的原始权重，同时支持Cosmos、Wan、V-JEPA三大世界模型一键切换。开发者可以在同一任务中直接对比不同世界模型的表现，不用再为环境配置和接口对接发愁。

除了这三张王牌，AlphaBrain Platform还提供了统一的评测体系，覆盖了LIBERO、RoboCasa、CALVIN、BEHAVIOR-1K等8大主流Benchmark。现在所有模型在同一个环境里、用同样的数据、跑同样的测试，好模型不再靠“嘴强”。

就像郭彦东在发布会上说的那句话：“以前，开源一个模型是给你一个工具。现在，AlphaBrain Platform直接给你一个顶配全家桶——最前沿的模型、最趁手的工具、最标准的评测，一次配齐，开箱即用。”

这种“全家桶”式的做法，只有同时懂模型、懂工程、懂场景的公司才做得出来。因为你只有自己把整条链路跑通了、踩过坑了，才知道别人会在哪里卡住，也才知道该怎么把路铺好。

结语：VLA进化时，长出“想象力”和“肌肉记忆”

回到那个争论：VLA会不会被世界模型取代？答案可能很清晰：它不会消失，而且正在变得越来越强。只要机器人还得在真实世界里干活，看懂世界、听懂人、动起来这三样就一天不会少。

从2023年的端到端VLA，到2025年融合世界模型，再到今年4月的类脑VLA——智平方的每一次迭代都在注入新能力，而不是推翻重来。VLA还是那个VLA，但它已经拥有了世界模型的“想象力”和类脑架构的“肌肉记忆”。这种“守正不守旧”的态度，为这个争论提供了产业参考态度。

技术路线的争论终会过去，但那些在工厂里干活的机器人、在交通枢纽服务的机器人、在“智魔方”里一天做几百杯咖啡零失误的机器人，才是行业真正该关心的。而VLA这个框架，正沿着这一本质不断进化、变得越来越强。

一、VLA真的过时了吗？不如先问它到底解决什么问题

二、从“只会听指令”到“越干越聪明”：VLA的三次进化

三、全球首个一站式具身智能模型开源社区：AlphaBrain Platform到底给了开发者什么？

结语：VLA进化时，长出“想象力”和“肌肉记忆”

相关推荐