机器人前瞻(公众号:robot_pro)
作者 | 许丽思
编辑 | 漠影
当公众还在讨论机器人什么时候能听从人的指令、稳妥把活干好时,有的机器人又悄悄进化了!
不用等人说,机器人就能很有“眼力见”地发现需求,主动干活;它还能在脑子里搭起一座动态更新的“记忆宫殿”,东西放哪、位置不停变化,都能记得一清二楚。
比如,家里来熟人了,机器人就能够识别出这个人过去的习惯,不用人开口,就主动端上一杯水;发现有人做出擦鼻子的动作时,就赶紧递上纸巾;刚说想吃个橘子,机器人就能想起橘子放哪,顺利找到后再帮你送过来。

这是发生在昨天晚上一场真机实景直播中的场景。天轶机器人基于北京人形机器人创新中心自主研发的慧思开物Agent,能够做到“眼里有活儿、手上有数”,能感知环境、理解需求,把任务真正执行到位。
今年以来,AI Agent已经成为人工智能领域最火热的方向之一。从OpenClaw等框架受到关注,到大模型厂商纷纷入局,Agent正在从数字世界走向真实物理世界。
机器人是Agent进入物理世界最直接的载体,它不能只会对话,也不能只会规划,还必须与复杂多样的物理世界产生交互。
相比很多近期才被关注的Agent框架,慧思开物Agent早于OpenClaw等框架一年启动,并经历了14个月持续迭代。过去一年,北京人形围绕慧思开物平台,先后发布和开源了世界模型、VLA、VLM等关键技术成果。
这次的Agent展示,北京人形长期沉淀的底层能力进一步推向真机实操与场景验证。慧思开物Agent的核心突破主要集中在三件事:让机器人拥有全局动态空间记忆,让机器人能够记住不同用户的身份和偏好,让机器人在物理操作中具备更精细的多模态力控能力。
一、避免转身就忘事,让机器人拥有全局动态记忆
过去,很多机器人对环境的理解往往停留在眼前,物体一旦被遮挡、移走或离开视野,机器人就容易失忆。
这种“所见即所得”的短视情况,会限制机器人完成长程任务,例如整理房间、寻找物品、物料分拣、跨区域搬运等任务,都需要机器人记住过去看到过什么,也要理解物体和空间之间的关系,这是一个持续动态更新的过程。
慧思开物Agent的空间记忆能力,正是为了解决这个问题。它打造了业内首个全局场景感知与动态空间记忆系统,可以构建动态语义地图,记录物体类别、颜色、位置和相对关系,并支持实时更新。
同时,它能实现跨时间、跨视角的持久记忆,即便物品离开机器人当前视野,机器人依然可以基于记忆进行定位;还支持关系推理,可以根据空间记忆推理出目标物体的位置、状态、与环境的关系。
据了解,根据实际测试,机器人在涉及多步移动、感知、抓取等的复杂多步骤长程任务中,这套空间记忆完整链路的准确率都能够稳定在100%,即便在面对视角切换、物体遮挡等真实扰动影响下,整体任务完成率仍维持在98%以上。

在家庭环境中,这意味着机器人可以在不停移动、变换位置后,依旧记住刚刚被放到桌边的水杯、在沙发旁边的纸巾、在门口的快递盒等等琐碎物品,而不是转身就忘事了。
比如,你随手把手机放在角落,转身后突然找不到了。慧思开物Agent启动空间记忆系统后,可以回忆手机此前出现的位置,再结合当前环境变化进行判断,最终帮人找到目标物品。

在工业和物流场景中,货架会遮挡物品,物料会被搬动,托盘和包装箱的位置会不断变化。而慧思开物Gent的空间记忆能力,就能够帮助机器人在变化的环境中持续作业,从单点Demo走向更稳定的任务闭环。
二、记住每个人特点、喜好,机器人这下真有眼力见了
机器人要真正进入家庭、酒店、商业接待等近人场景,光会执行命令还不够,它还得足够有“眼力见”,知道服务对象是谁、喜欢什么、过去发生过什么。
传统服务机器人最大的短板之一,就是每次交互都像第一次见面,记不住用户身份,无法形成持续的个性化服务体验。刚刚帮你拿过文件,过一会儿,机器人就不知道“上次那个文件”指的是什么。
慧思开物Agent在用户记忆系统上的突破,不止是让机器人会记人,还会理解人。
它通过Face-ID用户记忆系统实现拟人化主动交互,可以进行身份绑定,沉淀用户画像与行为偏好,提供个性化服务。
比如,家里突然来熟客,当客人随口说“有点口渴”时,一个传统机器人可能会继续追问想喝什么,而拥有用户记忆后,机器人可以通过人脸匹配调取历史记忆,识别出这位客人此前更喜欢可乐、冰水或茶饮,再主动完成取物服务。

又或者,机器人刚看到你擦了下鼻子,就能马上反应过来,主动给你递上纸巾。

这种“千人千面”的能力,还能支持跨任务上下文延续,让机器人理解“继续昨天的事”“把上次那个文件拿来”等更接近人类日常表达的需求。
这种能力,让机器人从一次性执行任务,进化到具备持续服务能力,不等人给它下具体指令,就能够主动观察、主动判断、主动服务。
机器人既记得住人,也记得住场景,它才可能从一个冷冰冰的执行工具,变成家庭里的生活助手、酒店里的贴心管家、商业空间里的智能接待员。
三、让机器人实现精准物理交互,真正做到“有手感”
机器人进入真实物理世界,会面对形态各异的物品。这些物品的材质、重量、受力方式都不一样,很容易导致机器人出现“能抓起但抓不好,能接触但控不住”的问题。
就像在家庭中,机器人如果要帮人倒水、递杯子、收拾桌面,就得知道玻璃杯握的时候得小心会滑,一次性塑料杯不能握得太使劲,装满水的杯子移动时还要控制速度和姿态。
慧思开物Agent以“多模态融合操作+全场景真机验证”的模式,通过搭载视觉+触觉的多模态感知能力,以及根据目标物品特性调节的动态⼒控抓取,让机器人对物理交互更有感知、更能理解,最终实现“手上有数”的效果。
另外,慧思开物Agent还具备跨物体泛化、失败监测和重试能力,这意味着机器人并不是一次抓不好就结束,而是可以根据反馈调整策略。
在这次实景真机直播中,机器人左手握着光滑的玻璃杯,右手拿着轻薄柔软的塑料杯,稳妥地把水倒进杯中,就是靠的这种多模态融合操作的能力。

多模态力控的价值,让机器人开始具备真实物理交互中的安全性、稳定性和容错能力,为机器人在家庭服务、商业接待、工业操作等落地奠定基础。
结语:从最强大脑到开放生态,加速具身智能落地步伐
北京人形作为具身智能国家队,推出慧思开物平台,不只是给机器人装上“最强大脑”,更是为了给行业提供一套可开发、可复用、可扩展的底层智能基础设施。
慧思开物Agent采用配置驱动和模块化架构,可以接入XR-1、Pelican、WoW、DeepSeek、Pi0.5、Dreamzero等不同模型,通过轻量配置化实现模型、工具、任务Prompt的快速切换。
它还支持更开放的技能开发方式,开发者只需维护模块化的轻量技能描述,相比传统提示词方法体积压缩80%以上;运行时指令缓存命中后,机器人单次响应耗时降低50%,执行长链路任务时整体响应开销下降20%。
慧思开物Agent具备超强的跨本体、硬件适配性,大幅减轻了在不同机器人上运用的门槛和成本,开发者只需专注创新,不必再重复造轮子。
从世界模型、VLA、VLM到此次的Agent,慧思开物打造的是一个可以不断进化迭代的生态,推动智能机器人从单一任务执行向复杂环境下的自主决策与执行能力跃升。
机器人开始记得住环境、看得懂人、拿得稳物品,具身智能也由此迈向可持续落地的新阶段。