智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 云鹏

智东西4月27日报道,今日,蚂蚁灵光App上线“体验世界模型”功能,成为业界首个可在移动端体验世界模型的智能助手,实现了分钟级一致性和实时可交互体验。

刚刚,手机能跑世界模型了

▲灵光App界面更新

用户只需上传一张图片,即可在手机上探索最长60秒的3D世界,并通过手游摇杆操控视角,像玩游戏一样在其中走动。从触发指令到开始探索,整个过程仅需秒级。

灵光App“体验世界模型”功能背后,其接入了蚂蚁灵波今年1月开源的LingBot-World-Fast世界模型,该模型可提供高保真、可控制且逻辑一致的模拟环境。

智东西第一时间体验了该功能,发现该功能确实能实现秒级生成速度,无需等待,生成的3D画面较自然合理且连续性较好;操纵上虽然有秒级延迟,但可以接受;作为一款端侧功能,清晰度仍有提升空间。

刚刚,手机能跑世界模型了

▲输入给灵光App的图片

刚刚,手机能跑世界模型了
▲灵光App可一秒内生成一个“世界”

具体操作上,用户在灵光App对话框上传一张图片后,系统会智能推荐操作指令,用户选择“生成图中世界”;或者直接输入“帮我用第一人称视角探索这个世界”等自然语言,系统将自动进入世界模型生成流程。

当我上传《黑神话:悟空》中的小雷音寺场景图片,灵光迅速生成了以下与游戏界面类似的“世界”。画面中引入了手游摇杆操控,据称这是灵光针对动端操作习惯一个创新点。如下图所示,通过遥感操纵,我能以悟空的第一视角向前。

刚刚,手机能跑世界模型了

▲输入给灵光App的图片

刚刚,手机能跑世界模型了
▲灵光App生成的“世界”部分体验截图

可以看到,复杂建筑结构被保留还原,门洞内部的景深感明显,不存在“穿模”情况;右侧视角环顾四周时,场景过渡平滑,延迟在1秒钟左右;不过从清晰度上来说,该功能还有提升空间。

紧接着,我上传了一张《塞尔达传说:旷野之息》海拉鲁平原的截图,只见生成的开阔大场景的地面连续性较好,向山下望去可见陡峭的岩石群,无接缝、无孔洞;阳光之下,高饱和绿色与蓝天之间的颜色过渡自然,地面上的阴影方向也与图片中的光源方向保持一致。

刚刚,手机能跑世界模型了

▲输入给灵光App的图片

刚刚,手机能跑世界模型了
▲灵光App生成的“世界”部分体验截图

再看看《超级马里奥:奥德赛》都市国街道场景生成情况,路侧的近景路灯、中景行人行道、远景高楼显得比较有层次,没有明显的粘连;角色沿街道直线行走时,两侧建筑保持平行,透视正确;但地上的斑马线出现了一些扭曲,小摩托“自动驾驶”后消失,略显不足;随着游览速度加快,图像的清晰度有些打折扣,马里奥的身形已不太清楚。

刚刚,手机能跑世界模型了

▲输入给灵光App的图片

刚刚,手机能跑世界模型了

▲灵光App生成的“世界”部分体验截图

最后我又拿一张恐龙灭绝主题的CG艺术图来尝试,只见陨石坠落、火山远景都刻画得富有动态,但陨石悬浮时间有些久;远处陨石、浓烟边界清晰,没有被简化为单一色块;恐龙在走动中及重叠时形态没有严重畸变,整体表现没有大的视觉Bug。

刚刚,手机能跑世界模型了

▲输入给灵光App的图片

刚刚,手机能跑世界模型了

▲灵光App生成的“世界”部分体验截图

世界模型的移动端部署面临算力需求大、延迟控制难、终端性能参差不齐等业界公认难题。实测看到,灵光“体验世界模型”功能在响应速度上表现突出。灵光官方报道提到,团队采用了高效、低延迟的流式传输技术,实现了百毫秒级响应延迟,从触发指令到开始探索仅需秒级。

灵光App负责人蔡伟谈道:“体验世界模型功能是灵光在探索智能边界的又一实践。此前灵光推出的‘闪应用’功能可实现自然语言30秒生应用,也是把原本专业开发者的Coding能力给到普通用户。”

结语:世界模型升温,端侧场景是下一关

从阿里、腾讯、李飞飞团队等密集发布世界模型新作,到灵光App率先将世界模型搬上手机,世界模型赛道正快速升温。

端侧响应速度与生成效果已有明显进步,正如蔡伟所言,灵光希望不断探索智能边界,把好的AI体验给到所有人。接下来,比拼的不仅是技术,落地后的应用场景挖掘也至关重要。