智东西(公众号:zhidxcom)
作者 | 陈骏达
编辑 | 心缘

智东西6月22日报道,今天,阿里巴巴发布了其最新一代视频生成模型HappyHorse 1.1(快乐小马1.1)。阿里称,相比HappyHorse 1.0,这代模型在动态表现力、主体一致性、指令遵循、视觉质感和音频能力等维度有了一定提升。

刚刚,阿里HappyHorse1.1上线,我用它把国足送进世界杯

HappyHorse 1.1的技术规格与HappyHorse 1.0保持一致,单次生成时长为3至15秒,支持720p和1080p分辨率和自由宽高比。

阿里官方晒出了几个HappyHorse 1.1的生成结果。在舞蹈这类考验模型动态表现力动作连贯性的任务上,HappyHorse 1.1生成的动作流畅自然,没有像过去许多视频生成模型一样出现慢动作、残影等问题,人体特征符合正常情况,长相也保持了一致。

刚刚,阿里HappyHorse1.1上线,我用它把国足送进世界杯

在风格化内容方面,HappyHorse 1.1在下方案例中很好地保持了传统中国画的画风,没有出现风格偏移等问题。

刚刚,阿里HappyHorse1.1上线,我用它把国足送进世界杯

模型发布后,智东西第一时间对HappyHorse 1.1进行了实测,并将其表现与HappyHorse 1.0和近期发布的Seedance 2.0 Mini进行了对比。从实测结果看来,HappyHorse 1.1较上一代模型的确实现了一定提升,尤其是画面“油腻感”问题得到了较好的解决。不过,在部分边缘场景、多参考主体的任务上,其生成结果的真实感、物理规律遵循还有优化空间。

目前,HappyHorse 1.1已经上线阿里云百炼平台和HappyHorse官网。以文生视频为例,其生成720p清晰度画面的价格为每秒0.9元(优惠后0.54元),与HappyHorse 1.0保持一致;生成1080p清晰度画面的价格为每秒1.2元(优惠后为0.72元),与HappyHorse 1.0相比下调了25%

刚刚,阿里HappyHorse1.1上线,我用它把国足送进世界杯

体验链接:www.happyhorse.cn

API接入:bailian.console.aliyun.com

我们的实测依照五大维度展开。动态表现力方面,阿里称过去HappyHorse 1.0版本存在部分画面动作迟缓、节奏不足的问题,1.1版本优化了运动建模与时序一致性能力,提升了动作的连贯性和力量感。

我们用一个摩托车驾驶的案例测试了HappyHorse 1.1的表现。可以看到,HappyHorse 1.1生成的画面内容速度正常,也符合基本物理规律,只是摩托车尾灯的光线有点不符合真实情况。在画面拉到近景之后,摩托车挡风玻璃反射出的景色也比较符合逻辑。

而HappyHorse 1.0在同样任务中生成的视频出现了慢动作的问题。此外,画面中摩托车正在逆行,头盔中的倒影也与实际画面内容不符。

主体一致性方面,HappyHorse 1.1支持9张角色参考图同时输入,可灵活组合商品细节、品牌元素、角色与场景。针对多分镜与N宫格图片参考这些热门玩法,HappyHorse 1.1对参考图的理解能力也有了增强。

我们上传了三张描绘某个特定人物离职的参考图,并让HappyHorse 1.1和HappyHorse 1.0都生成了1段10秒钟的视频。HappyHorse 1.1在视频中准确还原了人物的面容和衣着特征,在两个镜头中,场景和人物细节都保持稳定一致,即便是画面边角的细节也是如此。

HappyHorse 1.0生成的画面虽然也基本保持了主体一致性,但画面中出现的物理bug更多,相比之下HappyHorse 1.1的画面基本没有破绽。

指令遵循方面,我们对比了HappyHorse 1.1和Seendance 2.0 Mini的表现,提示词内容如下:

一家现代风格咖啡馆内,重力突然消失。顾客、桌椅、书本和各种物品缓慢漂浮到空中。咖啡师漂浮着继续制作咖啡,液态咖啡从杯中溢出后形成无数漂浮液球。一只橘猫像在水中游泳一样缓慢穿过空间。镜头持续旋转并自由移动,展示整个失重环境。所有漂浮物体都必须遵循真实惯性和动量规律,液体运动需要符合流体物理特征。整体呈现极高真实感和复杂物理模拟能力。

HappyHorse 1.1和Seendance 2.0 Mini都能做到按照提示词顺序逐一还原细节,不过,在这种超现实的场景里,HappyHorse 1.1和Seendance 2.0 Mini最终的画面其实都有明显的问题。HappyHorse 1.1的穿帮镜头会更多一些:人物的表情呆滞、画面中还凭空从地里钻出了一把椅子。

Seendance 2.0 Mini的生成结果对液体在真空状态下漂浮的样子刻画得不够符合物理定律,人物表情则比较符合整体风格。

视觉质感方面,我们要求HappyHorse 1.1生成一个中国国家队在世界杯决赛打进一粒进球的画面。在这种涉及大量人物的画面中,能感觉到HappyHorse 1.1在画面主要人物的刻画上,少了一些“油腻感”、“过度锐化”的问题。但是在画面背景中,人物的面部已经有些模糊,动态感也不足。

最后,在音频能力方面,我们对比了HappyHorse 1.1和HappyHorse 1.0的效果,测试案例是乐器演奏场景。在这一细分场景,HappyHorse 1.1和HappyHorse 1.0相比没有什么明显的提升,演奏画面的变化和音频的变化对不上。

结语:提升幅度符合小版本迭代预期

从此次实测结果来看,HappyHorse 1.1 的升级幅度基本符合我们对小版本迭代的预期。针对上一代产品中暴露出的实际问题,它进行了较为扎实的优化,在运动表现、角色还原以及整体视觉观感等方面均实现了较为明显的提升。

与此同时,这一代模型的成本进一步降低,体现出阿里在提升模型效果的同时,也在持续兼顾性价比。未来,随着视频生成模型朝着更长时长、更强可控性、更高真实感、更低成本以及实时交互等方向不断演进,我们有望看到这项技术在更多场景中实现规模化落地。