智东西(公众号:zhidxcom)
作者 | 香草
编辑 | 李水青
最适合二次元的“国产Sora”来了!
就在刚刚,清华系大模型创企生数科技,在全球范围上线视频生成模型Vidu,全面开放文生、图生视频能力。
先来看看效果:
如果没有右上角的水印,你会不会以为这是某个日本动画电影的片段截取?
实际上,这是我用Vidu文生视频能力生成的动画,提示词为:两个人举起茶杯小口抿了一口。左边的人轻抿双唇后微笑,右边的人专注于他们的茶,形成一种静雅和微妙互动的场景。布景精致,淡雅的颜色、花卉布置和古典家具增强了优雅氛围。
今年4月,Vidu首次亮相,据称具备高动态性、高逼真度、高一致性等特点。此次上线,Vidu主打两大能力:动漫风格、角色一致性,其支持生成4秒、8秒固定时长的视频,分辨率达到1080P,此外还支持生成数字、英文等文字。在推理速度上,Vidu生成一段4秒片段只需30秒。
在价格方面,Vidu提供免费版和3种收费机制。免费版每月有80积分,可生成20个4秒视频;按月度订阅,标准版、高级版、尊享版价格依次为19.99美元、59.99美元、199.99美元(约合人民币145.22元、435.80元、1452.83元),每月分别可额外获得240、800、2880积分,视频时长延长到8秒,可去水印和商用。目前在上线前两周,Vidu提供限时5折优惠。
用户如果按年订阅,标准版、高级版、尊享版目前的价格分别是7.99美元/月、23.99美元/月、79.99美元/月。此外,Vidu开放了API内测申请。
▲Vidu按年订阅价格
具体的生成效果和速度还得用了才知道,智东西第一时间拿到了内测资格并上手测试了Vidu。一番体验下来,我主要有以下几点感受:
1、首先是快,经过掐表实测,Vidu生成4秒视频不超过30秒。
2、语义理解能力很强,在100+字的长提示词下,Vidu也能覆盖到大部分细节并准确呈现。
3、Vidu实现了多镜头切换,能够通过一个提示词直接生成不同镜头的视频,这对于影视场景等应用很有价值。
4、运动幅度很大,无论是人物的表情、动作,还是景别切换,都保持了稳定性且没有牺牲动幅。
5、对动漫风格的定向优化突出,能保持风格一致性,避免了常见的崩坏现象。
Vidu体验链接:www.vidu.studio
一、文生视频:单提示词镜头切换,支持生成英文数字
打开Vidu,在左侧的文本框中,我可以直接输入文字进行视频生成,也可以让系统随机生成提示词。文生视频可以选择写实、动画两种风格,时长支持4秒、8秒固定长度,其中8秒视频需要订阅套餐。
图生视频则是上传图片后,选择用作起始帧或参考人物角色,提示词可有可无,此外不支持选择风格。
▲Vidu视频生成界面
我们首先来测一下文生视频的效果。
虽然主打动画风格,但写实风格对Vidu来说也不在话下。例如文章开头的案例,如果用同样的提示词选择写实风格,生成的视频效果是这样:
是不是还挺有古风古韵那味儿的?
虽然视频后半段出现了茶杯“闪现”的失误,但瑕不掩瑜,Vidu无论是对提示词的语义理解上,还是对人脸、人手等细节的呈现上,都挑不出什么毛病。要是清晰度能再上一层,说是影视剧片段也不为过。
Vidu也在系统内提供了分辨率提升的功能,点击生成视频底部的“超清”按钮,就可以对视频进行超清处理。
在体验过程中,我发现Vidu对长文本的理解,以及基于单提示词生成多镜头的能力很突出。
例如这段提示词:在一个柔和灯光的浴室里,一只造型如美国动画角色的泰迪熊正在洗澡。它部分沉浸在泡泡浴缸中,一只爪子拿着电话,另一只爪子在搓洗自己。柔和的灯光营造出温暖和惬意的氛围,浴室的瓷砖是舒缓的粉彩色,增强了温馨和奇幻的氛围。泰迪熊的表情专注,表现出洗澡和打电话的同时进行。
这个提示词很长,覆盖了对主体动作、表情,场景氛围、灯光等多个细节的描写,而Vidu都一一准确地表现了出来。在理解语义的基础上,Vidu还增加了“侧面描写”,为泰迪熊添加了口型变化来体现“打电话”。
再比如这段提示词:先是一个滴答作响的怀表的特写镜头,然后拉远,揭示出相对而坐的两个人物,紧张气氛扑面而来。最后镜头转到窗外,是一篇黑压压的山脉。
这段提示词切换了3个镜头,Vidu准确生成了怀表的特写,并转换成两个人对话的场景,最后又抬高镜头对准了窗外。
值得一提的是,Vidu还支持在视频中生成包含数字、英文的画面。在上面的案例中也可见一斑,怀表上的数字清晰可见,从1到12都很准确。
例如基于这个提示词,我生成了一个动画风格视频:女孩捧着一个草莓生日蛋糕,上面插着蜡烛,蜡烛是数字“25”的形状。
Vidu不仅准确呈现了提示词,还“自由发挥”了后半段女孩走远和转身的细节,并且在此过程中,画面背景和人物保持了高度一致性。
再来看看英文单词的生成,我用的提示词为:一只柯基身穿红色的赛车服,头戴小头盔。在类似赛道的简约布景上,柯基坐在一辆小巧流线型的赛车中,准备起跑,赛车车身印有“DOGE”字样。
除了准确生成了“DOGE”字样外,Vidu在这个视频中还有一点惊艳到我:对光影的模拟。
在经过一段看起来像建筑阴影的地方时,画面主体的柯基和赛车随着相对建筑的位置,从全部笼罩在阴影中,逐渐变为只有柯基在阴影中、全部暴露在阳光下。虽然过渡还有些不自然,但在一定程度上体现了对物理世界光影关系的模拟。
当然,Vidu也有“翻车”的时候,在遇到涉及大幅度运动或是偏专业场景的时候,它明显有些力不从心。
例如我想让它生成一个奥运会场景,提示词为:在奥运会的乒乓球赛场上,灯光闪耀,观众们热情欢呼。甲和乙站在球台两端,甲表情自信地准备发球,他将球高高抛起,然后用力挥拍发球。球在空中划过一道弧线,乙则表情沉稳,快速移动脚步,精准地挥拍接球,随后球在半空快速穿梭,甲眼神期待,乙顽强应对,两人开始了激烈的对打,展现出高超的乒乓球技艺。
无论是动画还是写实风格,Vidu在这个提示词上都大翻车,要么让运动员站在了球台的侧面,要么直接在球台的一边生成了第三个运动员,还“放任”运动员大肆犯规。
总的来说,在文生视频中,Vidu已经能应对大部分较为日常的场景,虽然有失误和翻车情况,但整体瑕不掩瑜,并且这些情况也可能通过“抽卡”解决。同时,Vidu对文字、多镜头的支持能大幅减少后期的工作,在实际应用中有很大的价值。
二、图生视频:角色风格高度一致,“纸片人”也能复刻
在图生视频方面,Vidu支持起始帧参考和角色一致参考两种方式。
这两个功能可以说是表情包和梗图制作神器了,比如我可以让马斯克变身深情男,为屏幕对面献上玫瑰。
或者让他换上金刚狼的衣服,在城市夜景中“大秀肌肉”。
我也可以用Vidu让喜欢的照片动起来,比如上传一张戴墨镜男孩的照片,把他的墨镜摘下来。
虽然这个人脸看起来有点诡异,但你就说墨镜摘没摘吧(doge)。
我又上传了一张举着摄像机的人像照片,输入提示词:男孩转身面向镜头。
在保持发型、服装一致性的前提下,Vidu不仅让人物面向了镜头,还发挥想象力为他生成了一个欧美男孩的脸,比上一个视频中的脸进步了不少。
不过,用AI复活真人照片已经涌现出不少玩法了。既然Vidu针对动漫风格进行了专门的优化,那它能复活“纸片人”吗?
我上传了一张日本动画角色C.C.的特写,首先不写任何提示词,选择用作起始帧,看看Vidu会如何自由发挥。
▲日本动画角色C.C.特写
不得不说,Vidu的表现有些超出我的预期了,其在初始画面的基础上变换了人物角度、表情,在此过程中不仅保证了画面的流畅和风格一致性,还让头发进行了大幅度随风飘动,有点“中二病”那味儿了。
同样是上传这张参考图,我又尝试选择参考人物角色,随后分别输入“她微笑着,向镜头伸出双手”、“她生气地抱着双臂,转过头不理你”作为提示词。
令我惊讶的是,即使是“纸片人”,Vidu也实现了很高的角色一致性,虽然画风有所变化,但人物的发色、瞳色、衣服都保持一致。不过在第二个提示词中,Vidu没能呈现“转过头”这个动作。
看来2D平面角色问题不大,那3D角色呢?我上传了一款日本游戏中的角色爱丽丝。
▲日本游戏角色爱丽丝
选择参考人物角色后,我输入提示词:她幸福地笑着,眼睛眯成一条线,背景是一片花海。
Vidu基本复现了她的发型、发饰和服装,但人脸显然并不是同一张,同时发型等细看也有不一致,有点像Cosplay和原版的差别。不过在对提示词的理解和表达上,Vidu倒是没什么失误。
“纸片人”都试了,“纸片动物”是不是也能一试?我上传了一张杰瑞,让Vidu将其作为起始帧生成了下面这个视频。
只见小杰瑞表情、动作都十分生动,就是Vidu似乎没分清他的左右腿……
总的来说,在图生视频方面,Vidu不仅能实现其他同类产品复活照片的功能,而且基于对动漫风格的优化,它能将真实人物照片中的玩法延伸到二次元,这为动画、游戏等行业带来了新的价值。
结语:剑走偏锋,Vidu走出差异化道路
AI视频生成赛道迎来小高潮,上周爱诗科技、智谱AI刚刚发布新模型,今天生数科技就甩出Vidu大模型迎战。
Vidu大模型在今年4月首次发布,当时据称支持一键生成16秒、分辨率1080P的高清视频内容,具备多镜头生成、时空一致性高等特点。从这次体验来看,虽然Vidu还没有上线16秒视频生成的能力,清晰度也有待提高,但在多镜头、一致性方面确实有很大突破,这为Vidu带来了差异化的特点。
短短5个多月,国内大厂、创企纷纷亮出杀手锏,国产视频生成大模型与Sora的差距越来越小,甚至已经实现弯道超车。