“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

智东西（公众号：zhidxcom）
作者 | 香草
编辑 | 李水青

最适合二次元的“国产Sora”来了！

就在刚刚，清华系大模型创企生数科技，在全球范围上线视频生成模型Vidu，全面开放文生、图生视频能力。

先来看看效果：

如果没有右上角的水印，你会不会以为这是某个日本动画电影的片段截取？

实际上，这是我用Vidu文生视频能力生成的动画，提示词为：两个人举起茶杯小口抿了一口。左边的人轻抿双唇后微笑，右边的人专注于他们的茶，形成一种静雅和微妙互动的场景。布景精致，淡雅的颜色、花卉布置和古典家具增强了优雅氛围。

今年4月，Vidu首次亮相，据称具备高动态性、高逼真度、高一致性等特点。此次上线，Vidu主打两大能力：动漫风格、角色一致性，其支持生成4秒、8秒固定时长的视频，分辨率达到1080P，此外还支持生成数字、英文等文字。在推理速度上，Vidu生成一段4秒片段只需30秒。

在价格方面，Vidu提供免费版和3种收费机制。免费版每月有80积分，可生成20个4秒视频；按月度订阅，标准版、高级版、尊享版价格依次为19.99美元、59.99美元、199.99美元（约合人民币145.22元、435.80元、1452.83元），每月分别可额外获得240、800、2880积分，视频时长延长到8秒，可去水印和商用。目前在上线前两周，Vidu提供限时5折优惠。

用户如果按年订阅，标准版、高级版、尊享版目前的价格分别是7.99美元/月、23.99美元/月、79.99美元/月。此外，Vidu开放了API内测申请。

“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

▲Vidu按年订阅价格

具体的生成效果和速度还得用了才知道，智东西第一时间拿到了内测资格并上手测试了Vidu。一番体验下来，我主要有以下几点感受：

1、首先是快，经过掐表实测，Vidu生成4秒视频不超过30秒。

2、语义理解能力很强，在100+字的长提示词下，Vidu也能覆盖到大部分细节并准确呈现。

3、Vidu实现了多镜头切换，能够通过一个提示词直接生成不同镜头的视频，这对于影视场景等应用很有价值。

4、运动幅度很大，无论是人物的表情、动作，还是景别切换，都保持了稳定性且没有牺牲动幅。

5、对动漫风格的定向优化突出，能保持风格一致性，避免了常见的崩坏现象。

Vidu体验链接：www.vidu.studio

一、文生视频：单提示词镜头切换，支持生成英文数字

打开Vidu，在左侧的文本框中，我可以直接输入文字进行视频生成，也可以让系统随机生成提示词。文生视频可以选择写实、动画两种风格，时长支持4秒、8秒固定长度，其中8秒视频需要订阅套餐。

图生视频则是上传图片后，选择用作起始帧或参考人物角色，提示词可有可无，此外不支持选择风格。

“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片

▲Vidu视频生成界面

我们首先来测一下文生视频的效果。

虽然主打动画风格，但写实风格对Vidu来说也不在话下。例如文章开头的案例，如果用同样的提示词选择写实风格，生成的视频效果是这样：

是不是还挺有古风古韵那味儿的？

虽然视频后半段出现了茶杯“闪现”的失误，但瑕不掩瑜，Vidu无论是对提示词的语义理解上，还是对人脸、人手等细节的呈现上，都挑不出什么毛病。要是清晰度能再上一层，说是影视剧片段也不为过。

Vidu也在系统内提供了分辨率提升的功能，点击生成视频底部的“超清”按钮，就可以对视频进行超清处理。

在体验过程中，我发现Vidu对长文本的理解，以及基于单提示词生成多镜头的能力很突出。

例如这段提示词：在一个柔和灯光的浴室里，一只造型如美国动画角色的泰迪熊正在洗澡。它部分沉浸在泡泡浴缸中，一只爪子拿着电话，另一只爪子在搓洗自己。柔和的灯光营造出温暖和惬意的氛围，浴室的瓷砖是舒缓的粉彩色，增强了温馨和奇幻的氛围。泰迪熊的表情专注，表现出洗澡和打电话的同时进行。

这个提示词很长，覆盖了对主体动作、表情，场景氛围、灯光等多个细节的描写，而Vidu都一一准确地表现了出来。在理解语义的基础上，Vidu还增加了“侧面描写”，为泰迪熊添加了口型变化来体现“打电话”。

再比如这段提示词：先是一个滴答作响的怀表的特写镜头，然后拉远，揭示出相对而坐的两个人物，紧张气氛扑面而来。最后镜头转到窗外，是一篇黑压压的山脉。

这段提示词切换了3个镜头，Vidu准确生成了怀表的特写，并转换成两个人对话的场景，最后又抬高镜头对准了窗外。

值得一提的是，Vidu还支持在视频中生成包含数字、英文的画面。在上面的案例中也可见一斑，怀表上的数字清晰可见，从1到12都很准确。

例如基于这个提示词，我生成了一个动画风格视频：女孩捧着一个草莓生日蛋糕，上面插着蜡烛，蜡烛是数字“25”的形状。

Vidu不仅准确呈现了提示词，还“自由发挥”了后半段女孩走远和转身的细节，并且在此过程中，画面背景和人物保持了高度一致性。

再来看看英文单词的生成，我用的提示词为：一只柯基身穿红色的赛车服，头戴小头盔。在类似赛道的简约布景上，柯基坐在一辆小巧流线型的赛车中，准备起跑，赛车车身印有“DOGE”字样。

除了准确生成了“DOGE”字样外，Vidu在这个视频中还有一点惊艳到我：对光影的模拟。

在经过一段看起来像建筑阴影的地方时，画面主体的柯基和赛车随着相对建筑的位置，从全部笼罩在阴影中，逐渐变为只有柯基在阴影中、全部暴露在阳光下。虽然过渡还有些不自然，但在一定程度上体现了对物理世界光影关系的模拟。

当然，Vidu也有“翻车”的时候，在遇到涉及大幅度运动或是偏专业场景的时候，它明显有些力不从心。

例如我想让它生成一个奥运会场景，提示词为：在奥运会的乒乓球赛场上，灯光闪耀，观众们热情欢呼。甲和乙站在球台两端，甲表情自信地准备发球，他将球高高抛起，然后用力挥拍发球。球在空中划过一道弧线，乙则表情沉稳，快速移动脚步，精准地挥拍接球，随后球在半空快速穿梭，甲眼神期待，乙顽强应对，两人开始了激烈的对打，展现出高超的乒乓球技艺。

“清华系Sora”全球上线！首发实测：多镜头切换强到爆，30秒生成大片