智东西(公众号:zhidxcom)
作者 | 香草
编辑 | 李水青
要说2024年大模型最火的赛道,视频生成一定榜上有名。
继2月Sora开启AI视频生成新时代之后,今年6月密集的模型发布,又将视频生成大战推向了新的高潮。
“AI影视的下一个代际来了”、“太卷了,简直是你方唱罢我方登场”、“终于有希望摆脱PPT时代了”、“看样子很快就能用AI制作MV了”……在AI视频创作者或从业者当中,我们能看到最多的情绪是“兴奋”。
自Sora发布以来,超8家国内外AI企业陆续推出新产品或模型,动辄生成10秒以上视频且公开可用,有的据称已实现长达2分钟的超长视频生成,AI视频生成赛道掀起热火朝天的2.0大战。
这边,字节抢先上线AI视频生成产品即梦,将视频生成时长从常见的3-4秒拉长到12秒;沉寂许久的快手突然发布可灵大模型,惊艳的效果引发全网热议,排队人数一度接近100万。
▲快手可灵排队申请人数
那边,创企Luma AI“弃3D投视频”,发布Dream Machine高调入局;老玩家Runway也不甘示弱,甩出新一代Gen-3模型,将物理模拟能力推向新的高度。
▲Gen-3视频生成效果
融资战场上,战火同样炽烈。国内,爱诗科技、生数科技自3月起接连斩获亿级融资;海外,Pika在6月获得8000万美元融资,估值翻倍至5亿美元,而Runway则被曝正在筹备一笔高达4.5亿美元的融资。
Sora如同一颗重磅炸弹,震撼了AI视频生成界。如今经过5个月的激烈追赶,海内外AI视频生成产品究竟进展如何?它们能否与Sora一较高下?又将面临哪些挑战?通过对可用产品的横向体验,以及与从业者、创作者的探讨,智东西深入分析了这些问题。
在实测中,我能明显感受到视频生成的速度变快、“翻车”现象大幅减少,从简单的“PPT式”平移进化为有角度、动作变化的运动。整体体验下来,免费可用的产品中效果最佳的是即梦和可灵,无论是时长、稳定性还是物理模拟都实现领跑。
在融资方面,与Sora发布前相比,AI视频生成相关的融资密度和金额都大幅上涨,5个月内吸金超44亿,还带动视频制作流程“上下游”的其他产品如AI剪辑、AI灯光等获得资本青睐。此外还有多个新玩家入局,有的还没发布任何产品或技术就已经融到亿级资金。
一、技术之战:卷时长、卷高清、卷物理模拟
2月16日,OpenAI发布Sora,一夜颠覆了AI视频生成赛道格局。然而5个月过去,Sora仍是一款期货产品,什么时候能为普罗大众所用,看起来也遥遥无期。
这期间,国内外的大厂、创企争相发布新产品或模型升级,且大多数都已向全体用户开放,其中不乏效果惊艳的产品,这也让AI视频生成的格局再次发生改变。毕竟,Sora再好,用不上又有什么价值呢?
据智东西不完全统计,Sora发布以来国内外至少有8家公司发布新产品或模型,其中除生数科技的Vidu之外均公开可用。
▲AI视频生成产品发布/模型升级(智东西制表)
2月21日,Stability AI正式上线了AI视频生成产品Stable Video网页版,且面向所有用户开放。虽然其底层模型Stable Video Diffusion于去年11月便已开源发布,但作为模型仍有一定的部署和使用门槛,打包成网页版发布后让更多用户可以简单便捷地上手使用。
4月27日,生数科技联合清华大学发布长时长、高一致性、高动态性视频大模型Vidu,据称可生成长达16秒、分辨率1080P的视频,并且能够模仿真实物理世界。
从放出的Demo来看,Vidu确实在清晰度、运动幅度、物理模拟等方面取得了很好的效果,不过遗憾的是,Vidu与Sora一样尚未开放。智东西向生数科技询问得知,产品将于近期开启内测。
▲生数科技Vidu视频Demo
5月9日,字节剪映旗下AI创作平台Dreamina更名“即梦”,并上线AI作图和AI视频生成功能,最长支持生成12秒的视频。
6月6日,快手发布AI视频大模型可灵,并上线快影App,用户只需填写问卷即可申请使用。可灵大模型主打对物理世界特性的高强度模拟,例如难倒众多AI的“吃面条”等问题,在其提供的视频案例中均有体现。
目前,可灵支持生成5秒、10秒固定时长的视频。据其官网介绍,模型最高能生成2分钟、帧率30fps、分辨率1080P的视频,后续将上线视频续写等功能。
6月13日,此前主要做AI生成3D的创企Luma AI宣布推出视频生成工具Dream Machine,支持文本、图像生成5秒长度的视频,同时提供视频延长功能,可基于已生成的视频一次延长5秒。
6月17日,Runway发布新一代模型Gen-3 Alpha版本,并于7月2日面向所有用户付费开放,订阅费最低为每月15美元。Gen-3目前支持基于文本生成5秒、10秒长度的视频,图生视频以及其他可控工具暂未开放。
▲Gen-3 Alpha生成视频效果
7月6日,智象未来(HiDream)在WAIC上发布了智象大模型2.0,提供5、10、15秒三种视频生成时长,并增加文字嵌入生成、剧本多镜头视频生成、IP连贯一致性等能力。
7月17日,此前专注AI 3D重建的英国AI创企Haiper AI,宣布旗下AI视频生成产品Haiper升级至v1.5,时长延长到8秒,且提供视频延长、画质增强等功能。
下表展示了这些模型的生成时长、分辨率、帧率等参数,以及除基础生成外的附加能力。
▲升级的AI视频生成产品参数(智东西制表)
从参数上看,这些AI视频生成产品首先在生成时长上实现了明显进步,基础生成时长从此前的2-4秒延长到5秒,并且有一半以上都支持超10秒的时长,还有部分产品提供了延长功能。目前免费可用的产品中,生成视频最长的为即梦的12秒。
在视觉效果方面,分辨率、帧率都有较大提升,支持720P及以上的产品更多了,帧率也向24/30fps靠拢,此前的产品生成视频分辨率大多在1024*576左右,帧率多为8-12fps。
二、产品之战:上手实测6款免费“现货”,“抖快”领跑
Sora刚发布时,智东西曾对国内可用的8款AI视频生成工具进行了深度体验,当时差距还比较明显,“翻车”情况较多。(全网首个“中国版Sora”横评!15家企业对决,字节领跑)
那么经过几个月的迭代升级,已经交出新答卷的这些玩家表现如何?智东西对新发布或升级的AI视频生成产品进行了体验,为公平起见,统一只试用免费能力,且均选取第一次生成的视频。
需要注意的是,视频生成本身就有类似于“抽卡”的运气成分在内,且和提示词的撰写也有很大关系,因此少量的案例并不完全代表模型能力。
第一关我选择了静物场景,提示词为:郁金香沐浴在夕阳暖光中的特写。
Stable Video在这个提示上表现出很高的稳定性,同时画面清晰度、色彩的丰富程度都比较高,在运动上以镜头的运动为主。
▲Stable Video生成视频
Dream Machine的画面清晰度明显掉了一个档次,不过在对提示词的表现上还是比较准确的,运动同样以镜头的平移为主。
▲Dream Machine生成视频
Haiper生成的视频视觉效果很好,但是运动幅度略小。
▲Haiper生成视频
智象大模型的表现也不错,画面有很强的景深效果,但细看花瓣会发现存在细节上的缺陷和不稳定。
▲智象大模型生成视频
即梦生成的是固定镜头的画面,运动方面以郁金香的晃动为主,整体效果比较稳定。
可灵生成的视频把“特写”这一提示词展现到了极致,同时画面清晰度较高,还刻画出了花瓣上的纹理。不过话说回来,对“郁金香的特写”该如何理解,本身也不是一个有固定答案的问题,所以也说不上谁对谁错。
▲可灵生成视频
整体来看,各路玩家在静物场景上的表现都很稳定,生成视频的可用程度很高。
第二关我选择了动物场景,且增加了风格化和动态动作的元素,提示词为:一只卡通袋鼠在跳迪斯科。这其实是Sora提供的案例中的一个,首先我们来看一下Sora的打样。
▲Sora生成视频案例
Stable Video在这一关“扑街”。第一帧画面很完美——这或许与Stable Video在生成视频时选取的路径有关,在生成流程中,它会先生成4张图像供用户选择,再根据用户选择的图像生成视频——随后袋鼠的全身都开始扭曲变形。
比较有趣的是画面背景中的人物和拟人化的动物并没有太大的问题,不知道是不是“跳迪斯科”这个动作把Stable Video给难倒了。
▲Stable Video生成视频效果
Dream Machine生成的视频整体稳定性不错,但在袋鼠的脚部、手部等细节上会有稳定性的缺失。在运动幅度上,除了袋鼠本身的运动外,它还进行了从特写到全景的镜头推移。
我又试用了Dream Machine的视频延长功能,视频后5秒是其延长生成的内容。可以看到它并没有局限在单一镜头,而是进行了从全身到上半身近景的镜头切换。不过延长的视频中虽然背景中的人物群像稳定性较高,但袋鼠更加不稳定了。
▲Dream Machine生成视频效果
Haiper生成的袋鼠有一定程度扭曲,且没有体现“跳迪斯科”这一关键词。
▲Haiper生成视频
智象大模型在这一关翻车比较严重,和Stable Video一样出现了画面主体大幅度扭曲的问题,并且也没有体现“跳迪斯科”。
▲智象大模型生成视频效果
即梦生成的视频整体视觉效果比较好,清晰度、色彩丰富程度很高。稳定性方面,前几秒还比较正常,但在后3秒左右出现了明显的扭曲,扭曲程度与Dream Machine差不多。
在语义理解上,画面有体现一定的“跳舞”动作,但和“迪斯科”关系不大。此外,画面背景中的文字看起来像是“鬼画符”。
▲即梦生成视频效果
可灵生成的视频整体比较稳定,主要的问题集中在手部和眼球。但在语义理解方面,并没有体现出“跳迪斯科”这一关键词。
▲可灵生成视频效果
这一关整体来看,Dream Machine、即梦、可灵的表现更胜一筹,但都无法达到Sora的水准。此外,这个提示词也展现了各个模型在审美上的差异,包括色彩的倾向、风格的选择、镜头的切换等。
第三关设置为人物特写,使用的提示词为:一个宇航员在空间站外漂浮的特写镜头,背景中有地球和月亮,星星在头盔面罩上反射。
Stable Video在这一关的表现还不错,准确地描绘了“宇航员”、“地球”、“月亮”、“星星反射”等关键词,稳定性也很高。运动方面不是简单的镜头平移,而是画面主体相对背景的运动。
▲Stable Video生成视频
Dream Machine则大翻车,完全把“宇航员”给丢在了脑后,绘制了一幅宇宙场景。
▲Dream Machine生成视频
Haiper在这一关表现不错,虽然漏掉了“月亮”,但其他关键词都有体现,头盔中的倒影也很自然。
▲Haiper生成视频
智象大模型起初拒绝生成该提示词,显示存在敏感内容。在多次删减后,我终于用“一个男子在空间站外漂浮的特写镜头”生成了一段视频。
画面整体效果比较真实,虽然最终用的提示词里只有“空间站”这一个体现内容的关键词,其还是描绘了地球、航天服等元素。不过这位主人公并没有戴航天头盔,不知道是怎么呼吸甚至讲话的(doge)。
▲智象大模型生成视频效果
即梦在人物细节的刻画上较为优秀,人脸、服装都比较精致,稳定性也很高,但是画面背景中似乎出现了第二个“地球”,此外镜头相较于“特写”更偏向“近景”。
▲即梦生成视频
可灵生成的视频画面中一开始没有出现人物,随后宇航员缓慢进入镜头当中,但背景又是静止的,看起来有种淡淡的幽默。不过画面本身的准确度和稳定性还是很高的,体现了每一个关键词,还描绘了部分选手遗漏的“空间站”。
▲可灵生成视频
人物关的整体表现虽然不如静物场景稳定,但相比上一关效果好了不少,可能和训练数据丰富、运动幅度小有关系。这一关表现更好的是Stable Video、Haiper、即梦和可灵。
总体来看,在智东西本次体验的6款AI视频生成产品中,即梦、可灵的生成效果优势比较明显,无论是在时长还是稳定性上都达到不错的能力。此外国内的Morph Studio、NeverEnds等产品效果也很不错,但由于其未在Sora发布后有新的产品或模型升级,因此不在本次体验范围内。
三、资本之战:5个月吸金44亿,新玩家涌现
Sora发布时,如当初的GPT-4一样再度掀起生成式AI热潮,引发文生视频概念股集体涨停。
一级市场也迎来一波新的狂欢。据智东西不完全统计,Sora发布至今5个月以来,至少有5家AI视频生成赛道的创企获得超亿元融资,累计约12亿元,此外还有Runway被曝正在洽谈4.5亿美元(约合人民币32.68亿元)新融资。
▲AI视频生成相关大额投融资(智东西制表)
国内,爱诗科技分别于3月、4月接连融到两笔亿级资金,且得到蚂蚁等知名投资方的青睐,此前其仅在去年8月获得一笔数千万元的天使轮融资。
今年1月,爱诗科技上线海外版AI视频生成产品PixVerse,当时成为与Pika、Runway竞争的有力黑马。Sora发布后,其创始人王长虎曾称将在3-6个月内实现赶超。
目前5个月过去,爱诗科技尚未发布底层模型的迭代更新,不过陆续推出了角色一致性、运动笔刷等新功能。智东西向其询问产品进展得知,其新一代模型及新功能“文生视频故事片”将在本周发布,可生成时长8秒的视频,并且能一次性生成3-5段内容连续的有声视频。
▲PixVerse上线运动笔刷功能(图源:爱诗科技)
生数科技也在短短3个月内连续获得两笔数亿元融资,其中百度风投作为老股东持续加投。此前,生数科技共获得2轮累计超一亿元融资。
三呆科技(Sand AI)则是一家近期刚刚走入大众视野的创企,目前并未有产品发布。7月10日,Sand AI被曝于5月获得今日资本领投的数千万美元A轮融资。
Sand AI成立于2023年10月,主要开发类似Sora的视频生成技术。值得注意的是,其创始人曹越是光年之外联合创始人之一,曾任北京智源AI研究院视觉模型研究中心负责人、微软亚洲研究院主管研究员。
公开信息显示,曹越本科、博士均毕业于清华大学,曾获得计算机视觉顶会ICCV的最佳论文奖马尔奖,谷歌学术被引超4万次。
▲曹越(图源其个人主页)
Haiper AI也是一家新入局视频生成的创企。该公司成立于2022年,位于英国伦敦,此前专注基于AI的3D重建方向。
据外媒3月报道,Haiper AI获得1380万美元(约合人民币1亿元)的种子轮融资,此前曾于2022年4月筹集了540万美元资金。
Haiper AI的创始团队是两位华人,Yishu Miao曾在TikTok全球信任与安全团队任职,Ziyu Wang曾在DeepMind担任研究科学家。去年晚些时候,Haiper AI团队决定专注于视频生成,并在去年12月发布了首款同名视频生成产品的测试版。
▲Haiper发布同名产品测试版
Pika于6月宣布获得新一轮约8000万美元(约合人民币5.81亿元)融资,估值翻倍至近5亿美元。去年11月,Pika宣布完成累计完成5500万美元的融资,估值在2-3亿美元。
7月2日,AI视频生成赛道的“老玩家”Runway被曝出正在洽谈4.5亿美元(约合人民币32.68亿元)的新融资,估值达到40亿美元。
Runway的上一笔融资完成于去年6月,投资方包括谷歌、英伟达等,并以1.41亿美元的资金达到15亿美元融资,累计融资2.37亿美元。如果本轮融资落地,无论是融资额还是估值都达到两倍以上。
总的来看,在Sora发布后的这几个月,一级市场不断有新的AI视频生成融资出现,不仅频率更加频繁,金额也大幅上涨,单次融资额都超过此前的融资总额。即使部分创企没有产品发布或模型升级,也没能阻挡投资方的热情。
四、AI视频大战150天,从“PPT”变成真正的“视频”
Sora“隐身”的150天,在众多大厂和创企的“围攻”下,主流AI视频生成产品与Sora的差距已经大幅缩短,并且还有至关重要的一点——可上手使用,甚至不少功能还是免费。
目前来看,头部AI视频生成产品已经实现了不错的时长和稳定性,下一步迭代的重点方向是物理模拟。从官方展示的Demo来看,Gen-3、可灵、即梦、Vidu对真实世界的模拟程度较高,经过筛选过的案例已经与Sora放出的案例效果相差无几。
那么从创作者的视角来看,现阶段的产品使用体验如何呢?
近日,导演、AI影视创作者陈坤(闲人一坤)制作了其AI短剧《山海奇镜》预告片的重制版,并与原版进行了对比。
在该短剧的首映会上,他向智东西等媒体谈道,半年时间内AI的进步还是非常明显的,尤其是物理模拟方面,在他看来已经实现了“代际性”的迭代。具体来说,现阶段可灵等视频生成模型已经实现了原生高清,不再是切片式的画面内容驱动,主体运动合理,动作幅度不但大还流畅,且对提示词响应积极。但同时,现在AI视频生成技术仍面临几大痛点:人物一致性、场景一致性、人物表演、动作交互、运动幅度。
▲《山海奇镜》预告片重制版与原版对比
从应用的角度来看,在影视制作等场景中,AI目前还处于追赶传统影视的过程中。
在一个完整的制作流程中,AI仍是一个辅助的手段而非主要工具,如剧本、配音、剪辑、后期等环节,目前还没有能达到生产力水准的产品出现。
但在成本上,包括人效比等方面,基于AI的流程已经实现大幅压缩,达到传统制作流程的1/4以下。
▲陈坤在点映会上接受采访
在WAIC 2024上,爱诗科技联合创始人谢旭璋谈道,现在我们所说的“视频生成”其实只是视频素材的生成,只是完整视频制作流程中的一小部分,没有声音、剪辑、转场、剧本等,无论是从技术还是业务上,还有非常长的路要走。
这也是除了继续迭代底层模型克服视频生成现有痛点外,AI视频发展的另一重要方向。
市面上也有不少公司正在各个视频制作流程中进行尝试,同样得到一级市场的青睐。仅最近一周内,就有AI驱动的视频编辑工具Captions、AI虚拟环境提供照明和合成工具Beeble分别获得6000万美元和475万美元融资。
结语:AI视频生成,等待一个GPT-4时刻
Sora的发布点燃了国内外大厂团队和创业者的热情,不过整体来看还处于早期阶段,技术路线尚未达成共识,生成效果离商业标准也有一定距离。至于具体处在什么阶段,有不少行业人士将其与语言、图像模型的早期阶段作类比,如“GPT-3时代”、“图像生成的2022年前夕”等。
但可以肯定的是,AI视频生成技术正在指数级飞速发展,不断有新的产品和技术问世。尽管存在一些技术痛点和挑战,但随着技术的迭代和市场的推动,这一领域有望实现更多的突破和应用。
AI视频生成大战不仅是技术的较量,更是资本的角逐。在这场狂卷吸金的风暴中,谁能笑到最后,我们拭目以待。