智东西(公众号:zhidxcom)
编译 | 徐豫
编辑 | 漠影
智东西8月22日消息,据VentureBeat 8月20日报道,AI初创公司Hotshot的同名文生视频模型“Hotshot”开放公测,用户可以访问Hotshot.co官网使用该模型,现阶段每人每天有两次免费创作机会。
Hotshot模型由4人小团队用数千块GPU训练而成,可以生成10秒以内不同主题的视频,耗时短、清晰度高、操作界面简洁。与主流的AI文生视频模型相比,Hotshot公测版兼顾视频生成效率和稳定性的同时,视频风格更丰富,生态也更加开放,可生成无水印视频。
▲可用Hotshot生成风格多样的视频(图源:Hotshot)
Hotshot成立于2023年,联合创始人为Aakash Sastry、John Mullan和Duncan Crawbuck。这三位公司创始人已有11年的消费级应用开发经验,并从Lachy Groom、Alexis Ohanian、SV Angel等人那里获得了资金支持。
体验地址:https://hotshot.co/
一、最长10秒,清晰度720p,可定制动漫效果
Hotshot文生视频模型是一款Transformer扩散模型,其最新版本可根据文字描述生成一段最长10秒、清晰度为720p的视频。
例如,在Hotshot中输入“柯基坐在学校教室里”,我们可以得到,两只毛发分明顺滑的柯基,身穿不同花色、样式的衣服,坐在木色椅子上东张西望,柯基身后是写有粉笔字的黑板,而黑板旁有一个陈列地球仪等教具的展示柜,整体拍摄视角不断推进的一段视频。
▲Hotshot根据文本“柯基坐在学校教室里”AI生成的视频(图源:Hotshot)
除了模拟真实的人物、场景、风景,用户还可以用Hotshot制作动漫、逐帧动画、特效等风格化视频。
Hotshot生成的一段视频中,一位金发年轻男子,身穿蓝色衬衫和深色裤子,坐在客厅的黄色沙发上,玩着手持电子游戏,客厅布置了绿植、挂画。视频画面配色鲜艳、笔触粗犷,呈现出50年代的复古漫画风格。
▲Hotshot可以风格化处理视频(图源:Hotshot)
二、4个人耗时4个月,投入6亿段素材,花费几千块GPU
这样一个“类Sora”的文生视频模型,Hotshot仅靠团队4人,耗时4个月,便完成了该模型的训练工作。
据Hotshot介绍,最新版的文生视频模型在训练中投入了6亿段视频及音频素材、几千块GPU,高强度的模型训练常常导致NVIDIA H100 GPU出现故障,“机房差点着火”。为了让模型不偏离预期方向,团队成员一个月都没有休息,轮流监控训练结果。
3位创始人和新成员Chaitu Aluru还开发了一个新的自动编码器,在“空间”和“时间”上压缩视频内容,而非折损视频质量和相关数据,从而更高效地训练长序列视频。
三、过去一年多,Hotshot模型3次升级换代
Hotshot曾推出过AI文生图应用和两代AI文生视频模型,可惜未能激起较大的水花。
去年,Hotshot上线了同名消费级AI文生图应用,用户可以免费用Hotshot生成和修改照片,但该应用可能已被下架。
后续Hotshot推出了AI文生视频模型Hotshot-XL,并开源。该模型可以生成时长1秒,帧率8fps的视频。当时,Hotshot-XL的月活用户超2万人次。Hotshot Act-One则是Hotshot-XL的升级版,拓展了AI视频生成的时长上限。Hotshot Act-One模型可制作时长3秒,帧率同为8fps的视频。
Hotshot联合创始人Sastry在社交媒体X的帖子中写道,Hotshot是“目前最先进的公开模型”,十多年以来,我们首次能够为用户提供“强大且新颖的”AI文生视频功能,而这仅仅是一个开始。
结语:AI文生视频模型很卷,但还没有绝对的赢家
在Sastry看来,未来一年内,YouTube将被多模态生成式AI作品“刷屏”,AI文生图、文生视频、文生音频、图生视频等创作方式,将成为数字媒体上的常态。
市面上AI视频生成模型和应用的竞争也愈发激烈。AI视频创企Runway ML的Gen-3 Alpha Turbo、AI大模型独角兽OpenAI尚未公开的Sora、3D建模与视觉AI公司Luma的Dream Machine等AI视频生成模型,以及AI视频创企Pika Labs的Pika AI视频生成应用,都有着较高的关注度。
与竞争对手相比,Hotshot虽然文本还原度较高、视频生成速度较快,但现阶段的视频生成效果,在质量、细节和分辨率上都差强人意。网友用Hotshot模型制作的视频,不少存在手部、腿部重影,物品悬空、动作逻辑错误、说话神态、口型单一等较为明显的漏洞。
▲马腿出现重影(图源:VentureBeat)
来源:VentureBeat、Hotshot X官方账号