智东西(公众号:zhidxcom)
作者 | 三北
编辑 | 漠影

近年来,视频化正呈现出从互联网向全行业渗透的趋势。视频已从一项单纯的功能,发展为企业推动用户增长、提升业务效率和增加商业变现的关键手段,并重塑营销、知识、商业和空间的交互体验。

我们的生产生活越来越离不开视频,视频云也被赋予了重要的使命。

顾名思义,视频云是一项覆盖了从视频生产、处理、分析到消费的全链路技术能力,这一产业自移动互联网发展以来持续壮大,是云计算领域的一条主赛道。

当下,随着AI、VR/AR等技术带来新的生产力变革,云计算公司开始把这些新技术与视频云充分融合,形成驱动体验创新的新基石。

8月22日,字节跳动旗下的火山引擎举办了一场视频云&AIGC技术大会,首次公布其视频云产品与爆火的AIGC(生成式AI)领域的重磅成果,覆盖芯片、框架及方案各个方面,面向全行业视频化时代交出一份“新答卷”。

视频化时代面临什么样的机遇和挑战?AI与VR/XR等技术如何影响视频云技术走势?行业渗透与视频化应用融合,火山引擎视频云又有哪些布局?

对话火山引擎视频云负责人Yongyuan,我们对此进行了深入探讨。

一、从传统到AI,视频云要飞跃三道技术新边界

进入全行业视频化时代,算力、体验和交互层都面临“新边界”。Yongyuan谈到他的洞察:

第一是算力边界。视频数据体量激增,分辨率和清晰度持续提升,算力瓶颈是当前视频行业面临的最大挑战。

第二是体验边界。用户持续追求更清晰、更流畅的极致体验,处理的算法和流程要跳出现有框架探索体验边界。

第三是交互边界。沉浸式媒体方向在持续加温,苹果发布的Vision Pro带来了新憧憬,2D画面的边界向3D画面突破。

为了探索这三个边界,火山引擎已经采取了一系列探索和实践。

1、探索算力边界,火山引擎推出两“芯”

首先来看一组数据,Yongyuan告诉智东西,视频所消耗的算力要比图片大上百倍,比文字大上万倍,对算力需求极大。为了应对这些挑战,火山引擎自研了一系列底层硬件技术。

8月22日,火山引擎自研视频编解码芯片、自研ARM阵列服务器等技术首次公开,揭开了火山引擎视频云的底座基石。基于抖音的大规模应用实践和打磨,火山引擎实现了从通用计算到异构计算的跃进,沉淀了可为不同视频场景提供专用且适用的算力支持。

据称其自研视频编解码芯片相对主流硬件编码器能提升超30%的压缩效率,一台芯片服务器的转码能力,相当于百台CPU服务器的算力,可用于视频点播、视频直播、VR点/直播、图片转码等多个场景。

全行业视频化时代:火山引擎要跨越三道“新边界”▲自研视频编解码芯片成果

Yongyuan说,这一芯片集成了整个字节贴合业务的优质编解码和前处理算法,从而实现效果和效率的大大提升。

同时,火山引擎视频云还自研了ARM阵列服务器。据称,其在转码场景相比x86资源可以实现成本节省超40%,在云游戏场景对比同类服务器有非常高的性价比。同时,通过云原生技术对ARM异构阵列服务器进行管理和调度,其实现了存储和计算分离,保障用户数据安全。

2、探索体验边界,火山引擎全面布局AIGC

AIGC正卷入视频业,全方位地改变音视频行业的玩法。Yongyuan告诉智东西:“AIGC技术作为一种新的视频内容生产方式,包括内容生产效率、丰富度、个性化程度都会大大提升。”

可以看到,在抖音等短视频平台上,很多人已经习惯了使用各种智能特效进行创作,也更频繁地看到虚拟数字人直播卖货等内容,AI已经融入到了人们的视频体验中。而为了让更多人能用上这些前沿技术,字节正通过火山引擎为外部提供技术服务。火山引擎此前推出的智能创作云,就支持了更多企业进行智能化内容创作。

简单来说,火山引擎智能创作云是一个智能内容生产平台,为企业提供各类AI赋能的创作工具、编辑技术、正版素材和流程管理。目前,火山引擎智能创作云已经探索推出AIGC脚本撰写、文生图、批量海报制作、数字人分身等多项能力。

不同于个人创作,企业视频创作面临创意缺乏、工具难用、协作困难、难以持续等更复杂的挑战,智能创作云则从创意策划、视频制作、内容发布到数据回馈,从每一个环节降低内容创作者的创作门槛。比如,国内知名房屋租赁服务公司自如就借助火山引擎智能创作云,通过“剪同款”API能力,批量制作房源介绍视频,引导用户点击VR看房,从而增加了房源曝光率。

AI能力不仅改变了视频内容生产的方式,还为视频处理提供了更多可能。AI影片修复是一个典型代表场景。就在8月16日,火山引擎、抖音联合中国电影资料馆宣布将对100部香港经典老电影进行4K修复。这是其首次将AIGC视觉大模型应用于老片修复中,在观影活动中得到了一致好评。

全行业视频化时代:火山引擎要跨越三道“新边界”
▲修复前(左),修复后(右)

追溯其背后技术,本次修复师基于AIGC大模型完成,这相比传统的影片修复有什么不同?

Yongyuan告诉智东西,相比于传统的去噪、插帧等算法以及先前的AI技术,火山引擎采用的AIGC视觉模型是关键差异点。借助其强大的生成能力和丰富的先验知识,实现修复效果在清晰度、色彩、流畅度和瑕疵消除等方面的全方位提升。针对老片修复场景,火山引擎对AIGC视觉大模型进行了生成质量、视频任务和效率方面的算法优化,让视觉大模型能够在视频场景下更加稳定、优质、高效地输出内容。

实际上,火山引擎视频云的很多产品能力都有AI技术的加持,例如“智能转档”使用了AI重采样方案,满足了高质量多码率分发需求,支持直播、点播多档位画质提升。 “极智超清”是基于人眼的主观感受最优为基准的AI前处理方案,该方案不仅可以提升主观画质,还可以进一步实现整体带宽降低15-35%。

3、探索交互边界,基于PICO打造VR直播等应用

在探索交互边界方面,火山引擎视频云基于在字节跳动旗下VR品牌PICO 上的实践和探索,沉淀了很多优质的能力。

比如,火山引擎的VR 360°全景图像技术在今年CVPR Workshop举办的一项比赛中,双目超分双三次插值保真赛道和360°全景图像超分赛道上,荣获了双料冠军,技术能力达到行业领先水平。本次火山引擎还推出了8K 360度 VR直播云制播解决方案,据称能大大降低VR内容的开发和消费门槛。

可以看到,从通用算力到异构算力、从传统到AI、从二维到三维,视频行业已被新技术掀起阵阵新浪潮,而火山引擎已经加速布局。

二、从互联网到传统行业,让视频成为企业的增长引擎

技术的价值体现在实战落地应用。面向视频化全行业渗透的趋势,火山引擎已经将其视频云从游戏、电商、社交等消费互联网领域向医疗、金融、教育、汽车等行业互联网延伸。

本次,火山引擎重磅推出了一系列行业解决方案,覆盖互动娱乐、在线教育、金融合规、智能驾驶等场景。

首先,这些方案大多将技术与场景深入结合,带来了更有沉浸感、交互感的视频体验。

以互动娱乐行业为例,在与抖音多人合唱项目合作中,火山引擎视频云行业首发「多人视频一起唱方案」,把合唱互动方案从双人升级到多人,现在已经可以达到九人合唱;并实现了36ms超低延时合拍,支持48kHZ采样率,满足K歌场景的听感盛宴;同时集成25W+高品质曲库,助力用户实现了随时随地与朋友一起想唱就唱,感受最鲜活多样的音乐魅力。

此外,火山引擎还推出了弹幕互动方案,这是一种直播平台兴起的弹幕互动玩法,允许观众通过发送点赞、弹幕和礼物来参与并影响互动内容。火山引擎视频云行业首推云游戏+RTC(实时音视频)弹幕互动方案,融合云游戏服务的强大底层算力以及 RTC 先进架构设计和音视频能力,独家支持RTC+云游戏云端合流功能,能解决多源音视频流管理和同步问题。

全行业视频化时代:火山引擎要跨越三道“新边界”

▲弹幕互动应用界面

同时,火山引擎的AIGC能力也被嵌入这些方案之中,为企业带来全新的视频生产体验。

比如面向金融领域,在火山引擎与国信证券联合落地的金融直播解决方案中,国信证券上线了AI虚拟数字主播,并结合数字人使用AI短视频模板自动化生成实时短视频。金融行业智能直播面临合规性挑战,AI生成内容需要逐帧做合规审核,国信证券正探索通过AIGC做初审再采用人工复审,从而提升内容创作和审核效率。

此外值得一提的是,从2D到3D视觉的交互升级,在这些行业方案中亦有多处体现。

火山引擎行业首推的VR云制播方案,从内容生产到传输分发降低VR内容的开发和消费门槛。比如在其与央视打造身临其境的虚拟演播平台案例中,央视通过火山引擎视频云和云创智媒的能力,轻量化地用一台笔记本实现VR视频的制作,而不再需要一个演播室和一堆硬件系统。

可见,除了在抖音熟悉的互联网领域,火山引擎在金融、传媒、汽车等领域不断探索并且推出相应方案,探索视频云“三道技术边界”并不是说说而已,而是已经有了深入实战经验。

三、三年商业化深耕,火山引擎视频云“破茧”

火山引擎自2020年正式对外商业化,但视频技术服务可追溯到2013年。

Yongyuan回顾,自2013年今日头条平台的短视频内容诞生,团队就开始做视频方面积累。2016年抖音的孵化,则促使团队进一步以视频中台的方式输出更多音视频技术支持。随着2017~2020年抖音规模不断变大,更多音视频的标准化工具出现,逐步具备了对外服务的条件。

2021年6月,字节正式推出火山引擎云服务业务板块;12月,火山引擎发布了包括了视频云在内的五大类共78项云服务,确立“IaaS+PaaS+SaaS”完整云服务体系。2022年7月,火山引擎推出音视频云端一体解决方案veVOS,进一步助力企业客户的业务敏捷创新。

2023年,随着火山引擎的商业化落地进入规模化阶段,其底层技术也加速迭代,这些自研芯片及服务器等技术并不对外销售,而是通过视频云的方式服务企业。“我们的核心技术都会沉淀在火山引擎,以‘对内对外统一’的方式提供,这是火山引擎做云的一个出发点。”Yongyuan说。

随着技术和商业地图的进一步完善,火山引擎正大步驶向视频云领域的新蓝海。

结语:全行业视频化浪潮下,视频云成企业增长新引擎

知名调查机构IDC预测,到2025年,超80%全球数据将是音视频等非结构化数据,这样的超视频化成为数字时代的重要特征。同时,AIGC、VR等技术的爆发,带来视频生产的成本不断降低,可能将视频行业市场撑大十倍都不止。

本次,火山引擎推出了一系列底层硬件及产品和行业解决方案,在视频云领域的布局进一步加深。从传统到AI,从2D到3D,从泛互联网到行业,火山引擎在拓宽自身云业务发展边界的同时,也为企业提供了通过视频及AI技术实现数字化升级的新选择。