智东西(公众号:zhidxcom)
作者 | 三北
编辑 | 漠影
越来越多的企业正在将大模型装进视频会议系统,但他们发现,AI会议的搭建并不容易:
AI新功能识别不准确、上手不好用,会议系统与老旧硬件设备不兼容,AI内容分析引发企业数据安全担忧,定制化需求得不到及时满足……未来AI会议的畅想虽好,部署成本与精力问题令很多企业望而却步。
近日,在北京举办的“AI重塑会议协作”产品发布会上,声网推出的“灵动会议”为企业提供新的选择——提供搭载RTE(实时互动)与生成式AI双引擎技术的aPaaS平台,让企业轻松搭建具备实时字幕、AI会议纪要、AI主持人等多项能力的新一代AI会议,提升会议体验和效率。
与市面上常见的Zoom、腾讯会议等C端产品不同,灵动会议主要面向政企、云会议厂商、硬件会议厂商及大中型行业客户等B端市场。它帮助客户缩短实现AI会议搭建和传统会议转型的过程,通过SFU+MCU混合架构部署的低代码平台,提供开箱即用的能力包,满足客户会议、协作和调度需求。
成立于2014年的实时互动云服务商声网,已经在实时互动领域积累了多年经验。作为底层技术的赋能者,声网正率先将AI大模型整合前沿音视频技术,为企业客户在自身应用内构建多种AI实时音视频互动场景提供新选择。
大模型能为视频会议行业带来什么新故事?又会为行业带来什么样的价值?通过对话声网数字化行业负责人和利鹏,本文对此进行了深入探讨。
▲声网数字化行业负责人和利鹏
一、从纪要到AI主持人,大模型催生未来会议新形态
当前,视频会议行业正处在一个变革的关键时期。
我们可以看到三个趋势:MCU(多点控制单元)传统会议架构正在收缩,云会议崛起;会议系统由沟通工具,转变成为企业业务能力;AI赋能,会议向智变。
聚焦AI赋能,和利鹏告诉智东西,大模型已为视频会议行业带来了新变化。
以常见的会议纪要应用来说,在此前的小模型时期,会议纪要不准确、不好用,甚至连熟悉的人名都记不准确,没有被真正用起来;现在随着大模型引入,会议纪要的准确度大大提升,并通过与用户知识库对接,用得越多越准确,逐渐成为高频使用的效率工具。
再以会议回顾应用为例,此前的会议回顾大多是录制一个视频文件,大多数没有人会去回看;现在,经过AI对知识进行切片,用户可以直接关注感兴趣的部分,在中途参会或错过会议的情况下也能快速了解会议要点,办公体验和效率也由此得到显著提升。
而从热门的多模态出发,视频会议系统的“听说看”能力都将升级,比如未来也可能是数字分身代替人去参加会议进行表达,大模型正催生更多全新体验诞生。
“大模型对行业有一个很大的改变——如果说以前视频会议系统是一个音视频通道,那么AI时代的视频会议已具备了内容洞察和决策助力,升级成为一个智能协作平台。”和利鹏告诉智东西。
可以看到,从纪要到AI主持人,大模型正催生未来会议新形态。这种未来会议新形态,也将成为企业协同效率提升、业务成长的关键一环。
二、AI会议≠会议AI,单一会议工具向业务决策支撑平台转变
知名行研机构IDC数据显示,2023年中国(软硬件)视频会议市场规模达到9.2亿美元(约合64.9亿元人民币)。多位视频会议业内人士预测,大模型至少将为视频会议行业带来翻倍的市场增量。
在巨大新市场的驱动下,各大云巨头、SaaS厂商、音视频技术厂商以及传统视讯企业,都推出了AI会议相关功能及应用,试图在这个新的市场中分一杯羹。
围绕当下“神仙打架”的市场格局,和利鹏认为,会议AI并不等于AI会议。
市面上的不少会议AI,只是在上层应用层将单点的AI功能加到会议系统中,而灵动会是从底层会议的架构进行了改变,采用了AI与RTE(实时互动)双引擎架构,从底层重塑会议与协作。
▲灵动会议RTE与AI双引擎架构
具体来看,灵动会议采用了RTE 和AI 双引擎架构,RTE 技术确保低延迟、高可靠的音视频传输,使大模型能够接收到高质量的音视频内容,并进行更准确的处理。而生成式AI通过分析会议内容,提供智能功能,如自动生成字幕、会议纪要,并通过RTE的低延迟、高可靠通道来分发,以实现与大模型的互动。因此RTE与AI的结合赋予会议系统“听、说、看”的能力,这也正是灵动会议产品推动会议系统从单纯的信息传输工具,向具备内容理解与决策支持的智能引擎转变的核心因素。
基于声网自研的AI Agent框架,灵动会议能够兼容市场上主流的 ASR(自动语音识别)、LLM(大语言模型)和 TTS(文本转语音)技术,具备工作流编排能力,提供流畅自然的交互体验。该框架尤其支持市场主流的多模态大模型的集成。企业不仅可以使用单一模型,还可以将图像、音频、文本处理等多模态的大模型能力融合到一起,满足更复杂的会议场景需求。比如AI主持人可以帮助用户把控会议节奏、提供会议建议、调节音视频效果等,实现更自然沟通。
▲和利鹏在讲解声网灵动会议AI Agent框架
由上所述,灵动会议重点不仅在于底层的AI框架,还在于声网多年积累的RTE技术。基于灵动会议双引擎架构,AI不再是一个单一的工具模块,而是通过与声网RTE平台的深度融合,真正参与并优化会议的各个环节。
据悉,灵动会议RTE引擎能提供领先的音视频性能体验,依托声网SD-RTN™软件定义实时网,能做到80%丢包情况下音视频通话流畅,国内视频平均卡顿率小于1.1%,海外视频平均卡顿率小于 2%;同时基于视频增强策略、AI降噪、回声消除等技术提高视频会议质量。
此外,企业在数字化转型过程中,由于业务的逐步演进,常常会面临新设备引入、新开发环境和新功能组件接入的需求。然而,由于缺乏统一的管理底座,很多企业不得不为不同的业务场景构建独立的系统,形成“烟囱式”建设模式。这种模式导致系统封闭,资源利用率低,运维成本高。
而声网灵动会议产品推出了企业级音视频管理中台,作为统一的管理底座。这种中台能够将企业内部所有在线协作业务一站式集成,同时,通过AI技术的支持,实现音视频数据的统一分析和知识沉淀,逐步构建企业的知识库,成为企业的核心竞争力之一。
可以预测,在AI与RTE的双引擎驱动下,视频会议系统正从沟通管道变为智能协作平台,不仅能分析内容、指导决策,还能够帮企业沉淀知识库,从而重塑会议与协作。
三、AI再造会议进行时,先过安全、成本、兼容三道关
自去年以来,和利鹏和他的团队开始观察到了市场新的需求变化,AI视频会议市场需求正在起量。但同时,对于大多数企业来说,搭建一款AI驱动的视频会议系统还是会需要面临许多问题。
如AI会议带来体验升级的同时,如何保证数据安全?如何根据企业性质快速实现个性化定制?新系统如何兼顾与现有会议室设备的兼容性,实现更低成本的利旧?解决这些问题,企业往往需要耗费大量的时间、精力和经济成本。
灵动会议为合作伙伴提供另一种选择:选择开箱即用的aPaaS会议服务,免去大量重复、复杂的中间工作,专注于自身应用的开发和使用。
面对数据安全问题,很多政企倾向于私有云或混合云部署方式。灵动会议支持私有化、混合云、公有云等多种部署模式,同时支持无缝备份与切换,这就能够确保业务的连续性和数据的安全性。
面对定制化难度问题,灵动会议采用aPaaS低代码设计,通过提供灵活的API接口、以及UI组件和即插即用的集成功能,使得开发者可以在较短的时间内完成集成,无需进行大量的底层开发。
开发者可以通过现成的UI组件快速集成会议功能,包括会议召集、虚拟背景、屏幕共享、白板互动等,几乎涵盖了所有常用功能,仅需4个方法和回调,便可定制UI,大大缩短开发周期,加速应用上线。
面对传统MCU设备利旧痛点,灵动会议提供了最新的解决方案:SFU+MCU混合架构。据悉,MCU模块与SFU模块直接集成,抛弃了传统的网关架构,通过裸流通信技术实现终端设备与云端的直接互通,解决了网关集成时的画质损失问题,并支持多画面灵活组合。
▲SFU+MCU混合架构打破传统模式
目前,已有不少云会议、传统MCU、大中型行业客户用上了灵动会议。
以某头部云厂商为例,其目前已利用灵动会议打造了高效的云会议平台。该客户面临的是Zoom平台到期和架构替换问题,声网不仅为其提供了全球覆盖的公有云服务,使其在保存原有应用的情况的无缝替换架构,还助其快速扩展了所需的同声传译等新能力,最终节省系统运维成本百万投入。
以某传统硬件会议MCU厂商为例,其在行业里耕耘十几年,架构无法满足客户关于云视频和智能化的新需求。其曾求解于开源WebRTC、第三方的云厂商,都面临了投入成本高、体验受损等问题。灵动会议的SFU+MCU混合架构帮助其进行整个系统完整升级,从而获得了更好的发展机会。
可以看到,各类厂家都可以基于声网aPaaS灵动会议快速实现云化、智能化升级。
结语:大模型时代,20年视讯行业迎来新拐点
20多年来,视频通讯行业发生了巨大的变化。从硬件视频系统到云会议,再到智能会议,技术和会议的形式不断迭代。在声网等技术赋能者及各路会议厂商的推动下,视频会议产品核心正从一个通道进化为智能协作平台。
与此同时,视讯用户的核心需求仍然没有变,那就是不断提高会议效率并达成决策目标。当下,大模型技术为这一目标实现带来了新的动力,20年视讯行业迎来新拐点,以声网灵动会议为代表的新一代AI会议方案也正成为新的行业发展引擎。