智东西(公众号:zhidxcom)
编译 | 杨蕊伃
编辑 | 漠影
智东西10月16日消息,据VentureBeat昨日报道,法国AI转录和音频智能创企Gladia成功融资1600万美元,并推出了一个多语言实时音频转录和分析引擎。该公司计划利用这笔资金推进研发,推出一站式音频AI工具包。
Gladia成立于2022年,一直专注于开发端到端的音频基础设施。该公司推出的最新微调引擎可以提供超过100种语言的高级实时转录功能。
该引擎的独特之处在于能够实时捕捉通话中有价值的信息,包括来电者的情绪、对话中的关键信息和摘要。
该新产品克服了语言理解和实时数据处理等挑战,实时语音转文本引擎的延迟低于300毫秒。
本轮融资由欧洲风投机构XAnge领投,Illuminate Financial、XTX Ventures等多家风投公司参投。
截至目前,Gladia累计融资金额已达到2030万美元,早期种子轮投资者包括New Wave、红杉资本(作为First Sequoia Arc计划的一部分)、Cocoa和GFC。
一、Gladia新引擎:100多种语言实时转录,不到1秒生成内容
语音转文本产品在克服语言理解挑战方面面临着诸多困难。
其中,语言资源的数量和质量不足是一个关键问题。
在Gladia公司看来,目前大多数语音识别系统主要依赖于英语音频数据进行训练,这在一定程度上限制了它们对其他语言的识别能力。
为了解决这个问题,Gladia致力于开发一个真正多语言的实时语音识别产品。
该公司新开发的微调引擎能够提供100多种语言的高级实时转录服务。
Gladia特别增强了新引擎对各种口音的识别能力,使其能够迅速适应不同语言环境,从而为用户提供更加全面和高效的语音转文字体验。
Gladia的首席执行官兼联合创始人Jean-Louis Quéguiner在接受VentureBeat采访时称,他创立Gladia的初衷源于个人经历,现有的音频转录服务无法准确识别他的法语口音。
他说:“考虑到目前大多数语音识别模型主要在英语音频数据上训练,存在固有的偏见,Gladia优先构建了第一个真正多语言的实时产品。”
此外,Gladia引擎的特别之处在于能够即时从对话中提取信息,如来电者的情绪、关键信息和对话摘要。这意味着使用Gladia从通话或会议中生成文字记录和见解只需不到1秒钟的时间。
二、克服语言、数据多个挑战,延迟低于300毫秒不损准确性
由于上下文信息有限,实时模型在迅速生成内容、准确输出内容上可能会遇到难题。
此外,实时模型需要更多的计算资源来支持其运行,这进一步增加了引擎开发的复杂性。
Gladia推出的新产品克服了语言理解和实时处理数据等上述挑战,并且能够对功能进行持续优化,以提供更准确的服务。
Gladia的实时语音转文本引擎在延迟方面达到了行业领先水平,延迟时间低于300毫秒,且无论用户使用的是哪种语言、位于何地或使用何种技术栈,都不会影响转录的准确性。
XAnge合伙人Alexis du Peloux说:“Gladia代表了我们在XAnge所推崇的品质:一支大胆的全球科技团队,处于AI创新的前沿,拥有成熟的商业模式,能够为各个行业带来新机遇。在快节奏的AI环境中,Jean-Louis Quéguiner和他的团队表现非常出色,我们很自豪能够支持Gladia进行A轮融资。”
▲Gladia创始人Jonathan Soto(左)和Jean-Louis Quéguiner(右)。(图源:VentureBeat)
三、整合AI功能,单一API已为7万用户600家企业服务
Gladia试图将多种AI功能整合到其现有平台中。
联合创始人兼首席技术官Jonathan Soto说:“我们的单一API兼容所有现有的技术栈和协议,包括SIP、VoIP、FreeSwitch和Asterisk。这使我们能够轻松将实时转录和分析集成到客户的AI平台中,让他们专注于为终端用户提供最佳服务。”
该公司在2023年6月推出了其第一个异步转录和音频智能API。
自推出以来,Gladia的API在企业应用中受到了广泛关注,尤其在会议记录和笔记辅助工具方面表现突出。
Gladia的首席执行官兼联合创始人Jean-Louis Quéguiner说:“Gladia的技术使垂直市场中需要尖端实时转录(包括销售支持和联络中心平台)的公司能够从人工呼叫后处理无缝转向主动、低延迟的工作流程。无论是自动进行客户关系管理(CRM),还是采用AI为坐席提供实时指导,Gladia都旨在帮助企业更智能、更高效地运营。”
目前,该API已为全球超过7万名用户和600家企业客户提供服务,包括Attention、Circleback、Method Financial、Recall、Sana和VEED。
结语:Gladia放新招!新资本助力研发一站式音频AI工具包
Gladia将利用新资金推进其研发工作,计划很快将一站式音频AI工具包推向市场,并通过大语言模型和检索增强生成扩展其产品范围。
该公司在联络中心即服务 (CCaaS) 领域拥有多家设计合作伙伴,目前正在试行由Gladia的实时AI引擎提供支持的代理协助解决方案。
Gladia的这些新动作,加上新资本的助力,使得公司在研发一站式音频AI工具包方面有了更多的底气,进一步巩固其在竞争激烈的市场中的地位。
这对Otter.ai和Fireflies.ai等竞争对手以及其他将语音对话转录为文本的基于AI的服务来说将会是一个新的挑战。
来源:VentureBeat