智东西(公众号:zhidxcom)
编译 | 杨蕊伃
编辑 | 漠影

智东西10月16日消息,据VentureBeat昨日报道,法国AI转录和音频智能创企Gladia成功融资1600万美元,并推出了一个多语言实时音频转录和分析引擎。该公司计划利用这笔资金推进研发,推出一站式音频AI工具包。

Gladia成立于2022年,一直专注于开发端到端的音频基础设施。该公司推出的最新微调引擎可以提供超过100种语言的高级实时转录功能。

该引擎的独特之处在于能够实时捕捉通话中有价值的信息,包括来电者的情绪、对话中的关键信息和摘要。

该新产品克服了语言理解和实时数据处理等挑战,实时语音转文本引擎的延迟低于300毫秒。

本轮融资由欧洲风投机构XAnge领投,Illuminate Financial、XTX Ventures等多家风投公司参投。

截至目前,Gladia累计融资金额已达到2030万美元,早期种子轮投资者包括New Wave、红杉资本(作为First Sequoia Arc计划的一部分)、Cocoa和GFC。

一、Gladia新引擎:100多种语言实时转录,不到1秒生成内容

语音转文本产品在克服语言理解挑战方面面临着诸多困难。

其中,语言资源的数量和质量不足是一个关键问题。

在Gladia公司看来,目前大多数语音识别系统主要依赖于英语音频数据进行训练,这在一定程度上限制了它们对其他语言的识别能力。

为了解决这个问题,Gladia致力于开发一个真正多语言的实时语音识别产品。

该公司新开发的微调引擎能够提供100多种语言的高级实时转录服务。

Gladia特别增强了新引擎对各种口音的识别能力,使其能够迅速适应不同语言环境,从而为用户提供更加全面和高效的语音转文字体验。

Gladia的首席执行官兼联合创始人Jean-Louis Quéguiner在接受VentureBeat采访时称,他创立Gladia的初衷源于个人经历,现有的音频转录服务无法准确识别他的法语口音。

他说:“考虑到目前大多数语音识别模型主要在英语音频数据上训练,存在固有的偏见,Gladia优先构建了第一个真正多语言的实时产品。”

此外,Gladia引擎的特别之处在于能够即时从对话中提取信息,如来电者的情绪、关键信息和对话摘要。这意味着使用Gladia从通话或会议中生成文字记录和见解只需不到1秒钟的时间。

二、克服语言、数据多个挑战,延迟低于300毫秒不损准确性

由于上下文信息有限,实时模型在迅速生成内容、准确输出内容上可能会遇到难题。

此外,实时模型需要更多的计算资源来支持其运行,这进一步增加了引擎开发的复杂性。

Gladia推出的新产品克服了语言理解和实时处理数据等上述挑战,并且能够对功能进行持续优化,以提供更准确的服务。

Gladia的实时语音转文本引擎在延迟方面达到了行业领先水平,延迟时间低于300毫秒,且无论用户使用的是哪种语言、位于何地或使用何种技术栈,都不会影响转录的准确性。

XAnge合伙人Alexis du Peloux说:“Gladia代表了我们在XAnge所推崇的品质:一支大胆的全球科技团队,处于AI创新的前沿,拥有成熟的商业模式,能够为各个行业带来新机遇。在快节奏的AI环境中,Jean-Louis Quéguiner和他的团队表现非常出色,我们很自豪能够支持Gladia进行A轮融资。”

融资1600万美元,这家法国AI创企推新语音转录引擎,支持100种语言

▲Gladia创始人Jonathan Soto(左)和Jean-Louis Quéguiner(右)。(图源:VentureBeat)

三、整合AI功能,单一API已为7万用户600家企业服务

Gladia试图将多种AI功能整合到其现有平台中。

联合创始人兼首席技术官Jonathan Soto说:“我们的单一API兼容所有现有的技术栈和协议,包括SIP、VoIP、FreeSwitch和Asterisk。这使我们能够轻松将实时转录和分析集成到客户的AI平台中,让他们专注于为终端用户提供最佳服务。”

该公司在2023年6月推出了其第一个异步转录和音频智能API。

自推出以来,Gladia的API在企业应用中受到了广泛关注,尤其在会议记录和笔记辅助工具方面表现突出。

Gladia的首席执行官兼联合创始人Jean-Louis Quéguiner说:“Gladia的技术使垂直市场中需要尖端实时转录(包括销售支持和联络中心平台)的公司能够从人工呼叫后处理无缝转向主动、低延迟的工作流程。无论是自动进行客户关系管理(CRM),还是采用AI为坐席提供实时指导,Gladia都旨在帮助企业更智能、更高效地运营。”

目前,该API已为全球超过7万名用户和600家企业客户提供服务,包括Attention、Circleback、Method Financial、Recall、Sana和VEED。

结语:Gladia放新招!新资本助力研发一站式音频AI工具包

Gladia将利用新资金推进其研发工作,计划很快将一站式音频AI工具包推向市场,并通过大语言模型和检索增强生成扩展其产品范围。

该公司在联络中心即服务 (CCaaS) 领域拥有多家设计合作伙伴,目前正在试行由Gladia的实时AI引擎提供支持的代理协助解决方案。

Gladia的这些新动作,加上新资本的助力,使得公司在研发一站式音频AI工具包方面有了更多的底气,进一步巩固其在竞争激烈的市场中的地位。

这对Otter.ai和Fireflies.ai等竞争对手以及其他将语音对话转录为文本的基于AI的服务来说将会是一个新的挑战。

来源:VentureBeat