实时语音识别是一种能够将实时音频流转换为文字的技术,通过语音识别模型将人类语音转化为可识别的文本形式。要实现高质量的实时语音识别并不容易,通常包含音频获取、音频预处理、特征提取、特征分析与识别、解码转录以及后处理输出等一系列复杂的步骤。

而在我们日常生活和工作中的线上会议、多人交互等场景下,需要同时处理多个人的音频流,并实现超低延迟、多人并发、实时准确的语音识别,更是面临诸多挑战。

首先在计算层面,由于需要同时处理多个语音数据流,并及时响应,因此需要大量高性能且灵活可扩展的计算资源支持。同时,多人并发的情况下,需要传输大量的语音数据。如果数据传输延迟较高,则会影响语音识别的实时性。此外,如果数据传输过程中出现丢包、误码等问题,也会对语音识别的结果产生一定的影响。

因此,要实现超低延迟大并发实时智能语音识别,不仅需要进行优化算法,以提高计算效率、降低计算资源消耗,同时还要优化数据通信协议,提高数据传输效率。

Achronix与Myrtle.ai共同推出了超低延迟大并发实时智能语音识别方案。该方案的硬件平台采用基于Achronix Speedster7t FPGA的VectorPath加速卡和x86架构服务器来实现,可以同时支持多达4000个RTS,在保证低延迟的同时识别正确率高于90%,且相比ASR云服务成本大大降低。

VectorPath加速卡搭载Achronix 7nm Speedster7t FPGA,同时集成了400G以太网接口、多个PCIe接口和高带宽GDDR6存储器接口等一系列先进的I/O接口,传输速率可达32GT/S。Speedster7t FPGA集成了高密度机器学习处理器(MLP)阵列和二维片上网络(2D NoC)。其中,MLP除了浮点乘加运算,还支持对多种定浮点数格式进行拆分和组合运算,能够为AI和数据密集型计算提供ASIC级的计算速度。而2D NoC可以沿着行/列在FPGA结构中或向着边缘接口高速移动数据,进而释放更多的逻辑单元用于计算任务。

10月24日19点,Achronix联合智猩猩策划的「Achronix加速实时语音识别技术公开课」将开讲,由Achronix资深现场应用工程师黄仑主讲,主题为《超低延迟大并发实时智能语音识别加速方案》。

此次公开课,黄仑首先会从概念、应用场景、面临的问题等维度对实时智能语音识别技术进行介绍,之后他将讲解超低延迟大并发实时智能语音识别方案,并对其硬件平台中基于Achronix Speedster7t FPGA的VectorPath加速卡进行重点解读。最后,黄仑还会分享超低延迟大并发实时智能语音识别方案的优势和落地案例。

Achronix黄仑:超低延迟大并发实时智能语音识别加速方案|公开课预告

公开课内容

主题:FPGA加速超低延迟大并发实时智能语音识别
提纲:
1、实时智能语音识别技术概述
2、超低延迟大并发实时智能语音识别方案
3、基于Speedster7t FPGA的VectorPath加速卡解析
4、方案优势与落地案例

主讲人:

黄仑, Achronix资深现场应用工程师,拥有上海交通大学通信工程硕士学位,目前主要负责华东地区的客户技术支持。于2017年加入Achronix,拥有15年以上的FPGA相关研发和市场经验。

课程信息

直播时间:10月24日19:00
直播地点:智猩猩直播间