科大讯飞用AI颠覆录音笔行业:实时转写+分场景降噪+边录边译

智东西(公众号:zhidxcom)
文 | 王小溪

导语:科大讯飞推出了两款专业级的智能录音笔,能分场景使用不同算法进行降噪,让录音更清晰。他们的转写准确率最高可达98%。

智东西5月22日消息,昨日,科大讯飞在上海举行了每年一度的新品发布,会上讯飞推出了五款面向终端消费者的AI硬件产品和AI平台iFLYOS2.0,宣告AI技术进入规模化落地阶段。

新品中备受关注的是两款全新的智能录音笔产品SR701旗舰版和SR501标准版。在将语音核心技术与最新的硬件、AI技术结合并落地到消费者产品的道路上,讯飞迈入了一个新的疆域,并试图全面革新录音笔这个传统“工具型”消费电子产品,并拓展其应用边界,让它从录音工具转化为多场景实时“录音、转写”记录工具。

麦克卢汉说:“媒介是人的延伸”,录音笔可以看成是人们记忆的延伸。它记录了人们无法一时记住的全部内容,方便人们进行回放、提取重要信息。1877年爱迪生发明留声机标志着录音设备的诞生,之后便携式录音设备在20世纪中期被发明,在经历了几十年的磁带式录音设备的发展阶段后,21世纪初开始出现以闪存为存储媒介的数字录音笔,SONY、飞利浦成为这一领域的主要玩家。

现在进入AI时代,对数字录音笔的定义也发生了相应的变化,我们可将其划分为传统数码录音笔和智能录音笔。智能录音笔是基于人工智能技术,集高清录音、录音转文字、云端存储等功能为一体的智能硬件,是AI落地应用场景的代表性产品。

科大讯飞用AI颠覆录音笔行业:实时转写+分场景降噪+边录边译

▲讯飞智能录音笔正式亮相

作为中国最大的智能语音技术提供商,科大讯飞曾利用其一流的翻译技术,打造了多款备受关注的翻译机。如今,讯飞高举高打,宣布推出两款面向中高端市场的智能录音笔SR501标准版和SR701旗舰版。这两款录音笔能分场景使用不同算法对环境进行降噪,让录音笔录制的声音更清晰。而且,这两款录音笔转写准确率最高可达98%。它们还有边录边译的功能。

会前,智东西参与了这款内测状态的智能录音笔体验,并与这一产品的“创始人”科大讯飞副总裁兼消费者事业群副总裁李传刚进行了一次深度对话。通过还原讯飞用一年多的时间定义并推出这样一款语音+AI智能硬件产品的过程,我们将会看到讯飞团队如何再造录音笔这个产品形态,这个市场又会有多大的机会。

一、智能录音笔到底智能在哪?

李传刚说,讯飞智能录音笔是一款专业级的智能录音设备,它能让声音信息的存储、编辑、转写、查看功能更加智能和有效率。

科大讯飞用AI颠覆录音笔行业:实时转写+分场景降噪+边录边译

讯飞录音笔的智能首先体现在它对语音记录功能的重新定义:

第一、他们的智能录音笔可以实现语音转写,识别的准确率最高可达98%。而传统的录音笔在录音之后,还要让用户花费大量时间去再听录音并将其转为文字。讯飞智能录音笔还能将转写的结果实时呈现在机身全贴合高清触控屏上。而且,转写内容可同步到电脑、平板、手机多终端设备,方便用户进行编辑。

▲智能语音笔实时转写功能

第二、讯飞智能录音笔利用人工智能技术分场景对环境中的噪声进行抑制,能使录制的人声更清晰。而传统的录音笔很难做到一款产品实现多场景目标声音和噪声区隔。

与搜狗的智能语音录音笔不同,讯飞的这两款智能录音笔集软硬件于一体,能独立完成文字转换全流程,而无需外接其他设备。

而且,通过4G、WIFI等多种网络连接方式,录音及转写的文本内容可以一键分享至微信等社交平台。

科大讯飞用AI颠覆录音笔行业:实时转写+分场景降噪+边录边译

▲智能语音笔的系统设置界面

用户还能通过录音过程中所打的标签点,在回放录音时迅速找到所需要的录音片段。

李传刚还介绍,讯飞的智能语音录音笔具有边录边译的增值功能,一方面,用户可以在屏幕上看到翻译的文本;另一方面,在外接耳机之后,用户可以听到录音笔的翻译。目前,该功能还需要4G网络或WiFi的支持。

科大讯飞用AI颠覆录音笔行业:实时转写+分场景降噪+边录边译

科大讯飞用AI颠覆录音笔行业:实时转写+分场景降噪+边录边译

▲智能语音笔边录边译功能

不同于讯飞翻译机主打多语种对话翻译,适用于语言不通的各个场景,讯飞智能录音笔的翻译功能可以说只是该产品的一个辅助功能,主要用于英文培训等记录场景,在转录同时进行辅助翻译。

李传刚认为讯飞智能录音笔是一款颠覆型的产品。他说:“万物互联时代来临,比起单一的‘录音’,用户更加需要的是多场景的‘智能语音记录助手’,而讯飞录音笔正是从功能和体验上实现了录音、转写、文件管理编辑的一体化。”

二、讯飞智能录音笔运用了哪些黑科技?

讯飞智能录音笔最重要的两大优势是录音更加清晰、转写的准确率更高。

那么它们是如何实现这两点的呢?

科大讯飞用AI颠覆录音笔行业:实时转写+分场景降噪+边录边译

据李传刚介绍,讯飞将2颗哈曼定向麦克与6颗矩阵麦克相结合,并利用了远距离拾音算法和自主研发的降噪算法,能使智能录音笔达到15米远距离清晰收音的效果。

科大讯飞用AI颠覆录音笔行业:实时转写+分场景降噪+边录边译

▲15米远距离收音

他说:“我们为智能录音笔设计了六大场景,每一场景都使用了不同的算法来抑制环境中的噪声。”

以远场演讲场景为例,设备会调用2个定向麦克风拾音,同时6个矩阵式麦克风识别周边及其他方向反射回来的噪声,通过算法进行比对消噪,使得录制的人声更加清晰。

在近场会议模式下,2个定向麦克风将停止工作,录音笔将6个矩阵式麦克风对收集的信号进行加权算法,在目标信号的方向形成一个拾音波束,同时衰减来自其他方向的噪声,可以定向拾取与会者的发言,使得录取到的声音清晰准确。

科大讯飞用AI颠覆录音笔行业:实时转写+分场景降噪+边录边译

▲智能语音笔(SR501标准版)的采访场景

这种分远场、近场进行拾音降噪的功能,是传统录音笔所无法具备的。

讯飞还使用了业界领先的语音识别和转写引擎。讯飞自2006年开始提供转写服务,其看家本领语音识别则在过去多年不断精进。面对万物互联时代的全新挑战,讯飞在2018年9月包揽了国际多通道语音分离和识别大赛(CHiME)四个项目的冠军。

同时,智能语音笔中还使用了讯飞自家的TTS语音合成技术,让翻译结果实时可听。

在硬件方面,录音笔标配2000mAh电池,满电状态下可录音10小时。机身采用CNC航空级铝合金铣削而成,经过采用喷砂、阳极氧化工艺处理,打造出了高质感的外形。

两种不同型号的录音笔在核心功能上相差无二,不过,在硬件配备上稍显不同。比如,讯飞SR701旗舰版拥有3.5英寸 HD(720*1280)独立触摸屏,背板采用0.6mm弧形陶瓷背板;而SR501标准版为3.1英寸 WVGA(480*800)触摸屏,背板采用0.55mm 机铣玻璃背板;同时两种型号的智能录音笔在存储空间上也有所差异,SR701旗舰版内置32GB机身存储,同时配备20GB云端存储空间,SR501标准版则具备16GB机身存储和10GB云端存储空间。两款型号录音笔的具体产品配置如下表所示:

科大讯飞用AI颠覆录音笔行业:实时转写+分场景降噪+边录边译

三、讯飞挖掘和再造录音笔新市场

根据市场公开资料预估,传统的录音笔全球市场大致有几千万,中国大致占一两千万左右。索尼是全球智能语音市场上的最大的玩家,市场份额约占10%,他们主要以高端智能录音笔为主,价格大致在1500元以上。飞利浦占市场份额的15%左右,他们主打中端的智能录音笔,产品售价在800元到1500元左右。

科大讯飞用AI颠覆录音笔行业:实时转写+分场景降噪+边录边译

讯飞的SR701旗舰版售价为2999元,SR501标准版售价为1999元。从这两款产品的售价也可以看出,讯飞的智能录音笔主要是面向那些对高品质转写有需求的用户。这些用户可能是苹果、华为等高端手机的忠实粉丝,也是各个场景的专业记录者,消费水平较高,并且愿意为更高品质的文字转录功能付费。

而且,这些用户也对产品的硬件也有要求,他们希望智能录音笔有像高端手机一样的质感,这样的产品可以更符合他们的身份地位。

经过前期的市场调研,李传刚说智能录音笔将会对两大群体产生重大影响,第一大群体就是记者、学生、执法人员等对录音有需求的传统录音笔群体,新产品对于他们而言相当于升级换代。

第二大群体是对语音转写有需求的人,他们之前可能并未使用录音笔。他举例说,比如老师有写书的需求,他们原来会使用APP将语音转化为文字,然后再修改文字。有了这款产品之后,老师能在课堂上带着智能录音笔,实现实时的语音转写,及时记录课堂上闪过的灵感。而且,他们的录音笔在充满电后可以连续10小时录音,不用担心续航问题。

四、一年时间打造专业级智能录音笔

作为“骨灰级”AI玩家,讯飞在翻译和转写赛道上具备典型技术优势。

对比手机上的录音和转写软件而言,讯飞此次推出的智能录音笔是独立的设备,仅处理单任务,能把录音和实时文字转化的功能发挥到极致。而手机是一个处理多任务的产品,在录音、转写的同时,有可能还要接电话、社交等,这就影响了任务的处理进程。在中型、大型的会议现场,人们就不能拿手机去录音。相比之下,这两款智能录音笔更为专业。

据了解,讯飞智能录音笔项目硬件团队目前仅有30多人,他们在市场调研上花费了3个月的时间,从立项到现在推出产品,用时不过1年时间。

在研发过程中,遇到的挑战一方面来自于录音、转写、翻译技术的一体化整合;另一方面在于针对用户真实需求进行6大场景的录音和转写效果的优化,比如演讲、采访、会议等。

李传刚在与智东西交流时说,在未来,讯飞智能录音笔还会搭载更多的黑科技。

结语:讯飞转写技术进一步落地 智能录音笔开辟语音记录新疆域

科大讯飞轮值总裁胡郁是讯飞消费者业务的操盘手,他非常感概地说:“伟大的技术需要伟大的产品来实现落地。”在过去的20年内不断实现技术创新对讯飞而言是很重要的,随着行业、商业社会的重构,进行商业模式的创新对如今的讯飞而言也至关重要。

他说,讯飞智能录音笔代表着讯飞从源头核心技术系统创新到产品应用创新的过渡,体现了讯飞正在拥抱全新的商业模式创新。

科大讯飞用AI颠覆录音笔行业:实时转写+分场景降噪+边录边译
▲李传刚在发布现场讲解产品

在录音和转写功能落地的尝试上,讯飞此前已有讯飞听见会议系统和在线转写平台的良好积淀,而此次讯飞智能录音笔的全新推出,是科大讯飞将智能转写技术放到了一个使用场景更广、人群更广的c端市场来落地。

据智东西了解,在科大讯飞内部,由胡郁带领的消费者业务对2019年的定义是:“人工智能价值兑现的一年,讯飞正在结合自己的翻译和转写两大技术优势来布局自己的消费者业务,不断将其核心技术转换成消费者可用的硬件设备。”除了智能录音笔,讯飞其他的相关产品也正在研发当中。