智东西(公众号:zhidxcom)
文 | 寓扬

在刚刚过去的第四届乌镇互联网大会上,搜狗展台凭借着机器翻译、搜狗明医、搜狗大律师、智能问答、唇语识别等人工智能技术、产品受到参会者的关注,其中最吸引眼球莫过于唇语识别了。

所谓唇语识别是通过机器视觉,不用听声音,仅靠识别说话人的唇部动作,就能解读说话者所说的内容。

12141-7

(搜狗语音交互中心技术总监陈伟)

今天搜狗举行媒体沟通会,公开介绍展示这项唇语识别新技术,包括背后的技术原理、研发这项技术的动因以及未来的场景应用。

一、通用唇语识别准确率达60%

与语音识别不同,唇语识别是一项基于机器视觉与自然语言处理于一体的技术,因此难度也比语音识别大的多。

搜狗语音交互中心技术总监陈伟向我们介绍了唇语识别背后的技术逻辑。唇语识别需要通过摄像头,从图像中连续识别出人脸,并提取说话人连续的口型变化特征,然后将这些唇语特征放入唇语识别模型来获取发音单元,并通过语言模型来获得文本数据,最终输出文字。

12141-2

据搜狗介绍,这也是国内首个公开演示的唇语系统。搜狗通过端到端深度神经网路技术进行唇语序列建模,并通过数千小时的真实唇语数据训练,所建立的词汇表已经在10万词以上,在通用唇语识别上已能够达到60%的准确率,而在搜狗深耕的车载、智能家居场景下可以达到90%的准确率。

12141-4

在搜狗主要布局的车载、智能家居场景下,由于限定了边界,所使用的词汇则大大降低,搜狗又针对这些场景通过制作“限定词”的方式,如车载场景的“播放音乐”来大大提升唇语识别的准确率。目前搜狗团队已经围绕场景做了1000多个限定词。

正常人的唇语识别能力在10%左右,一些受过训练的聋哑人则可以达到40%左右,而在这项能力上机器已经超过人类。

二、提升远场语音交互是动因

尽管在近场的语音识别上,各家的技术都可以做到95%以上,但是一旦将语音识别由近场扩展到远场,尤其再伴随着噪声混响环境,语音识别的准确率就会大大降低。

目前通用的办法是通过麦克风阵列来进行远场环境下的噪声等处理,来提升语音识别的效果。如当下火热的智能音箱采用的就是麦克风阵列的技术来做前端的信号处理。

陈伟谈到,麦克风阵列和唇语识别是面对在远场噪音环境下提升语音识别的两种手段,麦克风阵列是从消除噪音的角度做的,而唇语识别则是直面噪音等环境,直接通过读唇的方式和语音识别结合起来,提升语音识别准确性。麦克风阵列是当前的技术应用,已经落地很多产品上,而唇语识别则刚开始,会在未来落地到产品上。

根据智东西的观察,尽管麦克风阵列技术可以大大提升智能设备的远场语音识别能力,但当环境的背景噪声过大过复杂,机器在语音识别上还会存在问题,而唇语识别或许是一个很好的补充,通过直接读唇的方式也可以不受环境噪声的干扰。

“就是把语音识别和唇语识别做到很好的结合,让唇语识别起到辅助作用”,陈伟表明了最初做这件事的动机。尽管唇语识别的准确率还不够高,但是通过限定场景,扮演辅助角色或许可以进一步提升远场语音交互的准确性。

三、唇语识别之痛:泛化性

谷歌的DeepMind团队在去年11月份也展示了其唇语识别技术,当时它的识别率接近50%。可以说,搜狗在唇语识别上又往前走了一步。

搜狗唇语识别团队谈到,搜狗语音技术中心重要做的就是自然语言交互,主要深耕车载和智能家居场景,而在面对远场噪音环境识别准确率下降的情况下,除了麦克风阵列外,还想到了通过唇语识别提升语音识别这条路。目前这项技术已经开展了1年左右。

当智东西问及唇语识别中最大的难点在于哪里时,该团队称在于唇语识别的泛化性。比如电视中的主持人在发音、唇形都比较标准,就可以做到70%左右的唇语识别率,但是普通人在唇形方面差别很大, 唇语的识别率就会下降很多。此外中文语言的复杂性,往往一个唇语特征对应多个发音单元,比如“can/zang”,这就大大提升了唇语识别的难度。

12141-6

针对人的泛化和场景的泛化等难点,搜狗一方面通过各类新闻、电视节目的数据进行训练,另一方面还通过搜集大量普通人的唇语数据进行训练,一定程度提升了唇语识别的泛化效果。而进一步具体到车载、智能家居场景中,又通过限定场景、限定词的形式,对唇语识别的准确性做了进一步优化。

12141-3

智东西也现场体验了这套唇语识别技术,比如在车载场景中的一些常用语以及家居场景下的诗词等,均有不错效果,但通用的唇语识别还有待进一步提升。

结语:场景落地尚需时日

只有一项技术可以落地,可以商业化才能真正体现出其价值。在未来场景落地上,搜狗唇语团队谈到,一方面可以和语音识别技术相结合解决远场环境下的语音问题,另一方面未来也可以将唇语应用到验证、安防等领域。

但是由于通用唇语识别准确率还较低、泛化性较差,其技术落地或许尚需时日。而限定边界、扮演辅助角色或许是唇语识别走向应用的第一步。

zhidx