8

【深度】“语音进化论”干货分享:智能语音的前世今生之语音技术(历史篇)

暮里京东智能:遇见未来--智能语音的裂变2016/10/10

语音识别-ASR,语音合成-TTS,这是目前知道的最多的两种语音技术。

9月28日,京东智能在北京京东JD+智能奶茶馆举办“遇见未来-智能语音进化论”主题分享活动,旨在通过对智能语音技术、应用场景及未来趋势的分析和讨论助推行业发展。
会上,灵隆科技首席科学家汤博士就智能语音技术的历史及行业的发展进程进行了生动的解析,同时,科大讯飞云平台事业部商务总监汤熙、北京小鱼儿科技合伙人兼销售市场副总裁李传刚、北京方正信息技术有限公司数码外设事业部总经理余斌、京东智能市场总监李俊周等行业大咖也对智能语音的现状及未来趋势进行了圆桌分享。

 

08

灵隆科技首席科学家汤博士

以下是灵隆科技首席科学家汤博士“智能语音的前世今生”演讲实录:

从一个参与者角度,对人工智能尤其是语音的发展过程还是比较清楚的,今天我就来跟大家分享一下,我的一些感悟。

这个题目是《智能语音的前世今生》。我们都知道,语音交互是一个很自然的一种需求,人们以前从键盘输入到鼠标,之后是语音,还有图象。2000年左右,比尔盖茨说语音交互会是下一代的主要交互手段,我个人觉得可能不是主要,而是主要之一,用户对于语音自然交互的需求是确实存在的。

大家都在讲,到底什么是语音技术?其实语音技术包含了很多小门类,比如说最主要的是语音识别-ASR,第二个是语音合成-TTS,这是目前知道的最多的两种语音技术。除此之外还有别的语音技术:语音转换,声纹识别,听音识歌,语音标准化判断等等。

1、语音识别是什么

我这次重点讲的是语音识别和合成。首先讲语音识别,最早的语音识别应该是50年代的贝尔实验室Audry系统,能识别十个英文数字,在科技史上大家都知道,有两个著名的实验室,一个是贝尔实验室,一个是施乐公司的实验室。贝尔的人当初就是觉得有趣就做了这个研究,但光是好玩、有趣还不能推动这个行业的发展,美国空军在60年代初提出了需求,那个时候进入了喷气式飞机的超音速时代,在飞行中会出现超过了7个G的过载,那个时候因为抗压服的性能还不适很好,飞行员身体被压着,无法对飞机进行有效操控,这个时候美国空军就提出一个需求:能不能用语音来控制飞机?也正因为这个原因,从那个时候一直到现在,美国国防部的DARPA都一直在支持语音技术的研究,到现在应该是50多年了。

所以从60年代开始大家开始做各种各样的语音识别的研究,提出了各种各样的方案,这时候做的比较成熟一点的是小词汇表的孤立词识别,支持一些命令词的识别,这就是当时的水平。

到了70、80年代就出现了很大的两个进步,语音识别中有很多技术问题,其中的两个主要问题是语音模型和语言模型的建立,在70年代有很大的突破,IBM,提出了用HMM来解决语音模型的问题,取得了很好的效果。而在80年代提N元统计模型也被提出,用来解决语言模型的问题,这两个方法成为了此后30年语音识别技术的主流方法。

在90年代初,卡耐基梅隆大学的李开复博士领头开发了Sphinx系统,这是一个历史性的进步,这是HMM和N元模型结合在一起语音识别系统,它是第一个非特定人大词汇量的语音识别系统。

这个系统是由大学开发出来的实验性系统,运行在服务器上,其实用价值有限。1997年IBM,推出了第一款商品化的语音识别系统ViaVoice,预装在当时的主流PC机上,有十几种语言的版本,那时候非常轰动,可以说90年代是语音识别技术发展的第一次高潮,有大量公司投入这个领域,如微软、Nuance、Intel、Motorola、Nokia、Sun、Dragon。

2、第一次高潮后的低谷:标志是大量公司纷纷退出这个领域

接下来是高潮后的低潮。2002-2011年。当时遇到的主要问题是语音技术本身遇到瓶颈,对于以朗读方式输入正规文本的语音识别率相当高,但是对于日常口语化的输入则识别率不高;另外当时对用户体验不够重视,没有从用户的需求出发研发合适的产品。

很多在当初投入语音研发的公司都退出了这个领域,比如说我们知道的摩托罗拉、英特尔、诺基亚,甚至开山鼻祖IBM,都纷纷退出这个行业的研究。

这个行业也有坚守者,谁呢?微软,还有一些后来新起的互联网公司对这个领域很感兴趣,开始投入谷歌、Siri、百度加入了这个领域,另外一些科技企业也投入这个领域的研究,如讯飞。

但是在这个所谓的低潮期阶段,研究人员也没有闲着,做了一个非常重要的两件事,一件是开源工具,比如剑桥大学开发的HTK,后来又有了Kaldi, Julius等工具,有了这些工具,让语音技术能够迅速的扩散。一个受过良好训练的研究生,大概三个月的时间就可以掌握这套工具,并且可以使用它来建立比较简单的系统。

另一件重要的事情就是数据准备,语音技术的开发需要大量的训练数据最开始的时候,都是个公司自己去收集,费时费力。后来成立了LC—STAR、TC-STAR等技术数据联盟,通过这个联盟,数据得到了分享,这也为技术的扩散打下了良好的基础。

另外,这个时期出现了一个影响深远的发现:深度神经网络(DNN)。2006年Hinton提出了深度神经网络的学习方法。它解决了多层神经网络的有效学习方法,而且学习算法的收敛性和层数无关。

2011年微软把它成功的进行了英文语音识别,2012年讯飞、百度先后把DNN用于中文语音识别,这就导致了今天第二次语音识别的高潮的来临。

我今天主要谈语音识别技术,DNN带动的人工智能领域的其它发展,那是另外的话题不在此展开。第二次高潮启动后,大量公司加入了该领域进行研究和开发。比如Amazon,云知声。

3、语音合成是什么?

我们再讲语音合成。语音合成的三个标准,第一是可懂、第二是自然、第三是有情感,我们中文叫抑扬顿挫,是三个不同的层次。目前来说,可懂已经不是问题了,目前的语音合成水平基本上做到自然这个层次,机械味不是那么浓,现在突破的主要方向是在情感方面进行进一步研究和探索。

语音合成的领域,其实起步也比较早,有的人认为是200年前欧洲开发出用机械方式模拟人声是最早的语音合成,但是如果从现代技术的角度来说,一般来说认为是从50年代开始,大家开始研究用计算机技术来做语音合成。

最早的方法是采用参数合成的方法。大家知道人的发声原理,为什么能发出声音来?三个环节,一个是振动源。第二是声带,第三是声道,人们设想分别用不同的数学公式来模拟这三个环节。然后把这三个环节串接起来就能模拟人的发声。根据这个原理,7、80年代人们发明了各种共振峰合成器,这个方法的优势是占用资源小,但缺点是可懂度低。

到了90年代,波形拼接方法被提出。大家发现,参数合成方法怎么改进都无法提高性能,大家就改用粗暴的方式,以中文为例,带声调的拼音音节有1400多个,每种都录几十个样本,使用的时候就把最合适的样本调出来并拼起来,形成语音,这种方式,很粗暴,但是有效。这里要提到科大讯飞,1999年科大讯飞成立,最开始就是使用波形拼接的方法。这种方式要提高性能,音库越大越好,当时最大的可能要几十个G,在当时一般计算机都达不到这个要求,只能在电信级别的服务器上运行。

大家开始设想,把语音识别的使用的一些方法运用到合成中, 人们把HMM模型引入,用来训练语音库,这样大大减少了语音库的大小,这样就形成了可训练的语音合成方法。目前这个方法是语音合成产品的主流方法,占用空间大概在几十M,其性能不逊于波形拼接方法。

从2014年开始,大家开始把深度神经网络也用在参数语音合成里,最新的报道DeepMind用深度神经网络,提出了语音合成质量的自然度,号称是提高了50%。

当然,和语音识别一样,也开发了很多的开源工具,比如Festival,这也带来了语音合成技术的快速扩散。

4、智能语音是什么?

前面讲的是语音技术,现在大家说的更多的是智能语音。什么是智能语音?我个人理解,从两个方向来理解,一个是说在语音技术当中加入了智能的因素,比如说前面提到的DNNN,所以说语音技术智能了。

第二个是语音识别技术加上了自然语言理解,语音识别只是把语音变成了文字,要理解文字后面的意思是什么,就需要自然语言理解,所以说目前来说,如果要做语音产品,光有语音识别技术是不够的,还需要自然语言理解,能理解你说的话,那才叫智能语音。

自然语言处理是自然语言处理的一个分类。

自然语言理解目前来说有三种方法,第一是基于规则,就是找很多的语言学家来归纳总结语言规则,所以在刚开始的时候,在国内做自然语言理解的,不是中科院系统在做,而是社科院系统在做,他们有很多语言学家,他们总结了很多的语言规则出来。

但近些年,随着计算机的大幅发展,用统计方法来分析语言成为了主流,并产生了一门交叉学科,叫计算语言学。这样,很多不具有专业的语言学知识的计算机研究人员,都可以从事语言理解的研究。

还有一种方法,就是知识图谱的方法,它把规则和统计方法综合起来。