【活动】三大因素促进智能语音爆发 未来能读懂人的喜怒哀乐

从10月12日开始为期七天的双创周在全国范围内正式拉开帷幕,深圳作为今年双创周的主会场,汇聚了大量国内外的创业团队及创新项目。在此期间,京东智能在深圳京东JD+智能奶茶馆举办了 “遇见未来——智能语音应用的裂变”主题分享活动。会上,灵隆科技有限公司总经理魏强、科大讯飞高级产品经理邹云贵、迪韵科技联合创始人兼CTO彭远疆,以及智东西联合创始人总编辑张国仁,就“智能语音未来—泛科技领域构建”为话题在圆桌论坛环节展开了深入探讨。

【活动】三大因素促进智能语音爆发 未来能读懂人的喜怒哀乐

左至右:科大讯飞高级产品经理邹云贵、迪韵科技联合创始人兼CTO彭远疆、灵隆科技有限公司总经理魏强、智东西联合创始人总编辑张国仁

灵隆科技总经理魏强表示,智能语音的爆发源于三个因素:1,无论是近场还是远场的语音技术,都已经非常成熟。2,互联网公司开始在智能家居的入口上布局;3,芯片业和半导体行业飞速发展,计算能力提高非常明显。

以下为现场文字实录:

深圳双创周氛围下,对创新发展有什么样的感受?

彭远疆:确确实实感觉到大众创业、万众创新,这次活动吸引如此多人参加是我没想到的。
我在深圳待了差不多二十年,每年参加高交会,跟这次感觉真的完全不一样,用一个词来总结的话,就是“热火朝天”。

邹云贵:这样的展会我也参加了不少,像高交会我每年也都去,而当前新技术和新的创业公司像这么蓬勃发展的还是第一次。我想这也是当前市场热情的表现。

魏强:第一感觉是热度高,对大众创业、万众创新的热。第二,今年做机器人的创业公司和创新产品非常多,这其实也是一个发展方向,像语音交互的、图像的以及智能的很多产品,代表着未来一段时间智能化产品的发展趋势。好的地方就是它能够催生更多的人机交互的新产品的出现,同时,反过来对技术的领域有更多的促进,因为创业公司出来,对交互的技术有更高层次的要求,对技术发展也会有一定的推动作用。

导致智能语音技术在同一节点集中爆发的因素有哪些?

魏强:我有三方面的思考。第一,技术方面。现在的语音交互技术,无论是近场还是远场,逐渐走向成熟,这是非常好的技术方面的互通。第二,互联网浪潮的带动,很多大的公司,像亚马逊、Google,还有国内的一些公司,想在智能家居和物联网家庭里面做一个入口和布局,是整体战略的一个体现。第三,芯片业和半导体行业的发展,现在硬件产品的成本越来越低,而且性能越来越高,为大规模广泛的推广基于高计算能力的智能化产品奠定了很好的硬件平台基础。

彭远疆:其实语音识别,从60年代起,相关的技术开始慢慢发展,到80年代用了一些神经网络,从那时起语音交互逐渐变得实用。大概在90年代中到90年代末,当时三星推出一款有语音播报功能的手机,当时非常火。但当时的技术确实不足以支撑智能语音的蓬勃发展,因为识别率不够高。从2012年开始,不仅是语音识别,图像识别以及其他技术都飞速发展。其实我从技术角度来讲,这是深度学习神经网络的一个发展,这个发展对整个智能相关的技术都有广泛影响,不管是图像识别还是语音识别,把识别率从以前的70%提升到现在的98%。真正使识别的效果落实到实际的应用中。这离不开技术的发展,没有后台构建大规模的语音模型和图像识别模型、神经网络模型,是没有办法支撑这样高的准确识别率的。从技术角度来讲,第一是神经网络技术的发展;第二是互联网技术的发展;第三是芯片业的发展,从这几个方面来讲,现在在智能语音交互方面是爆发点。

邹云贵:我觉得这个进展有三个方面:第一,我们公司选择了正确的技术道路,众所周知,语音识别门槛比较高,但是我们公司创业初期选择的是语音合成,所以我们从低门槛的东西赚到钱,然后再把收到的钱投资到语音识别当中,我们才能走下来。第二,我们自从上市之后,在资本上得到了非常多的支持,并且我们资本上的局限和投入的程度也得到更大的改观。第三,讯飞是非常专业、非常执着、非常专一的做一件事情,中国人的语音就应该由中国人掌握,我们自始至终一直做这个事情,所以我们的积累和磨炼到今天这个程度,做到很高的一个水平。

机器人的语音识别和语气的问题,该如何解决?

邹云贵:这个是语音合成的音色和角色的问题。第一个是需要有特色的声音,跟人的名气一样,有特色的声音,还要有一定名气,这个声音才能被大家接受。另外,也需要一定的时间才能精选出来。我们非常欢迎有实力的公司能够推荐相应的明星,跟我们来做这种音色的定制化或者特色化。

彭远疆:如果从成本和易用性来说,迪韵科技提供的麦克风模组,除了效果以外,考虑的就是降低成本。举个例子,我们之前是用国外一些音频的采购芯片,跟客户的交接过程中,客户不在乎是国内还是国外的,只要质量好就没问题。所以,我们跟国内的一些厂家联合,使用他们的一些性价比不错的全置的采集IC。我们把一些算法嵌到里面去,这样整体成本会下降,对用户或者客户来讲,价格更低,性价比更高。

叮咚(DingDong)的服务市场空间有多大?

魏强:在整个移动互联网方面,比较热的是助手机器人,它是一个入口或者一个平台。目前我们在使用手机的时候,要下载很多APP。未来重要的发展趋势,可能这些APP都不会存在了,我们手机上面可能只有一个APP或者只有一个入口,我们通过这个入口可以来听音乐、打车和做各种各样的功能。而所有的这些服务,都会在后台进行。我要做的只是把手机和后台云端进行连接,这是目前手机上的APP重要的方向。以外的产品,比如说像我们的音箱或者其他语音交互的产品,我们能够把所有APP里面用语音交互比较方便、比较适合语音交互的一些功能,都集中在我们的音箱上,或者集中在我们音箱的后台上,这样我通过音箱就可以得到各种服务,这种交互方式将来也会给用户带来极大方便性。用户不需要知道很多各种各样的信息,将来APPStore这种应用市场可能会消失掉,取而代之的是接入更多服务的一个云平台,我觉得这可能是未来最重要的移动互联网的发展方向。

想象一下有哪些场景可以用作智能语音的发挥?

魏强:叮咚(DingDong)音箱上线一年时间,我们从用户这里拿到各种各样的反馈,比如说音色,也就是个性化发音,这是语音技术未来发展的方向。此外,人和人交流不仅仅基于文本,我们说话的时候还带有很多情感色彩,一句话用不同语气说出来表达的意思是不一样的。目前我们的语音识别对语气的识别和理解还处于一个研发的阶段,如果将来我说出简单的一句话,它就能知道我高兴还是不高兴、愤怒还是悲伤,这些通过后台技术能够实现,对用户来说会是非常好的体验。

彭远疆:其实情感的识别很重要。从另外一个角度来,目前是语音识别或者智能语音产品使用的场景。比如说现在的会场,其实很难达到比较高的识别率。智能语音产品的使用,降噪发展到一定阶段,这个产品就会有新的亮点功能。举个例子,在银行或者餐馆接待的服务机器人,如果语音识别的技术处理好的话,这个市场会是爆发性的增长,这是一个方向。
另外,针对小孩和老人的市场空间很大。三四岁的小孩说话的时候,他有很多好奇的问题,而大人没有那么多时间陪他,这就催生了儿童教育市场,这是非常大的市场。从老人这边来说,因为有些老人的普通话不标准,他的表达方式可能不是很直白、很标准的方式,很可能是本地的一种说法和表达方式,那我们的语音识别方式如果能解决的话,对老人会有帮助,另外,包括老人的陪伴和情感交流,这都是非常大的市场。

邹云贵:第一是OTT和智能电视,OTT是机顶盒和智能电视比较多,但是点到自己想看的内容,语音是最快的解决方式。第二是车机,开车的时候用语音操作是比较强的需求。无论你找地点、找信息,还是找餐馆、加油站,通过语音进行回复是非常大的需求。接下来一个亮点是智能家居,用户在家里对家庭设备的设置,有很多空间可以挖掘,这些操作可以让大家变得更舒服。相信在人机交互方面智能语音也会得到很大的发展。