850-2

触控输入已过时!27页报告详解语音技术哪家强丨智能内参

小智头条 智能内参2016/06/09

为啥想用语音交互?懒得打字,解放手眼,避免繁琐操作,也有觉得和Siri聊两句还蛮酷的。

智东西(公众号:zhidxcom)
编 | 小智

刚刚过去的的WWDC,Siri成了苹果家各个产品的宠儿。本月初,互联网女皇一年一度的趋势报告透露的其中一个信息点是:人机交互新时代到来,语音正在成为人机交互的全新形式,是未来最有效的计算输入及反馈形式。

语音交互的意义在于,无论未来采取什么样的硬件,你可能都逃避不了这样的新型输入方式。无论VR,机器人,甚至智能家居,穿戴设备,智能汽车都需要嵌入这样的底层技术来构建新型交互模式,并提供更加智能化的体验。本期的智能内参我们推荐安信证券的语音识别产业报告给你,想要收藏报告全文可以在智东西(公众号:zhidxcom)回复关键词“语音”进行下载。

以下是智能内参总结的关键要点。

1.人机交互技术近两百年的发展进程。

1

最早期的电脑,键盘是唯一的输入设备,随着图形界面 GUI 的出现,形成“键盘+鼠标”的组合,然而精准点击鼠标和敲击键盘仍然需要较高的学习成本。其后,设备终端的越做越小进一步解放用户,手机触屏的出现真正摆脱了键鼠这一中间介质,做到所触即所得。尽管如此,利用触控操作手机或平板,仍然需要用户的手和眼睛全程参与。

语音交互这一方式进一步解放手和眼睛,减少感官占用从而改善体验。此外直接通过语言信息进行交互,在空间上拓展了与智能设备的距离限制,这一点智能家居方面优势明显,能够真正实现随时随地“Always-Online”的智能体验。相比键盘、鼠标甚至触屏,语音作为交互的学习成本也要更小。

1.2

2.语音交互技术的主要使用场景和使用原因。

随着移动互联网越来越多地成为我们接入网络的主要方式,人们不再需要强烈依赖办公桌进行人机互动,甚至于即使是办公行为也有更多移动办公的需求。

相应的,交互方式也越来越倾向于移动化,这样的移动化场景可以是你在家中的家务劳动或娱乐,可以是乘车出行,可以是运动与行走,也可以是移动办公。

在上述场景中,人们倾向于选择语音交互是由于下面的各类原因,解放手眼,避免繁琐操作,懒得打字,也有觉得和Siri聊两句还蛮酷的。

2.1

2.2

3.智能语音有哪些核心技术?

智能语音技术包括了识别和交互环节,融合了多种人工智能尖端技术。狭义上,智能语音技术主要是指语音识别,广义上,智能语音则可以分为识别和交互两大技术环节,其中交互环节又可以分为理解、搜索、生成三个子环节(服务、信息)。

3

4.五十年来语音识别准确率演变。

随着自然语言处理技术及硬件设备的发展,语音识别的准确率与响应时间持续得到改善,驱动语音交互方式快速渗透。从1970年到2016年,语音识别的数目量级呈几何增长,2010年开始,准确率已经达到70%,到今年的进展准确率则已经达到了90%。

5.1

人机语音交互的应用关键在于准确率与响应时间,语音识别技术日益成熟,即将突破量变到质变的临界点。百度、Google和其他平台的其中语音识别技术已经能够达到 90%~95%的准确率(低噪音环境下),目前正在向 99%准确率以及高噪音环境应用发展。

5.2

5.哪些技术的进步鼓励了用户使用语音交互技术?

6

语言识别技术和硬件发展驱动语音交互渗透率迅速提升。根据研究机构 Thrive Analytics 统计,2015年美国智能手机用户使用语音交互的比例较 2013年提升了一倍以上,而他们的用户调查同时显示软件/技术的改善是选择使用语音交互的最主要原因。

6.语音交互技术产业链介绍。

智能语音产业链分为三部分,分别包括智能语音技术提供商、后端服务提供商以及入口平台商。其中,智能语音技术提供商着重语音合成、语音识别等基础技术的研发,为下游的入口层提供基础技术支撑;以智能家居、个人语音助手、语音搜索为代表的入口平台则继续整合后端服务提供商(比如电商、本地生活等)为用户提供一站式的完整智能语音人机交互体验。

8.1

 

智能语音产业参与者可以分为两大流派:从科研实验室走出来的独立语音技术提供商以及希望抢占下一代入口的互联网巨头。作为科研驱动型行业,智能语音技术研究最早起源于贝尔实验室,斯坦福、卡内基梅隆等学校的研究为智能语音产业发展奠定了坚实的基础,苹果 Siri的雏形便是源自于斯坦福研究院联合麻省理工学院、卡内基梅隆大学等多家机构承担的美国国防高级研究计划局(DARPA)的CALO项目。Nuance也是源于斯坦福研究院的STAR实验室。

国内的语音技术公司同样大多都脱胎于中国科学院声学所、中国科学院自动化所、中国科技大学、清华大学、北京大学等科研机构。而随着语音日渐成为人机交互的重要方式,互联网巨头们为了争夺下一个入口,在智能语音市场也展开了疯狂的“军备竞赛” ,以亚马逊、谷歌、苹果、微软、百度、腾讯、搜狗为代表的巨头纷纷通过并购与自研推出自己的语音产品,加大对语音市场的争夺。

7.2

7.近年来巨头在语音交互技术上的布局。

随着语音日渐成为人机交互的重要方式,互联网巨头们为了争夺下一个入口,在智能语音市场也展开了疯狂的“军备竞赛” ,以亚马逊、谷歌、苹果、微软、百度、腾讯、搜狗为代表的巨头纷纷通过并购与自研推出自己的语音产品,加大对语音市场的争夺。

4

8.语音交互技术通过覆盖各类APP征服终端。

除了语音输入类APP本身,我们所熟悉的各类APP都已经支持语音的功能。除了那些年卖萌霸屏的汤姆猫,更实用的APP还是搜索和导航。此外还有语音阅读,语音记账,日程管理等等。

8

9.语音交互作为物联网的入口,强烈推动智能家居行业发展。

互联网巨头纷纷布局语音交互硬件产品,音响类产品成主流方案。因为这种音响类产品能够被方便地引入智能家居控制系统,辅助用户进行高效便捷的控制。 它们的核心能力则是低噪声环境下的语音识别能力,这一能力能够很好解决目前智能家居产品在交互信息入口方面的能力。

到2019 年,智慧家庭的渗透率预计达12%,市场规模超过1500 亿美元,且随着智能化的普及,该市场仍然具有很大的增长空间。届时,作为入口的智能音响设备,计算能力将得到大幅度提升,“音响”属性将被削弱,家庭智能控制中心的作用会得到加强,并且伴随一波销售热潮占据智慧家庭的核心。

9

当然,从智东西一贯的观察来看,除了智能家居,语音交互技术在上述提到的车载,甚至是穿戴,当然也包括VR,都是十分满足人们使用习惯,也符合使用场景的更人性化的交互办法。如今我们对智能化的要求越来越高,而语音交互就是软硬件更加智能化的表现。技术不够时,人类将就机器;技术发展了,我们也就挑剔了。

本文为智东西整理呈现,文中所有数据结论版权归原作者所有。

重要的事情再说一遍,可以在智东西(公众号:zhidxcom)回复关键词“语音”下载报告全文。

 


 

智能内参

权威数据·专业解读 读懂智能行业必看的报告

在智东西回复“智能内参”查看全部报告

zhidx201602