自然语音交互背后的京东智能音箱场景革命

智东西(公众号:zhidxcom)
文|漠影

2014年, 基于对语音交互应用未来的高度认可,京东与讯飞一起出资成立灵隆科技,旨在推出更好用的以语音为交互入口的智能产品,首选切入点是音箱产品,这就是叮咚(DingDong)音箱。

目前叮咚(DingDong)音箱和亚马逊Echo使用的技术和应用水平旗鼓相当,最大的区别在语音上,叮咚(DingDong)支持中文和简单的英文,而Echo只支持英文。除此之外最重要的一点是叮咚(DingDong)采用了科大讯飞最新的语音人工智能技术AIUI,将语音交互提升到一个新的层次。

通过技术拆解、解读,我们试图找出叮咚(DingDong)音箱所使用的AIUI语音技术的核心创新之处,如何让语音人机交互带来新的革命,继而赋予叮咚(DingDong)音箱这样的产品新的玩法和生命力,进而带来一场语音交互的场景革命。

自然语音交互背后的京东智能音箱场景革命

一、从智能交互到智能家居场景革命

首先我们需要了解的是,京东旗下叮咚(DingDong)音箱在搭载AIUI语音交互技术后,带来了哪些全新的体验和实现方式,以及可见的智能家居场景革命,至少带来三方面的改变:

1、让叮咚(DingDong)音箱成为体验最好的WiFi智能音箱产品。

从2015年启动的叮咚(DingDong)音箱项目,已经发展成为国内体验最好的WiFi智能音箱产品之一,目前销量在京东平台第一,超过所有前十品牌之和;在技术上的最佳体现就是远场识别、随时打断,以及在AIUI升级后实现的连续对话功能,在国内处于领先地位。

2、让叮咚(DingDong)音箱的使用场景更为丰富。

叮咚(DingDong)音箱可以让用户用语音操控微联平台上的上千款智能硬件设备,从而形成场景化的交互方式。

比如,你只需发出“我回家了”的指令,屋内的灯光、空调、加湿器、电视等一系列用户自定义的设备将会按照事先设置的程序自动开启。彻底解放用户的双手,带来前所未有的用户体验。

3、为京东智能云语音服务平台提供坚实技术基础。

基于叮咚(DingDong)音箱+AIUI语音交互的组合,京东智能推出了开放平台计划,让语音技术的未来想象空间进一步扩大,成为京东布局智能家居的一步大棋。

平台入口将接入第三方服务平台,首批接入的合作伙伴包括:中通快递、e袋洗、百度地图、京东到家、JIMI机器人等。众多合作伙伴的加入,为叮咚(DingDong)的入口布局带来了更加丰富的应用场景,不管是家政服务还是出行打车,用户都可以通过语音来完成。

未来通过叮咚(DingDong)与京东JIMI客服机器人的接通,用户更可以语音查询商品配送等信息。这种服务的升级,使得语音入口不仅仅局限于智能家居,而是支撑整个家庭数据生态的建立。

自然语音交互背后的京东智能音箱场景革命

二、AIUI的五大核心功能亮点

接着我们再来拆解解读背后的技术因素,AIUI是在2015年12月份讯飞的年度大会上首次推出,刚刚过去的10月份双创周上AIUI第一次正式面市,叮咚(DingDong)音箱成为首批搭载的产品。目前国内80%以上的机器人厂商使用了讯飞的语音技术,前沿的玩家都在用AIUI,特别是像京东将叮咚(DingDong)音箱这样的巨头推动案例的加入。

AIUI最核心强调的是“自然语音交互”,具体来说重要的是这几方面的体现:

第一、远场降噪,用语音同产品交互时,不用离它那么近,以叮咚(DingDong)音箱为例,距离五米内都能轻松把它唤醒。

实现这一点,主要是运用了回音消除技术,消除量可以达到50dB。无论是稳态的噪音抑制还是动态噪音抑制。还有音源定位技术,比如5麦克风的方案,定位锁定角度只有正负10度偏差。据悉,5米距离的语音听写识别率已经突破90%。

第二、实现方言的识别,科大讯飞深耕语音十六年,已经支持二十种方言的识别。

第三,全双工。以前人与机器进行语音交互时,有时候并没听你说,要么在做识别的动作,要么就是在说给你听。AIUI可以实现听的同时也在说,你可以随时打断它。

第四,纠错。纠错的功能,比如在报十几个数字的电话号码时,可以让机器用两个数字换掉另外两个,讯飞花了很多时间来做类似这样的细节体验。

第五,多轮对话,就是像人和人之间的自然语音沟通,比如在讲天气这件事情,你提了杭州的天气怎么样,后面再问深圳的、北京的,机器会知道你是在说什么,想问什么。

在交互体验进行大幅度的提升后,AIUI还针对不同的场景对其能力作了区分。首先具有统一的接口和交互,接口上面会有麦克风阵列、语音唤醒、对话识别、对话闲聊等方面,这几方面可以做灵活的搭配,从而呈现出不同的人机交互解决方案。AIUI的应用领域可延伸到车机、机器人、录音转写这样的专业市场。

三、如何做到和具备智能交互

叮咚(DingDong)音箱使用过程中的几个典型场景可以体现AIUI带来的智能交互体验,比如在沟通过程中,用户的语言有方言口音并不用担心,如果音箱正在播放音乐或讲故事,只要呼出“叮咚(DingDong)、叮咚(DingDong)”就能直接打断唤醒,再比如,即使相隔4~5米的范围,叮咚(DingDong)音箱也能灵敏地感知到。

上面几点是如何做到的呢?传统人机交互的链路比较简单,中间如果有断点,交互过程就会中断,从语音识别到语义理解到合成语音,任何一点的打断都会让语音交互的体验大打折扣,AIUI则是对这个沟通链条,进行了丰富和加强,特别是在人工智能方面。

AIUI的语音交互链条上,通过硬件、软件的技术进行一次大的提升。比如语音识别的部分,可以做定向识音;在硬件方面,四麦或多麦是一个平面就会把各个角度做划分,如果用户站在一个方向,麦克风会指向这个方向做定向语音识音。

有了定向语音识音以后,后面几个链路就会工作起来,可以实现远场降噪,环境内回音消除也可通过麦克风。在语义理解也是这样,在技术优化方面完整的向前迈进了一步。

四、结语:

总的来看,AIUI是面向智能硬件交互方案的一个平台级的解决方案,无论是穿戴式设备还是家用设备,到机器人、到智能家居的解决方案,AIUI都可以提供最自然的人机交互的交互方案。

很多特点已经在叮咚(DingDong)音箱产品上得以体现,在最近叮咚(DingDong)音箱公布语音交互开放平台时,就特别提到叮咚(DingDong)音箱升级最新系统后,可以做到一次唤醒连续对话,正是AIUI的典型功能特色之一。

基于出色的语音交互技术,在京东智能的平台上,通过叮咚(DingDong)智能音箱,让场景化的革命得以放大,不仅成为出色的语音交互助手、场景化的语音交互入口,更成为互联网服务的分发平台。

自然语音交互背后的京东智能音箱场景革命