14

【主题演讲】科大讯飞王雯:人机交互有五大关键 AIUI引领变革

暮里京东智能:遇见未来--智能语音的裂变2016/10/10

AIUI人机交互的核心改变就是可以全面贯穿整个语音交互的链路。

640

“万物互联时代,以语音为主,键盘、触摸、图像、手势为辅的人机交互的时代已经到来。” 科大讯飞云平台总监王雯于深圳双创周期间参加京东智能举办的“遇见未来——智能语音应用的裂变”的主题分享活动上表示。而京东和科大讯飞联合推出的搭载AIUI技术的叮咚(DingDong)音箱则是对智能语音技术的一次突破式应用,是人机交互的新一代变革。

会上,科大讯飞云平台总监王雯针对AIUI技术进行了深度解析。据了解,AIUI于2015年12月在科大讯飞年度发布会上发布,这是该项技术的第一次正式面市。

人机交互的发展历程

从PC时代开始,人机交互离不开键盘和鼠标,这是当时最主要的人机交互方式;在手机的移动互联时代,大家每天用的是手机触摸屏、手写,手势的交互是这个时代非常主要的交互方式。“未来智能生活的时代,语音和视觉将是下一个时代的主要交互方式。” 科大讯飞云平台总监王雯这样认为。

在万物互联时代,以语音为主,键盘、触摸、图像、手势为辅的人机交互的时代已经到来了。近两年很多人开始接触智能语音,但会遇到这样那样的问题,比如说需要足够靠近麦克风、说话有口音机器不识别、周围环境太嘈杂需要多次唤醒等等,不过,科大讯飞云平台总监王雯介绍,AIUI就是人工智能的交互时代,是自然语音的人机交互界面,无论是从穿戴式设备,比如说智能手表、眼镜、叮咚音箱、机器人、智能家居,对AIUI的需求量都非常大,目前科大讯飞在对很多固定场景进行一些尝试。

人机交互的五大关键

“万物互联时代,人机交互的核心关键是与用户痛点具有很强关联性的。” 科大讯飞云平台总监王雯提出。第一,远场的降噪。用语音产品,不用离它那么近了,差不多五米的距离就可以把它唤醒;第二,实现方言识别。科大讯飞深耕语音十六年,已经支持二十种方言的识别;第三,全双工。以前的智能语音智能实现“听你说”这种识别的动作或者“给你听”做语音合成,但AIUI的记录就是听的同时也在说,并且可以随时打断它;第四,纠错。纠错在特定环境里非常明显,比如说开车的过程中要打电话给谁,要说出号码,但识别的设备总是识别不准,司机就会很烦燥,这时可以通过纠错功能替换或者更改号码中的几个数字等;第五,多轮对话,就是像人和人之间的沟通。“比如说我在讲天气这件事情,可能我提了杭州的天气怎么样,后面再问深圳的呢、北京的呢,机器会知道你在说同一件事情。”

AIUI人机交互的核心改变

AIUI人机交互的核心改变就是可以全面贯穿整个语音交互的链路,同时可以让整个业务融合的更加紧密。

传统人机交互的链路比较简单,但会出现上述提到的痛点,用的过程中有一个点断了,就需要对着机器来回不停的讲。如果没有“识别”清楚的话,就到不了语义的理解,因为识别的链路就断掉了,如果语义理解没明白,也没有办法反馈给你一个合成的内容,所以对于机器使用语音是有各种各样的实际问题存在的。

AIUI自然人机交互的链路比较复杂一点,讯飞将整个传统语音的链路做了各种各样的打点,通过硬件的技术、软件的方案去做提升。“实际上可以在音识别的部分实现定向识音,其实是一个平面就把麦克各个角度做了一个划分,麦克风会指向我的位置做定向的识音。做了定向识音以后,实现远场降噪等环节就会工作起来,包括在云端听写方面也可以完成完美的互动。在语义理解也是这样,在技术优化方面完整的向前迈进了一步。”

AIUI语音核心的技术方面,会有统一的接口和交互,接口上会有麦克风阵列、语音唤醒、对话识别、对话闲聊等等,做灵活的搭配。人机交互的解决方案有几种呈现,比如软硬一体化的服务,再比如技术服务的一体化,可以实现远场的交互,生物特征、身份认证和云端服务以及差异化的定制,这就是AIUI提供的一些标准服务。

AIUI人机交互的特性

科大讯飞云平台总监王雯表示,AIUI是面向智能硬件交互方案的一个平台级解决方案,无论是穿戴式设备还是家用设备,从机器人、到智能家居的解决方案,AIUI都可以提供最自然的人机交互方案。

它是如何实现远场的精准识别的呢?它会把噪音做一些识别,比如说环境的混响或者玻璃幕墙,从声学角度来讲,这不是一个很好的声学环境,因为声波打过去以后会弹回来,对于语音识别来讲就不是一个很好的环境,但是通过AIUI,可以有效的降低混响对语音设备的干扰。

背景噪声可以通过AIUI进行一些过滤,包括人声干扰、回声消除等。“比如麦克风声音技术,通过唤醒词把它唤醒之后,定向识音的角度一旦锁定我这个位置,我周围有三个人讲话,它就会做拒识,我说什么它识别什么,周围人聊天它不会受干扰。当然,他们如果想通过这个设备做交互,通过命令词的唤醒也可以,但是那个时候声源的指向会指向新的唤醒角度。”

另外,AIUI可以实现远场精准识别。首先,识音的距离可以达到五米,五米距离的语音识别率已经突破了90%,同时有国际领先的回音消除技术,消除量可以达到50db,无论是稳态的噪音抑制还是动态噪音抑制,也都可以得以体现。同时,麦克风还可以呈现360°声源定位。

方言的口音识别可以达到方言口音普通化的自识配,只要是普通化,无论是“川普”还是“广普”,差不多的普通话都能听得懂,专门的方言,比如说正宗的广东话,切换到广东话也可以识别。

全双工持续交互方面是AIUI跟自然交互结合最紧密的一种特性了。比如说唤醒+识别、循环识别,一直到全双工的交互,它是一个连贯的完成,可以识别一些无效的语音。“比如在跟机器沟通中,每一个人都有每个人讲话的习惯,可能有一些人在想我要问什么的时候,就会有“恩”、“啊”这样的语气词。AIUI会通过语音的语义分析,把这些语气词进行拒识,包括一些闲聊,也会根据语义的上下文分析进行拒识。”基于语义的断句也可以通过打点的方式来实现,甚至命令词和内容之间相差1秒的时间也可以清晰判断出来用户心里的命令到底要做什么。而且,全双工的模式也支持随时打断,支持主动式的交互。AIUI可以实现上下文对话的理解,也可以基于内容进行提问,所以可以实现和整个业务做深度结合。