科大讯飞研究院副院长王士进：面向自然语音交互的五大痛点与解决方案

智东西（公众号：zhidxcom）
文｜Lina

共同把脉智能+驱动，洞悉资本市场新规则。

12月8日，由九宇资本、智东西、犀牛之星、极果、六合咨询共同主办的“2016智能+未来峰会”在北京北京JW万豪酒店揭开大幕。在这场近六百人的行业盛会上，来自投资界、创业圈和产业链各方40余位大佬登台演讲交锋，围绕“新经济、新智能、新三板”主题，探讨产业变革中的投资机会、人工智能时代下的新消费模式、汽车的智能化未来等，带来最前沿的实践、思考和判断。

在下午的演讲环节中，科大讯飞研究院副院长王士进发表了名为“智能人机交互与万物互联产业浪潮”的主题演讲，详细解读了语音智能技术如何在具体场景中达到自然的人机交互。

以下为王士进演讲的要点精摘：

1. 在万物互联浪潮下，人机交互需要希望提供更智能的方案来完成交互工作。早期PC时代，键盘鼠标交互；中期移动互联网时代，多点触控，手写、手势交互，比原来爽很多；现在万物互联，我们进入智能生活方式，使用语音视觉再加上手势控制。以前我们是以机器为中心进行交互，未来会以人为中心进行交互。万物互联浪潮下，人根据语音的控制，根据视觉的控制，然后配合手的操作，完成整个的交互。

2.今天在很多场景里，人们都需要智能语音交互；然而现有很多产品存在问题：

讲话要静，这是大家原来用手机很大的习惯，实际上大家知道在语音举例远的时候，会有混响和噪声很多情况干扰，所以原来有一款，最早做语音识别我们做的非常好的时候，只要距离到了一米两米，甚至更远距离的时候效果马上会下降，所以现在的设备，你看有一些产品演示的时候要保持一定的距离，否则效果不太好。

发音要标准，其实我们大部分人普通话相对来说比较标准，有一些人通过后台分析的时候，发现有一些人其实普通话并不是很标准，甚至有一些人，基本上已经听不出普通话了，怎么样让大家都能够享受到这种人机，特别语音交互带来的交互的操作，其实也是一个问题。

环境要安静，也是一样的道理，我们在语音整个的操作的里面，最难的就是噪声，大家知道只要有噪声很多原来语音识别性能很好的，或者语音交互操作很好的，都会变的很难。

不能持续对话，无法对历史与上下文进行支持与识别。所谓的智能我们是希望机器人可以有更多的一些上下文的知识，更多基于人的一些历史上的信息，所以目前来说，可能很多的这种产品还达不到这样的需求。

3.针对以上几点，2015年科大讯飞提出了AIUI人工智能时代的人机交互界面，满足了五个基本特性——麦克风阵列硬件：远场降噪，如何在远距离，有噪声时识别；方言识别；全双工，支持随时打断，随时插入，更接近人与人之间的交流；纠错，利用上下文场景纠正语义纠错；多轮对话，在做例如订机票等比较复杂任务时需要多轮对话，机器可自主发起多轮对话。

麦克风阵列：五米之外满足远场的拾音和降噪还有回音消除，谷歌组织的语音比赛里，我们一个麦克风识别技术比较微弱的优势拿到第一名，多麦克风则以非常大的优势比其他竞争对手好很多，多麦克风的场景里面怎么做到远距离的，包括判断人的距离和方向和说话的内容，做了很多的工作。

方言的口语识别：现在已经支持接近20种，应该十几种方言，陆陆续续做更多的方言，希望更多的人使用到这样一个，甚至普通话不太好的人可以用到我们这一款产品。后面讲到，讯飞除了语音上面，语言上面做了很多优秀的工作，

全双工，刚才提到市面上很多以唤醒和识别为主题（的语音识别系统），还有循环识别，用户以后必须持续的说，否则说的背景知识或者类似这样会丢失。我们的支持持续的录音和连续的识别，这样方便我们人和机器做更好的交互。怎么利用用户的上下文的知识和用户的历史知识，使得语音是被不止根据一个问一个答。从今年年终开始起，这个技术非常热门，实际上我们做了很多工作，怎么利用历史信息跟更多用户个人的信息做更好的交流。

个性化可扩展的交互，实际上大家可以看到，用很多产品的时候，拓展性会很差，我们这里面，比如唤醒词，和京东合作的音箱可以唤醒，也可以其他的唤醒，和外面的交互，我们知道现在更多的互联，通过协议和外面的设备做互联。

一整套的解决方案，包括我们本地实现的这种软件和硬件的这样一体化，即有软件的服务，也有硬件麦克风这样的服务，同时有云端一体化，我们即提供互联网和移动互联网下面的服务，也提供本地的服务，同时还提供技术服务一体化的解决方案。

4.讯飞做了很多相关产品，讯飞听见：会议记录，将大会噪声回响。讯飞小译，中、英、维即使互译，随身携带，远程实时交流，很快就上线。讯飞助理，语音语义控制使得可以在电视里找到自己想要的内容；讯飞飞鱼汽车助理，汽车噪声环境下的语音识别，除了在国内做得好之外，讯飞在国际领域也做得很好；机器人，自然交互，个性化定制服务；开放云平台，从最早语音听写到现在的人脸识别、语音唤醒、语音合成等都做得很好。

以下为王士进在“2016智能+未来峰会”上的演讲全文：

我今天希望给大家分享一下，前面提到很多，万物互联的产业浪潮下面，我们希望提供一种智能交互方案，配合大家做很多的工作，讲智能交互之前，我们可以回顾一下电脑出现到交互的历史，早期大家很清楚，随着我们电脑的出现，以键盘和鼠标这种交互形式会成为我们当时最主要的这样一个形式，随着移动互联网的到来以后我们会发现，基于多点数控，基于手写和手势，大家使用手机和IPAD和平板的时候会发现用这样的方式在操作的时候，会比原来爽很多，这是用户的爽点。

随着现在物联网，万物互联很多类似于这样的一些智能的硬件，智能的设备出现的时候，大家会发现很多场合下面，可能并不是很容易能够用键盘，能够用手去控制。我们认为使用语音视觉和传统手的控制会使得我们的交互方式有非常大的提升，实际上以前我们人在交互的时候，其实是以机器为中心去做交互，我们围绕电脑，那么后来随着我们交互的发展我们会发现将来是一个以人为中心的，所有的设备都围绕这个人，人根据语音的控制，根据视觉的控制，然后配合手的操作，完成整个这样的交互，所以这是我想讲的。

将来万物互联的浪潮下面，以语音为主，以键盘，包括数控和图象，这样的一个交互时代的话，我们认为已经逐渐到来了，其实大家从刚才的很多PPT里面也已经看到了，我们再讲一讲产业的情况，今天很多相关的公司，那么大家会发现，在移动的一些手机的应用，包括智能家居的各个场景，视频里面看到的智能机器人的一些场景，包括穿戴设备，包括我们车载，很多场景里面大家都可以看到，在新一代的场景里面需要我们智能交互的产品去介入，那么现在的这种智能交互，特别是涉及到语音交互方面，其实大家可能体验很多产品，这些产品有什么样的一些问题？

第一个来说，讲话要静，这是大家原来用手机很大的习惯，实际上大家知道在语音举例远的时候，会有混响和噪声很多情况干扰，所以原来有一款，最早做语音识别我们做的非常好的时候，只要距离到了一米两米，甚至更远距离的时候效果马上会下降，所以现在的设备，你看有一些产品演示的时候要保持一定的距离，否则效果不太好。第二发音和标准，可以参照我的发音，就是说很多时候，其实我们大部分人普通话相对来说比较标准，有一些人通过后台分析的时候，发现有一些人其实普通话并不是很标准，甚至有一些人，基本上已经听不出普通话了，怎么样让大家都能够享受到这种人机，特别语音交互带来的交互的操作，其实也是一个问题。

环境要安静，也是一样的道理，我们在语音整个的操作的里面，最难的就是噪声，大家知道只要有噪声很多原来语音识别性能很好的，或者语音交互操作很好的，都会变的很难。第四点不能持续对话，无法对历史与上下文进行支持与识别。所谓的智能我们是希望机器人可以有更多的一些上下文的知识，更多基于人的一些历史上的信息，所以目前来说，可能很多的这种产品还达不到这样的需求。

我们在2015年提出，AIUI，人工智能时代人机交互的界面，并且2015年持续做，并且2015年我们又增加很多新的特性和功能，第一场远场降噪，怎么距离较远，很多场景，机器人和智能家居，五米以外怎么做到距离远有噪声的情况下能够语音识别做好，这是第一。第二方言识别，不仅仅带方言的普通话，甚至直接方言，也能够把语音识别以及语音理解做好。

第三点，全双工，我们知道人跟人之间的交流我们会感觉非常自然的交流方式，但是我们会发现，人跟机器交流的时候，其实可能并不像人跟人交流那么简单，原来我们跟机器交流就是我讲完以后等它的动作，它会给我一个反馈，这就是原来我们所说的一个正常的交互流程。那么现在新一代的支持我们随时的打断，随时的插入，那么这样大家可以想像，其实这样跟我们人与人之间的交流会很接近。

第四点，语音的纠错，因为大家知道，现在无论是我们也好，还是市面上很多其他的，语音识别的时候会有或多或少的错误，怎么利用到语音信息，利用上下文的场景能够把一些常见的错误做纠正。然后最后一点，多轮对话，其实我们是想完成以任务这种方式，所以大家可以看，讲话刘总的视频里面，其实很多可能有一些类似任务的，我们想订票或者做一些比较复杂的任务时候，我们通常人和人之间的对话，可能需要多轮完成，那么现在除了可以跟你本人，人发起的多轮对话，甚至机器在有一些可以自主的发起多轮对话来达到这样任务所需的条件满足。

下面我们看几个特性，刚才讲到跟远场相关的识别，这一块其实有四个，刚才已经讲了一些，第一个，这里面会有一个麦克风阵列硬件，其实我们讯飞做了很多年，最近这几年有非常好的突破，第一点刚才提到可以五米之外满足远场的拾音和降噪还有回音消除，谷歌组织的语音比赛，就是多麦克风场景下面，怎么把语音识别率做的最好，我们一个麦克风比较微弱的优势拿到第一名，讯飞多麦克风非常大的优势比其他竞争对手好很多，多麦克风的场景里面怎么做到远距离的，包括判断人的距离和方向和说话的内容，做了很多的工作。

第二点方言的口语，现在已经支持接近20种，应该十几种方言，陆陆续续做更多的方言，希望更多的人使用到这样一个，甚至普通话不太好的人可以用到我们这一款产品。后面讲到，讯飞除了语音上面，语言上面做了很多优秀的工作，2014年、2015年的时候，我们机器翻译里面相继拿了国际比赛第一名，今年拿了两个，一个是常识的知识表达和推理，还有一个也拿了知识图谱推理的第一名。我们在语音做了非常优秀的工作，使得我们知道你所说的内容是什么。

全双工，刚才提到，市面上很多，唤醒和识别为主题，要唤醒它，还有循环识别，说完以后必须持续的说，否则说的背景知识或者类似这样会丢失，那么我们的支持持续的录音和连续的识别，这样方便我们人和机器做更好的交互。第三点刚才提到的上下文，怎么利用用户的上下文的知识和用户的历史知识能够知道，不止根据一个问一个答，所以大家可以看到最近最热的是一个，从今年年终开始起，这个技术非常热门，实际上我们做了很多工作，怎么利用历史信息跟更多用户个人的信息做更好的交流。第四，我们叫做更多可拓展性，实际上大家可以看到，用很多产品的时候，拓展性会很差，我们这里面，比如唤醒词，和京东合作的音箱可以唤醒，也可以其他的唤醒，和外面的交互，我们知道现在更多的互联，通过协议和外面的设备做互联。

我们提出一整套的解决方案，包括我们本地实现的这种软件和硬件的这样一体化，即有软件的服务，也有硬件麦克风这样的服务，同时有云端一体化，我们即提供互联网和移动互联网下面的服务，也提供本地的服务，同时我们还提供各种服务。讯飞做了很多产品，希望和大家共同产业上面有探索和合作，第一件事情讯飞听见，智能会议系统，现在很多的这种大型的会议里面，因为我们知道，在大会里面大家可以听声音可以感觉到，噪声回响非常大的，目前讯飞是唯一一家这种场景下面能够把语音识别率做的最好，同时在会场里面还支持说话人角色的分离，所以现在很多的会议，比如原来在法院做庭审的时候用了我们的技术，原来三到四个小时可以做完的，用这个技术一个小时之内就可以做完。

第二我们讯飞听见，今年发布会推出一款产品，讯飞的小E，机器翻译可以感觉到，出国旅游，语言沟通是非常大的障碍，我们远场的识别推出这样一款翻译机，目前支持中英维，今年会增加八个语种的翻译，使得我们出国非常方便，很快会上。

同时还有一款讯飞的电视助理，大家知道互联网海量运行的内容，家里面操控人和电视有非常远的距离，这个里面怎么用语音和语义的控制使得我们精准找到你所需要的内容和资源，这一块包括国内很多的电视厂商，主流的基本上一线厂商和我们做合作，使得我们将来用到的电视，即可能电视是非常好的交互平台，也有可能电视的盒子类似这样的形式。

还有讯飞最新，今年发布会推出来的讯飞飞鱼的汽车助理，噪声非常强的场景，汽车连续两年，包括宝马、奔驰、通用组织的汽车与汽车噪声环境里面语音识别，讯飞在整个国际的性能评比里面都拿第一名，所以将来大家除了很多国产车里面能够看到讯飞的语音助理，国际的车型和车牌都会看到这样的技术。

讯飞在机器人场景做了很多的尝试，提供自然交互包括个性化的定制服务，人机融合做了很多的工作。

讯飞除了自己在做，还把相关的技术都在讯飞，我们叫做开放云平台里面提供，我们最早只提供语音听写，现在提供包括人脸和评测，包括唤醒，基本上刚才提到产品里面所涉及到的技术点，我们开放云平台里面都已经提供了，所以如果说大家有兴趣，都可以从我们开放云平台里面取得这样一些信息和帮助。

所以我们认为将来，在整个AIUI前台的人机交互和后台的智能服务这种场景下面，希望为大家提供一些更好的智能的人机交互解决方案。

相关推荐