智东西(公众号:zhidxcom)
文 | 寓扬

在人工智能的舞台上,微软小冰可是一个明星人物,凭借着“邻家女孩”温柔可人的“形象”,可谓风靡万千少男少女。

自2014年诞生以来,在微软亚洲互联网工程院诸位“爸爸”的培育下,小冰也在不断实现自身的升级,目前已经成长至第五代,除了写诗、当主持人之外,小冰也开始与硬件相结合,落地米家生态链Yeelight。小冰也开始从最初的情感陪伴转向一个面向家庭的生活助手。

近期微软亚洲互联网工程院副院长、微软小冰全球负责人李笛、微软小冰全球研发负责人、首席架构师周力首次公布了对话式AI的最新框架——Session-oriented(面向对话全程)。给智东西印象最深刻的一个观点是,在小冰团队看来国内对话式人工智能整体的发展像堆积木,而没有更多地探索底层框架的设计,这就大大限制了对话式AI的发展。微软小冰正试图采用一种新的底层框架,来改善现有的交互体验。

对话微软小冰李笛:如何让小冰流畅的与人交互?

(左为微软亚洲互联网工程院副院长、微软小冰全球负责人李笛,右为微软小冰全球研发负责人、首席架构师周力)

一、“十字路口”的陷阱

微软小冰正在做的是“全双工语音交互”,所谓全双工可以理解为实时交互、双向交互、连续交互,就像人和人打电话一样,它可以实时的聆听并与你沟通,这样做的好处就在于对话式人机交互更加自然,更符合人与人交互的体验。李笛称目前国内的对话式AI都不能算是全双工,最多算半双工,而核心原因在于底层框架的限制。

他将基础框架的理念分为两种:Turn-oriented(面向单个任务)和Session-oriented(面向对话全程)。

对话微软小冰李笛:如何让小冰流畅的与人交互?

所谓Turn-oriented就是面向单个任务的编程,简单的表现就是一问一答,通过最少的多轮对话帮你把任务完成,目前国内大多数对话式AI沿用这种思路。

而Session-oriented不是这样,它首先关注的是一个更大范围的全程的对话,更加关注整个交互过程质量的高低。这也是目前微软小冰采用的基础框架。

为了更好的理解,李笛将这两种框架的区别形象的类比为日常的事物。他将Turn-oriented比作“来自十字路口的对话”,它就像一个十字路口的“民警”,当你发出指令后,它会快速的把你引导到一个方向,完成任务后就把你拉回十字路口,然后一切归零,如此往复。当没有办法把你引导到一个地方时,过去就会通过搜索引擎的方式提供一些搜索信息。这样做的好处就是能够快速完成任务,但它的弊端就是你一直处在十字路口,忽视过程的体验。

对话微软小冰李笛:如何让小冰流畅的与人交互?

相比而言,Session-oriented的对话像“河流”,它会从一个任务往下一个任务走,这个任务可能会进入到进一步的交流甚至闲聊,随着进一步交流可能引发出新的任务,就这样走下去。在这样一个“河流”中,整个过程对话质量的高低要优于单个任务的完成,这样的对话体验就更优。

此前Facebook、亚马逊、苹果等采用的也是面向单个任务的交互框架,比如你跟Siri对话,每次可能只能说一两句,否则就不能很好的完成,我们从前端上认为它不够机制、系统不够好,实际上是底层框架的问题。而近期种种迹象表明他们都在向Session-oriented的技术方向探索,李笛称这将会是对话式AI未来1~2年的一个重要发展方向。

李笛进一步强调到,Turn-oriented这种面向单个任务的框架的上限决定了它未来的发展空间。一开始Session-oriented框架下的交互可能会用惨不忍睹来形容,但是一旦它越过某一个节点,就会有很大的发展空间。

二、全双工交互四大技术细节披露

微软小冰的全双工语音交互正是基于Session-oriented的框架进行的,更加关注整个对话全程的交互。但要实现这样一种全双工、自然的交互有很多技术需要突破,微软小冰全球研发负责人、首席架构师周力分享了四大技术进展。

第一个技术表现是“边听边想”,通过预测模型和动态回应来实现。所谓预测模型是小冰不在等到用户一句话说完再去进行语音识别,而是每听到一个字,就会提前预测用户整句话的完整意思。而动态回应也不意味着用户输入一条,AI回答一条,而是会根据提前预测的用户意图进行“思考”回应,并根据最新获取的信息来调整输出结果。

对话微软小冰李笛:如何让小冰流畅的与人交互?

这样做有两个好处,一方面可以让对话式AI的回答速度变得更快,另一方面在处理一些复杂的情况,它可以不拘泥于“我要回消息”,可以使用更好的对话策略。比如在“开灯”这个指令下,它识别这个意图后可以先说“收到”,等这个灯真正打开之后再说已经帮你把灯打开了,体验效果就会好很多。

第二个技术表现是“节奏控制器”。在全双工的对话中,节奏感会变得很重要,比如用户说的第一句话很重要,或者第一句话还有很长时间要说,这时候AI不但需要与自己协调也要与人类协调,通过不同的应对策略,来选择重复、跳过,甚至打断用户。

再比如用户突然不说话了,AI能否更具上下文抛出新的话题,或者维持既有的话题,从而打破沉默。这意味着AI将具有更多的主动性,是目前语音助手所不具备的。

第三点全双工的语音交互可以通过分类器、环境处理、对象判断等从而实现声音场景的理解。首先语音身份识别是对话的基础,首先AI要识别是男的、女的、儿童,如果要对着一个男的垮“姐姐你好漂亮”就不合适。通过对用户喜怒哀乐的识别,也可以采用不同的对话策略,从而增强用户体验。

对话微软小冰李笛:如何让小冰流畅的与人交互?

环境的处理也很重要,通过环境的识别,如果在一个嘈杂的环境中AI自然需要放大声音,但如果是谈一些私密问题时,就应该降低声音,来体现说话的艺术。此外对象的判断也很重要,家庭环境中AI需要通过声纹识别识别出爷爷、奶奶、爸爸、妈妈等不同人的身份来选择不同的对话。

第四点在于自然语言理解和生成模型。在对话过程中,AI首先需要先理解它在做什么,从而根据场景调整对话策略。周力形象的解释到,比如在播放故事的场景下,你想要调节音量,它可能只是灯亮一下来显示音量的调节而不影响用户听故事。

而生成模型意味着小冰的每一句话都是“自创”的,每一次回答都可能根据场景进行变化,而非之前通过数据库检索获得的。在一个以连续的流作为对话基石的时候,生成模型作为一种对话的技术,变得越来越重要。

三、底层框架决定发展潜力

正如微软亚洲互联网工程院副院长李笛所说,目前国内对话式AI大多是单个任务的框架设定的。智东西此前也采访过不少做NLP(自然语言处理)的公司,如三角兽、竹间智能、蓦然认知、海知智能等。NLP一直是人机交互的瓶颈所在,尤其是通用NLP更是如此,在这种情况下,出于实用主义考量,通过限定边界场景,NLP开始落地某一具体的场景。最初为了让AI看上去更加有用,国内大多采用基于任务导向的一问一答式对话,从而尽可能完成用户的任务。

对话微软小冰李笛:如何让小冰流畅的与人交互?

而微软小冰关于Session-oriented这种“河流”式的面向整个过程的对话,听上去很美好,基于现有的NLP技术能否实现呢?智东西便把这一问题抛给了周力。

周力坦言对于NLP的问题包括学界都还是一个没有很好解决的问题。从小冰的角度讲,他们采用的方法是各种技术的综合,包括深度学习技术、也包括搜索技术、决策树等,综合起来达到一个更好的效果。

另外从全双工的角度他继续解释到,自然语言处理的能力其实只是小冰实现很好对话其中的一个小部分,它还要包括场景识别、结构控制等。尽管从NLP来讲整个业界可能还有很长的路要走,但是从客户体验来讲,只要找对了方向,找对了路,是可以在未来一两年有非常大的突破的。

李笛也补充到,到今天为止,他们也不能说小冰对话非常好,但这里面框架起到了决定性的价值,当我们关注全局的时候,一“地”的得失,无论是我们还是用户,一定程度都能够谅解,但像“十字路口”式的对话就没有办法了。

可见在他看来,并非NLP本身变得更加重要,也并非NLP变得怎么样小冰的对话就会很好,他强调的重点还在于底层框架,面向整个对话过程的对话机制才有更大的潜力空间。

对话微软小冰李笛:如何让小冰流畅的与人交互?