对话阿里AI Labs聂再清:打造知识图谱平台推动语音交互发展

智东西(公众号:zhidxcom)
文 | 寓扬

2017年是以智能音箱为代表的语音交互火热发展的一年,这一年全球智能音箱销量预计超过3000万台,我国智能音箱销量也在今年实现百万台突破,而这背后更有来自从芯片、方案商、技术提供商、平台内容商以及代工厂商等整个产业链的迅猛发展,语音交互演变成下一代人机交互界面指日可待。

而在语音交互中,最难的部分就在于语义理解,这也是当下为何很多人称智能音箱为“智障音箱”的原因。为了在语音交互尤其是语义理解部分有更大的积淀和突破,阿里人工智能实验室(以下简称AI Labs)成立北京研发中心,并拉来微软亚洲研究院首席研究员聂再清博士担任研发中心负责人。

近期,智东西来到阿里北京绿地中心,在一个会议室内约见了北京研发中心的负责人聂再清,该会议室名为“华阳亭”,引自三国时期嵇康学习广陵散之地,想必是是阿里“花名”文化的一种延伸。我们就AI Labs北京研发中心、知识图谱、自然语言处理等问题与聂再清进行深入沟通。

一、发力语音交互后端的北京研发中心

在华阳亭会议室初见聂再清博士,只见他穿着蓝色条纹相间的羊毛衫和白色休闲裤,并露出真切的微笑。随着进一步沟通,聂再清给我们留下热情和蔼、务实健谈的研究员形象。

对话阿里AI Labs聂再清:打造知识图谱平台推动语音交互发展

(阿里AI Labs北京研发中心负责人聂再清)

聂再清在1996年和1998年分别在清华大学计算机系获得学士学位和硕士学位,并于2004年获得美国亚利桑那州立大学计算机科学专业博士学位,其主攻方向就是机器学习、数据挖掘等。

之后他便加入微软亚洲研究院,一待就是13年,主要负责微软自然语言理解、实体挖掘的研发工作,微软学术搜索、人立方、自然语言理解平台LUIS都是他曾负责过的项目。

今年9月,阿里AI Labs在北京成立研发中心,随后聂再清便离开微软亚洲研究院加入阿里,担任AI Labs北京研发中心负责人,并重点发力语音交互的难点环节知识图谱和自然语言理解(NLU)。

当谈及加盟阿里的原因时,聂再清笑称在微软亚洲研究院待了13年多,应该体验一下外面的世界。具体而言微软虽好,但更偏重于研究,而他更希望把技术落地到产品,做出一个有影响里产品,显然相比研究院在阿里更容易做成这件事。此外,他也谈到跟阿里AI Labs负责人浅雪聊的很对路,要做的事情和想法很合得来。

由于阿里AI Labs的定位为消费级AI产品,这也决定了北京研究中心的导向,但不同的是,北京研发中心会充承担更多基础算法研究和创新研究,也就是语音交互的后端环节,具体研发方向包括自然语言理解、知识图谱、机器学习、数据挖掘、计算机视觉、语音识别与合成等。而聂再清重点研发的方向就是知识图谱和自然语言理解。

可见阿里AI Labs试图围绕智能音箱等产品,在阿里云既有技术上,打造并完善整套语音交互技术,从而增强语音交互体验。但聂再清并没有透露更多阿里AI Labs北京研发中心的情况,例如团队数量以及成员规模等。

二、打造知识图谱生态

所谓的自然语言理解(NLU),就比如你在跟智能音箱语音交互中,如何把人的一句自然语言结构化变成可执行的命令。而这其中关键需要进行意图识别和实体抽取,例如“明天北京天气怎么样?”机器首先要识别这个意图是天气预报,然后抽取出相关的实体“北京”、“明天”,对应到知识图谱中一个机器能够理解的ID(唯一标识号),这样机器就可以执行命令做出正确回复。

其中知识图谱对于NLU有很大的价值,一方面任何语言交互没有知识图谱很难变成一个机器能够具体执行的东西,另一方面知识图谱能够帮助你理解很多东西。聂再清谈到,在实验中发现,运用知识图谱可以可以提升自然语言理解的很多精度。

知识图谱是一个实体关系链,是一个把非结构化数据变成结构化数据的过程,也会用到很多自然语言理解的方法。知识图谱可以分为两种,一种是常识图谱,如苹果是一种水果,北京是一个地名,常识的帮助是非常直接的;另一种是专业知识,比如垂直应用中的商品名。

一般来讲,知识图谱越全越好,有很好的常识,又将各个专业都放进去,就能够起到很好的理解效果。正是把自然语言映射(Map)到知识图谱上,才能够变成机器具体可执行的东西。比如“放周杰伦的歌”,周杰伦是一个歌星这样一个常识能够帮助机器决定播放音乐,就能够更容易理解用户的意图。

对话阿里AI Labs聂再清:打造知识图谱平台推动语音交互发展

(阿里智能音箱天猫精灵X1)

关于知识图谱的研究已经有些年头,本身已在可用状态,但对于一些常识图谱来说发展还在初步阶段。如果垂直行业又具有很大商业价值,知识图谱的建设就会更多更全,这样它对自然语言理解的作用就越大。目前机器已能够做到理解,但推理等能力还较弱。

智东西在此前采访中也了解到,限定具体语音交互的场景后,通过具体场景中的知识图谱构建确实能够提升自然语言理解的效果,可如何通过知识图谱提升自然语言理解的通用性呢?

这句话显然触动了聂再清,他提了提声音:“这就是我讲的平台的概念,所以现在急需一个生态系统,大家都在这一个平台上去编知识图谱,无论是常识性的还是专业性的,就会起到1+1>2的效果。”

知识图谱也是一个“体力活”,它涉及到各行各业,还有通用性的常识,一般商业价值明显的领域会率先被编成知识图谱,但更多的领域还有待行业的共同建设以及贡献。尽管行业也围绕通用知识图谱标准有一些建设,但目前各家的标准仍不一致,这阻碍了知识图谱的进一步发展。

对此,聂再清表示各家知识图谱标准的修改并不难,关键在于大家愿不愿意Open,现在大家更愿意Share。

三、提升语义理解的四大对策

随着深度学习的发展在自然语言处理(NLP)方面也取得一些进展。聂再清主要介绍了三方面的进展,一类是语言生成的运用,比如写稿机器人,微软小冰的写诗等;一类是神经机器翻译,用深度学习的方法也有很多进展;另一类就是最常用的语义理解,主要应用在语音交互中,比如天猫精灵中的语音交互。

如果将NLP放到一条发展线上,聂再清认为目前还处于中初期。如果说人工智能很难的话,那么自然语言理解和知识图谱就是最难的部分,目前AI大部分的进展发生在感知上,包括视觉识别和语音识别,但认知智能还处于中初期,到了一个开始能够商业化落地的阶段。

目前自然语言理解和对话管理都是NLP的难点性问题。聂再清谈到,自然语言理解最难的问题在于自然语言的多样性和歧义性,比如问明天天气怎么样可以有很多种问法,比如明天有雨吗,明天多少度等等,这是自然语言的多样性。歧义性是指有时候一个词在不同语境代表不同的意思,就很难把它变成一个意图或者ID。对话管理也是如此,即使自然语言理解很好,机器也可能不知道下一步要做什么,或者如何和用户很自然的对话,这又涉及对话策略的问题。

智东西此前也了解到,自然语言的多样性和歧义性很难在通用场景中直接使用,更多商业应用都会采取限定场景的方式,通过垂直细分场景来保证语音交互的体验,比如家庭场景的“餐厅”可能是点外卖,而车载场景的“餐厅”可能是导航。针对NLP发展现状,我们又该如何进一步突破呢?聂再清对此总结了以下4点对策:

其一,从公开大数据中积累更多的可替换词典和语义模板。以“请帮我打辆车”为例,“请帮我”有很多说法,如“麻烦帮我”、“给我”等,“打车”可以叫“约车”等,这些同类词(或同义词)叫做可替换词典,它可以增强自然语言的通用性,能够很好的解决语言的歧义性问题。而语义模板侧重这句话中语义的顺序,不同顺序问答的积累,也可以解决一部分自然语言歧义性、多样性的问题;

其二,他希望建立一个知识图谱的生态平台,让大量的开发人员在上面去建立知识图谱,使用积累的知识图谱,不断扩大知识图谱在常识性和专业性方面的积累,即共建知识图谱,产生1+1>2的效果;

其三,随着语音交互进入千家万户,通过强化学习、深度学习等不同的策略,让机器在与人沟通中判断用户的喜好,并进行不断的自主学习和迭代,当有大量用户大量数据的时候,自然语言理解就会更准确和个性化;

其四,把知识库、知识图谱运用起来,让这些结构化的数据促进自然语言的理解。

此外,在NLP的应用场景上,聂再清谈到了机器翻译、语言生成、语言交互等,但他认为最大的商机还在于语音入口,这也是很多公司热衷的原因。但目前语音交互的爆款产品智能音箱也经常被称为“智障音箱”,他认为一方面需要在NLP上专注一个垂直的领域,并建立更全面的知识图谱,增强对用户画像的理解;另一方面也要对用户的预期进行管理,或者先落地用户不那么挑剔的场景。

结语:布局语音交互入口

2017年也是国内语音交互火热发展的一年,BAT等纷纷建立语音交互平台,并加紧技术落地,阿里的天猫精灵已经销量百万,百度DuerOS也加紧落地,目前已有130多家合作伙伴,腾讯叮当也在前不久宣布落地八大主要场景。

语音交互平台之争的加剧,将更需要对后端语音交互技术的积累和储备,阿里AI Labs建立北京研发中心更是直指知识图谱、自然语言理解等领域,加紧布局打造语音交互入口,以期在未来的竞争中占据更多主动权。

对话阿里AI Labs聂再清:打造知识图谱平台推动语音交互发展