专访先声智能首席科学家:用语音对话系统教中国孩子说外语

智东西(公众号:zhidxcom)
文 | 李水青

导语:美国教授来中国搞AI教育落地,用语音对话系统教中国孩子说外语。

Alexander I. Rudnicky是卡内基梅隆大学的计算机科学教授,对AI和语音对话研究超过30年,近日,智东西就语音对话系统在AI语言学习上的应用对他进行了独家采访。

Rudnicky目前正致力于将语音对话系统技术落地在先声智能的AI教学产品上。Rudnicky认为语音对话系统不仅能用于功课辅导功能,还能通过对学生兴趣数据的分析与孩子产生情感沟通,建立信任。

但Rudnicky表示,目前语音对话系统技术仍需要突破“使对话前后一致”和“实现多模态”两大难点。要在AI教师应用上落地不限定场景的对话系统,可能还需要多年的努力。

先声智能成立于2016年4月,是一家提供B端服务的人工智能公司,垂直于基础教育领域,提供语言辅导服务。先声智能成立后两年内完成3轮过千万美金融资,投资方为联想之星、创世伙伴资本、思必驰,好未来等。

一、教授来中国:用语言对话系统教孩子说英语

Rudnicky博士是卡内基梅隆大学计算机科学教授,也是卡内基梅隆语言联盟的主任,从事AI和语音对话研究超过30年,有100多篇学术成果。Rudnicky也是先声智能CTO秦龙在卡内基梅隆大学的导师。

专访先声智能首席科学家:用语音对话系统教中国孩子说外语
▲从左到右为:先声智能CTO秦龙和他的导师Alexander I. Rudnicky

Rudnicky于2018年加入先声智能,“语音对话系统”是Rudnicky和先声智能主要的业务交集点。他了解到,虽然市面已有一些AI老师直播,但是通常只能进行“很傻”的问答,难以有多轮流畅的交互,效果并不理想。

据称,这次是Rudnicky第一次亲身来到先声智能公司,但Rudnicky会和先声同事定期“见面”。通过线上沟通,Rudnicky每周都会了解对话系统搭建进度,并提出类似“某些技术是否值得运用”的建议。

先声智能CTO总裁秦龙说,考虑到中美时差,和Rudnicky的沟通通常安排在晚上,计划30-40分钟的会议常常会开到一个小时。

Rudnicky表示语音对话系统对语言教学有两方面的作用。首先在功能上提供一对一的交互式指导,和用户进行复杂的多轮对话,并通过用户数据优化语言学习效果;然后是在情感上建立信任,语音对话系统能通过交互数据了解学生的喜好,进而让对话具有人情味。

目前,国内的智能音箱、智能客服等应用上已有语音智能对话,先声智能也刚开始将这一技术用到了天猫精灵的“先声学英语”AI老师上。“先声智能并不是第一和唯一家将语音对话技术用到AI语言教育上来的,但我们是在认认真真的做这件事。”秦龙说。

二、已实现限定场景的智能对话,两大难点待产业解决

Rudnicky说,在美国语音识别技术主要被用于智能客服、银行APP交互、车载系统、智能家居、娱乐休闲等领域,像客服、家居这些在中国也被应用的比较多了。

“但总的来说就是两类场景,一个是二人配合场景,比如在电话客服中,客服人员可以由对话系统取代;二是涉及到触屏的任务,用语言交互取代触屏操作。”Rudnicky说。

据了解,目前先声智能的语音对话技术的落地和市面上许多企业一样,适用于限定场景。Rudnicky说:“许多人都说,还有五年可以实现理想的机器语音对话,但明年问他们,这个回答还是五年。”

Rudnicky表示,语音对话系统目前有两大难点。一是多轮对话中出现“前言不搭后语”,尤其是出现指代不明的问题,这主要是因为需要的数据以指数函数增加,但实际可用的对话数据太少。

二是多模态,即除了语音,还通过视觉、触觉等多种感知来支持机器对话决策,比如眼神、唇语等。在国内有公司已称掌握了唇语识别技术进而将语音识别的准确度提升了30%,这也成了其的技术壁垒。

除了这两点,Rudnicky还提到了知识库方面的局限,虽然这个问题相对容易解决。国内有一些公司在内容库的处理上要动用上百人进行手动处理,这对中小型公司来说是不现实的,所以需要自动化。

三、单点技术已成熟,转向综合解决方案

Rudnicky所在的先声智能公司成立于2016年4月,是一家提供B端服务的人工智能公司,垂直于基础教育领域,提供语言辅导服务。

该公司的主要产品包括四个维度:语音测评技术、作文批改、智能对话、自适应学习,目前已经为百度、小米、猎豹、新东方、好未来、海云天等合作商提供综合多维技术的方案。

具体来说,先声智能的产品可以检测发音对不对、给外语作文打分改正、预知学生做对题目的概率以及和学生对话。

先声智能成立后两年内完成3轮过千万美金融资,投资方为联想之星、创世伙伴资本、思必驰,好未来等。

2018年3月和12月,先声智能获创世伙伴资本(CCV)及好未来数千万A轮融资;2018年12月11日,苏州思必驰信息科技有限公司股权比例由21.49%变更为12.74%。

据了解,早期思必驰为先声提供了语音识别、语音合成、人机对话技术支持。现阶段思必驰与先声智能的合作重点则放在行业交互和教育场景的交互上,双方将共同努力为全行业赋能。

结语:AI教师语音对话系统待升级,创企联合学界自我造血

Rudnicky教授认为,目前市面上落地的AI对话辅导产品并不智能,他希望发力先声智能落地的产品,使产品既具有高效的英语辅导功能,又能获得学生的情感信任。

AI创企的生存受到互联网巨头和专业语音技术公司的双面夹击,寻求学界的合作成为一种有力加持。许多AI创企的高管都来自世界名校,他们借助校友等资源为企业造血,以构建自己的技术壁垒,进而获得占领新兴垂直领域的竞争力。