Kaldi之父入职小米后首次亮相,小爱同学3.0未来三大趋势展望

智东西(公众号:zhidxcom)
文| 李水青

智东西11月21日消息,昨天,在MIDC大会“小米AI生态峰会暨小爱同学3.0发布会”分论坛上,小米语音首席科学家、国际著名开源语音识别工具Kaldi创始人Daniel Povey首次公开亮相,并分享了其下一代Kaldi计划。

小米人工智能部副总经理、小爱团队负责人王刚告诉智东西记者,小爱同学使用的语音技术本来就来自于Daniel开源的软件,Daniel的加盟将加大小米在Kaldi上的优势。接下来Daniel将主要参与“语音识别问题”的技术研发,涉及中英文混杂识别、方言识别等方面的问题。

Kaldi之父入职小米后首次亮相,小爱同学3.0未来三大趋势展望

同时,小爱同学3.0版正式发布,据介绍,3.0版是首个在手机上实现自然连续对话的语音助理,具有全双工自然连续对话、AI电话助理、男生版小爱同学等功能。

据统计,目前已有七大场景、40多类设备内置了小爱同学。截至2019年6月,小爱同学日活接近五千万,连接设备多达1.96亿台;截至11月14日,小爱同学唤醒次数达到341亿次。

Kaldi之父入职小米后首次亮相,小爱同学3.0未来三大趋势展望

除此之外,小米AI实验室主任NLP首席科学家王斌也首次面向公众,与小米公司的其它研发人员讲解了小米AI在视觉、语音、声学算法、自然语言处理、知识图谱、机器学习六大方向的进展。

一、“小米不是营销公司”,多年坚持“C-B-A”发展路线

小米集团副总裁、集团技术委员会主席崔宝秋说,近来,有人将小米定位为“营销公司”、“硬件组装公司”,这是对小米极大的误解。

崔宝秋介绍,小米自2012年以来坚持“C-B-A”发展路线,首先发力云平台,之后扩展到大数据和人工智能。2016年,小米将人工智能作为重点发展方向,一直将“AI相机”和“小爱同学”作为两条产品发展主线。在这个过程中,小米也一直非常重视人才的引进。

Kaldi之父入职小米后首次亮相,小爱同学3.0未来三大趋势展望

崔宝秋表示,小米在AI上具有硬件产品的能力、大数据获取能力及生态链的广深布局,这在小米智能手机及众多AIoT设备上都有应用体现。今天小米自研了1000多项技术,同时个人开发者为小米提供了近1700多种技能,这些都是“手机+AIoT”双引擎战略布局必不可缺的。

而提到小爱同学未来方向,崔宝秋说,把“一句话的事”变为“多轮连续对话”,把复杂的事用对话方式解决,是小米努力的方向。谈到小米近期发布的新品,崔宝秋表示其实新发布的手表、手机和电视就是微屏、小屏和大屏三款小爱同学。

二、Kaldi之父Daniel Povey加盟小米后首次亮相

会上,小米还迎来了一位“小爱同学”的强大助攻,国际著名开源语音识别工具Kaldi创始人Daniel Povey已成为了小米语音首席科学家。

Daniel Povey被认为是国际语言语音识别界的天才教授、语音识别开源工具 Kaldi 之父,在加盟小米前,其因奇葩学生事件被普林斯顿大学开除、拒绝Facebook工作机会的过往曾引起了圈内热议。

Kaldi之父入职小米后首次亮相,小爱同学3.0未来三大趋势展望

Daniel Povey向大家介绍了其下一代Kaldi的计划,其中包括在DNN方面使用PyTorch,增加Python接口,在PyTorch中执行LF-MMI等等。

Kaldi之父入职小米后首次亮相,小爱同学3.0未来三大趋势展望

小米人工智能部副总经理、小爱团队负责人王刚介绍,在Daniel加盟小米之前,小爱同学使用的语音技术就来源于Daniel开源的软件,Daniel的加盟将增加小米在Kaldi上的优势。

王刚告诉智东西记者,在小爱同学产品研发中遇到新的很多问题是主流研发体系中还没有遇到的,王刚表示,希望能通过与Daniel合作快速用基础技术研发来解决这些问题。接下来Daniel将主要参与“语音识别问题”的研究,涉及中英文混杂识别、方言识别等方面的问题。

三、小爱同学3.0:“多轮对话”,三种性格

会上,小爱同学3.0版也正式发布,据介绍,小爱同学3.0是首个在手机上实现自然连续对话的语音助理,具有全双工自然连续对话能力、AI电话助理、语音遥控器、小爱捷径2.0.、男生版小爱同学等功能和模式。

手机小爱同学负责人介绍,小爱同学3.0版的主要新功能是全双工技术。打电话等实时双向语音交互用的就是全双工技术,但对讲机、现在大多数的智能音箱用的是半双工。除此之外,小爱同学3.0还采用全新的交互框架。

Kaldi之父入职小米后首次亮相,小爱同学3.0未来三大趋势展望

▲小爱同学3.0采用全新的交互框架

在全双工技术的加持下,用户可以在一次唤醒小爱同学后,持续进行对话,即使被打断,也能够接着边想边说。由此,用户可以用小爱同学进行点外卖、购物、控制电视、接电话等操作。

▲用小爱同学点外卖

新版小爱同学3.0还新增了男声版,名为“青葱”。阳光的“青葱”与甜美的“蜜糖”,温柔的“茉莉”,形成了三种不同的性格,它们具有不同的声音和不同的话术,从而满足不同的用户需求。

Kaldi之父入职小米后首次亮相,小爱同学3.0未来三大趋势展望

会上,小爱同学与美赞臣达成AI智慧母婴战略合作。崔宝秋说,许多米粉现在也刚刚走出校园,面临参加工作和结婚生子,我们与美赞臣有共同的用户;小爱同学需要不断地学习,因此和美赞成合作进一步扩充小爱同学的知识库、知识图谱。

Kaldi之父入职小米后首次亮相,小爱同学3.0未来三大趋势展望

除此之外,蜻蜓FM也与小爱同学达成了新的合作,蜻蜓FM副总裁朱峰告诉智东西记者,三年前,小爱同学已经和蜻蜓建立了合作,而在当下5G和AIoT的风口上,面对小爱同学在不同场景中差异化的用户需求,蜻蜓FM将与小爱同学合作为用户精准匹配个性化的音频内容。

四、小爱同学七大应用场景、三大未来展望

小米人工智能部副总经理、小爱团队负责人王刚博士介绍,小爱同学语音助手已经进入手机、穿戴、家庭等七大场景。

其中,在车载场景,已经具备后装和前装的不同应用模式;在酒店场景,小爱同学已经和华住联合为帮用户解决住酒店的痛点。

Kaldi之父入职小米后首次亮相,小爱同学3.0未来三大趋势展望

目前,小爱语音助手已经入驻小爱触屏音箱、小米电视、小爱手表、小米真无线蓝牙耳机、智能行车助手、小爱老师等多种设备和程序上。据统计,截至2019年6月,小爱同学日活接近五千万,连接设备多达1.96亿台;截至11月14日,小爱同学唤醒次数达到341亿次。

通过对“米粉”需求的调查,王刚认为小爱同学语音助手在未来有三大发展趋势。

Kaldi之父入职小米后首次亮相,小爱同学3.0未来三大趋势展望

第一,小爱同学将更加无处不在。据统计,今年中国智能音箱市场达到5000万台,而未来,将有更多的设备会搭载“小爱同学”变得“能听会说”。

第二,小爱同学将进行更自然的交互。小爱同学将实现从“一句话的事”到“连续对话”的进化,能完成“语音点餐”、“语音教学”等更复杂的任务。同时,小爱将与更多的屏幕结合,并支持语音、视觉等多模输入、输出。

第三,小爱同学将更懂用户需求。其中包括还要更有趣、更有情感,变被动理解为主动提醒,以及变共性满足到个性满足。

会上,几款小米生态链新款产品的发布就让我们看到了“小爱无处不在”的理念。

新发布的米家激光投影仪搭载小爱同学,实现“开屏是投影仪,关屏就是小爱音箱”,售价5,999元。

Kaldi之父入职小米后首次亮相,小爱同学3.0未来三大趋势展望

将在12月上市的米家ZMI无线充蓝牙音箱能通过蓝牙连接到手机端,该产品支持20W无线快充,售价149元,是一款将走出国门的产品。

五、小米的六大AI发展方向

会上,小米AI实验室主任NLP首席科学家王斌首次面向公众介绍了小米AI发展的六大方向。

Kaldi之父入职小米后首次亮相,小爱同学3.0未来三大趋势展望

在视觉方面,团队从图像处理、人体人脸和图像理解三方面进行研究。在超级夜景、背景虚化、HDR中、魔法换天等相机功能中,AI算法可以将图片和视频进行很好的优化。在“人体识别”上,王斌演示了“不会因用户多次进出画面而失灵”的人体识别应用。

在语音方面,小米在语音识别、语音合成、语音唤醒及声纹方面都有深入的研究。端到端语音合成技术应用可以进行流畅的中英文语音合成、风格迁移。2019年6月上线的小爱老师还能够辅导孩子英语学习。

在声学算法上,小米主要在阵列增强、通话降噪、分布式声学上发力。除此之外,分布式声学能通过多个音箱为用户提供环绕立体声体验;未来,声学智能空间感知将为用户提供更智能的服务。

在自然语言处理领域,小米主要从基础算法、人机对话、机器翻译来建立技术护城河;在知识图谱上,小米着重做图谱构建,以及智能问答和智能客服应用;在机器学习上,小米的MACE系统已经被广泛应用,MACE-Kit也将开源,NAS自动化神经网络搜索技术也有较深的积累。

Kaldi之父入职小米后首次亮相,小爱同学3.0未来三大趋势展望

王斌说,小米AI技术已经赋能了小米多项业务,包括小米相机、手机通话、电视、互联网服务、有品电商等等。

结语:小爱同学的猛烈攻势,小米公司的技术正名

在本次“小米AI生态峰会暨小爱同学3.0发布会”分论坛上,小米不仅详细介绍了小爱同学3.0的全新功能和未来展望,还阐释了小米的“C-B-A”技术战略和六大AI发展方向,Daniel Povey这样的国际性AI技术人才也亮相,足以看出小米想在技术上为自己正名的决心。

随着智能语音助手发展进入瓶颈期,智能音箱的竞争也呈现出同质化,小米在“小爱同学”上的打法一定程度上为行业提供了参考,也让我们看到行业的部分趋势。

一方面,语音助手越来越不受物理硬件限制,电视、投影仪等设备在亮屏时是“自己”,在熄屏后都可以是智能音箱,这大大延展了语音助手的应用场景边界,AIoT能力、垂直领域深耕程度都成为重要的砝码。

另一方面,语音助手越来越需要具备复杂任务处理能力,从而满足用户实用性需求。这就需要在自然连续多轮对话、情感兴趣互动等功能点上发力。这些功能上的升级只有通过底层技术突破才能实现,并需要依托广泛的应用场景切入才有可能实现并发挥最大价值。道理也许都明白,主要看谁的动作更快,谁能啃下硬骨头。