10231-1

傅盛All-in的这家AI公司 过去一年究竟做了什么?

寓扬人工智能2017/10/23

智东西(公众号:zhidxcom) 文 | 寓扬 猎豹移动CEO傅盛曾谈到,2016年是特别艰难的一年,他称“ […]

智东西(公众号:zhidxcom)
文 | 寓扬

猎豹移动CEO傅盛曾谈到,2016年是特别艰难的一年,他称“移动互联网的上半场结束了”,并且这很快就会发生。而作为一家移动互联网工具和内容提供商,猎豹移动又将何去何从?

傅盛给出的答案是AI,是机器人。在2016猎豹CONNECT大会现场,傅盛就曾表述,将成立机器人公司,倾家荡产也要进军人工智能领域。而这家傅盛押注未来的人工智能公司就是猎户星空,去年猎豹移动又为其投资4000万美元,助力其在AI领域的研发和技术落地。

但这家公司又显的十分低调,小雅AI音箱语音技术提供商、TTS做的不错、人脸识别技术获过奖,这是智东西对猎户星空的直观印象,除此之外这家公司到底做什么?核心技术是什么?团队规模、构成怎样?在整个猎豹体系中是什么地位?我们都不得而知。

10191-9

(猎户星空首席科学家闵可锐)

近期,智东西和猎户星空首席科学家闵可锐展开对话,看看历时一年,傅盛押注未来的这家AI公司究竟做了什么?

一、三大业务:语音、视觉、硬件

猎户星空是猎豹移动旗下的AI公司,创立于2016年9月。公司初创团队来自谷歌、微软、英特尔、国内的BAT等公司,博士占比接近五成,可以说是一家技术导向性很强的公司了。经过一年左右的发展,目前猎户星空团队的规模已经达到200人左右。

猎户星空的主要业务大体可分为三块,分别围绕语音、视觉和硬件展开。第一块业务是围绕语音打造的一整套语音交互技术,这块业务占了约一半左右的员工,是猎户星空占比最大的业务。

闵可锐谈到,围绕语音交互,猎户星空打造了一整套的技术,包括从前端信号处理到唤醒、语音识别到自然语言处理再到语音合成,它都有专门的团队在做。比如喜马拉雅的小雅AI音箱使用的就是这一整套技术,小米AI音箱、小米电视等都使用了猎户星空的语音合成以及远场语音识别技术。

10191-3

第二块主要业务是视觉,目前围绕图像识别和人脸识别展开,并将相关技术进行落地。比如猎豹内部使用的人脸打卡就使用它的人脸识别技术。猎户星空也在和猎豹旗下直播社交产品展开合作,如在国外的直播软件Live.me中,做直播审核相关的监测,也在合作做一些手势检测的技术。

第三块则是硬件,但目前猎户星空还并未推出硬件。“现在所谓的智能硬件,声音也好,视觉也好,感知也好,其实可以做到更加一体化”,闵可锐谈到。可见猎户星空的硬件团队也在积极备战中,预计下一阶段也会围绕视觉、语音推出一些硬件产品来。

二、从唤醒到NLP,专注全链语音交互技术

在语音交互方面,猎户星空打造了从前端信号处理、唤醒、语音识别、自然语言处理到语音合成一整套语音交互技术,与行业中专攻某一领域技术的创业公司相比,猎户星空又是否有优势?

闵可锐谈到,一方面在每一块具体技术上,猎户星空都有专门团队在做,因此在这个链条的每一块都有积累。另一方面,猎户星空更加看重用户的交互体验,一旦这个链条的某一环节出现问题,给用户的整个交互体验都是很差的,这需要更多的从整个链条上去打磨技术。

比如,在小雅音箱的语音交互中, 猎户星空不但在每一块技术都有相应模型指标跟踪,而且还会针对小雅音箱评测端到端的感知,进而从整体优化技术。“比如业内同行可以在语音识别上达到95%左右的准确率,但是我们通过后面自然语言处理模块,可以做很多纠错工作,这样就可以提升三到四个百分点的正确率,用户的体验就会更好”,闵可锐谈到。

目前,猎户星空也在尝试一些模型, 比如把语音识别以及后续的自然语言做成一个端到端的训练。这相当于不用先听一遍语音得到文字,然后再通过自然语言纠错做第二个处理,可以将这几个模块结合在一起,做一个更加端到端的解决方案,从而减少中间过程的损耗。

传统语音识别和语义理解是两拨人在做,但猎户星空两个团队对前后端技术都有积累和构建的能力,这样做的优势就是在优化端到端模型的时候能够以用户可感知的正确性为目标。而像单纯的语音识别或者语义理解的准确性用户是难以感知的。“但用户真正关心的是发起指令后最终的准确率,通过深度神经网络技术,让很多特征可以被自动提取,反而端到端的解决方案能够达到更好的效果”,闵可锐表示。

目前很多智能硬件产品在语音交互上,都是采用多家技术共同完成,从拾音到语音识别再到语义理解,如果每一块都采用不同厂商的技术,那么模型之间的适配性就是一个问题,更不要说通过整个语音链条上后方的技术来优化前方的技术了。而猎户星空从整个语音交互链条出发,或许提供了一种不错的优化用户体验的方式。

此外,闵可锐也谈到,尽管猎户星空是一家技术导向的公司, 但是其技术的产品性也很强,更加注重落地到场景和产品中。通过对产品形态和场景的定义,技术也能够更好的落地。这也正符合傅盛一直谈到的“通过技术和产品落地的结合来打造用户体验”。

三、上百声优打造“邻家女孩声”

从小雅AI音箱再到小米AI音箱,都使用了猎户星空提供语音合成技术,其温柔的女声也收到很多人的欢迎。

闵可锐谈到,市面上有一些标准化的解决方案,许多产品不考虑用户的感知体验,往往直接拿来使用。但是猎户星空从产品端认为声音是影响用户体验很重要的一个场景,相当于移动APP的界面,因此在语音合成上花了很多功夫。

首先在人声选型上,他们面试了上百个声优,选择音质有特色且符合产品定位的声优进行签约,并在录音棚搜集大量的声音,通过技术加工以及数据精标,打造而成的。所以大家觉得可辨识度较高,声音的亲和度也比较大。

10191-8

(小雅AI音箱)

而在自然语言处理上(NLP),传统NLP是一个多分类的问题,这依赖资源数据的分类,需要把前一个阶段执行的非常正确。分层次做的好处是简化问题,但是一旦前面一个阶段出现问题,后面一个阶段就很难识别用户的意图。

猎户星空在NLP上的第一个版本用的就是这套逻辑,而目前他们在做新模型抽取的时候,会把资源数据结合模型数据放在一起考虑。这里采用的模型是更加复杂的结构化的方法。所谓的结构化,比如用户说的一句话是有结构的,主谓宾的语法对这个结构形成了比较强的限制。此方法仍然属于判别模型,不过带有更复杂的结构,通过模型建模这些结构之间的依赖关系,达到一个更高的准确率。

此外,犹豫发问和模糊搜索也是猎户星空的两个亮点。传统NLP的数据处理往往是一个比较正式的文本,但对于用户的口语数据而言,就必须要处理非正常的情况,比如用户说话中主谓宾缺失怎么办?用户说了一半“嗯”半秒怎么处理?对前面内容做了修改怎么办?猎户星空可以通过机器学习的统计,从而在上下文的基础上判定用户是否说完了。

而在模糊搜索上,传统的NLP则假设语音识别准确的基础上去搜,但是如果用户发来的语音识别结果是错误的,那么可能最终的结果也是错误的。这也是为什么猎户星空要做更端到端的方案,减弱中间过程的损耗。

通过模糊搜索,比如用户点的歌名在数据库中不存在,但是声音非常相近的一首歌是存在的,再通过用户高频点歌的习惯以及喜欢听歌的习惯,是能够猜出用户点的是哪首歌的,猎户星空在这方面也做了很多的优化。

闵可锐也谈到,更有挑战的是对有声资源内容的模糊搜索,因为很多有声资源名字起得很长,用户能够记得的只是关键词,这就需要在技术上做更多的模糊和容错。

四、猎户星空与猎豹体系的姻缘

猎户星空是猎豹移动旗下的人工智能公司,关于猎户星空的定位以及在整个猎豹体系中是一种怎样的存在,一直也是我们存在的一个疑问,我们也从闵可锐这里寻找到了答案。

大体而言,机器人,是猎户星空的主要方向。当然这个“机器人”是一个大品类的机器人,也包括现在的智能音箱,它构建了机器人完整的语音语义能力。未来,猎户星空也会将视觉应用其中, 构建更加一体化的机器人。而这也符合傅盛所谈的人工智能的破局点在于产品和应用的结合,真正的AI不应该仅仅有技术,而是真正和我们的生活结合起来的产品。

10191-2

对于猎户星空和猎豹而言,双方更像是一种互补的循环。首先猎豹为其提供资金支持,并且猎豹旗下的产品也为其AI技术的落地提供了场景。猎户星空也将自己的技术赋能到猎豹体系的产品中,帮助他们去优化服务以及产品体验,并通过用户数据来迭代技术。

成长在猎豹体系中的猎户星空,不必像其他AI创企一样为融资发愁,也不需要为了生存去布局暂时的技术落地,傅盛及猎豹也给了它相对宽松的空间,短期内不必为盈利而考虑过多。

在猎豹体系中,猎户星空更专注于技术研发,尽管它也做技术落地,但相较于对产品化更有经验的猎豹而言,将更多AI技术落地到产品和场景的任务则落到了猎豹身上。

五、通用NLP成行业最大挑战

当谈到国内整个语音交互行业的进展时,闵可锐表示才刚刚起来,通用NLP的挑战还很大。现在都是限定在具体的场景中去做,这样能够保证大多数交互可用,比如点歌用户的满意度就可以达到90%以上。

但就通用NLP而言,世界知识模型的建立是很困难的,而这是实现通用智能很重要的一步。比如“小明打伤了小红,他被送到了医院,他被警察带走了”,我们人很容易理解谁是谁,但是机器则很难辨别,因为它没有常识。

闵可锐谈到,小雅AI音箱发布后的这三个月,在NLP方面的准确率也上涨了五到七个百分点。这一方面通过用户使用来迭代技术,架构上也在做新的尝试。另一方面通过用户使用习惯挖掘出经常出错的点,然后在算法模型上进行弥补。

此外,他还谈到了行业中一些更具体更产品化的问题。比如儿童的语音识别准确率不高,一方面源于儿童的口音以及发音方法不同,更重要的是行业对儿童的数据搜集有限。另外,很多儿童玩具设备都受限于电池,能不能将识别能力做到更低功耗等都是当下的问题。

结语:智能音箱战火将燃向何方?

关于今年异常火热的智能音箱,但销量数据好像并不乐观。闵可锐还是看好智能音箱市场,他认为一定程度上智能音箱确实可以落地,存在可用的场景,并且出货量也在快速增长,通过用户对智能音箱的交互时长可以看出是远高于很多内容APP的。

可以看出,成立刚一年的猎户星空已经打磨出了一条完整的语音交互技术,而在视觉方面也在积极探索人脸识别等技术,在语音和视觉这两个领域取得了一定的成果,并且也在和猎豹体系中的其他产品进行互动,相互促进。

但正如傅盛所言,这个全新的行业才刚刚开始,大家都处于同一起跑线上,猎户星空能否实现傅盛的AI梦,最终还需要交给市场来评判。

zhidx