这家潜伏三年的创业团队 要做语音交互时代的“应用商店”

智东西(公众号:zhidxcom)
文 | 寓扬

移动互联网时代,智能手机已经成为我们的“贴身之物”,我们每个人都是“手机人”。我们通过应用商店下载各种APP,来满足自身多样化的需求。可见,APP服务对我们弥足重要。

在语音交互入口下,我们的人机交互方式也将由现在的触屏转变为语音。同样我们也需要一个语音“应用商店”,承载各种语音技能,来满足我们多样化的需求。

而海知智能就是一家在语音交互入口下做“应用商店”和“APP”的创业公司,即专注于语义理解,提供第三方Bot开放平台和Skill开发工具。Bot可理解为聊天机器人,或一个虚拟助理,它可以实现人机交互,提供各种满足人们需求的内容服务。

近期智东西和海知智能CEO谢殿侠围绕语音交互入口展开深入对话,看看这家专攻语义理解的创业公司,潜伏三年究竟铸了把什么剑?如何看待风口下的语音交互行业?风口下又将作出怎样的抉择?

一、始于硅谷的创业团队

谢殿侠是一个非常健谈的人,有时抛出一个问题,就能滔滔不绝的谈论一番,再配上一阵爽朗的笑声,确实给人一种江湖豪杰“谢大侠”的感觉。

这家潜伏三年的创业团队 要做语音交互时代的“应用商店”

他略带调侃的讲起了和CTO丁力一起创业的故事。谢殿侠在北京大学读书期间,搞了一个几百人的“北大爱乐社”,而在这些社员中就有一个叫丁力的。后来他1997年北大毕业后,就去了方正技术研究院工作。2014年他在硅谷再次遇到了那个“丁力”。

谢殿侠一直在思考怎么让知识系统化,让知识流动起来,从而产生更大的价值,而多年的工作经历给予了他更多产品、行业、市场的经验。而丁力从研究生到博士以及后续工作都在学术界从事知识图谱领域的研究和实践。

经过几个月的洽谈,在2014年下半年,两人便决定围绕语义理解开始创业,深耕家居市场,做Bot应用,并在2015年拿了联创永宣冯涛的天使投资。

谢殿侠回忆到,当时几个因素促成了此次创业。其一4G开始普及,传统的智能硬件也刚刚开始,未来机器人、智能硬件将会对语音交互有巨大的需求;其二随着深度学习的发展,语音识别准确率大大提高,这样语义理解的前置条件就靠谱了;其三,传统知识图谱成本高,并且无法做到全、新、准,而2012年谷歌则推动了知识图谱技术的发展;其四尽管语义理解很难做,但是通过对边界的界定,是可以做出用户可容忍范围内的产品的。

以上条件的成熟,加上对未来智能硬件市场的看好,谢殿侠便和丁力便义无反顾地选择了自然语言处理(NLP)和知识图谱(KG)这个方向。当时他们乐观的认为1年左右市场就会起来,但预想并没有如期而至。

2016年上半年是海知智能的低谷期,智能硬件等业务并没有如期发展起来。尽管其技术也应用在了一些机器人中,如贤二机器僧,但整个行业生态没有起来。机缘巧合之下,海知智能介入了智能客服、智能分析员等业务,作为当下生存的变现渠道。

而随着国外亚马逊Echo的成功,2016年下半年国内在智能音箱等市场也起来了,许多企业开始找海知智能合作,其业务营收也随着风口而水涨船高。

目前,海知智能团队约50人左右,其中一半为研发人员,一半为产品人员。

二、NLP+KG打造技能平台

那么海知智能到底做什么呢?如果将语音交互拆开来说,大体可以分为以下过程:拾音唤醒、语音识别、语义理解、语音合成。大家耳熟能详的科大讯飞做的就是语音识别部分,它处理的对象是声音,将声音转换成文本;而海知智能做的就是语义理解部分,处理的对象就是文本,理解文本的意图,并调动相应的服务。

谢殿侠将这种能力称为Bot(智能助理)或者Skill(技能),“Bot的实质是它构建了一个领域的知识图谱,通过人能够理解的语言和人交流”。而在技术路线上,海知智能通过知识图谱+自然语言处理相结合的方式去搭建Bot平台以及技能插件。

这家潜伏三年的创业团队 要做语音交互时代的“应用商店”

(海知智能的Bot引擎)

简单来讲Bot可以理解为手机中一个完整的“应用商店”,它里面有各种内容和服务,只有有了应用商店,你才能够下载你想要的内容,获取你想要的服务。而Skill就像应用商店的“APP”,它是一种单个的技能服务,但是它的维度比触屏更高,是通过语音的方式控制的。比如智能音箱中“查天气”、“百科问答”等都是一个Skill,而众多Skill就汇聚成一个Bot平台,而这背后需要知识图谱和NLP(自然语言处理)的支持。

谢殿侠谈到,语义理解是非常难的一块,只有限定语义理解的边界才能够做出在用户容忍度之内的产品。通过限定特定场景、特定用户、特定问题这三个边界条件,海知智能选择了家居这个场景。家庭对应的产品是冰箱、空调、电视、音箱、机器人等;用户可能有一对夫妻、老人和孩子;问题则是从他们早上起床、音乐、新闻、天气、出行、菜谱、讲故事等。

围绕这条线,经过3年时间的打磨,海知智能在音乐、百科类、诗词、有声资源(喜马拉雅、蜻蜓、荔枝)、天气等方面建立完善的知识图谱,并深耕家庭场景,形成了50多个技能插件。

这家潜伏三年的创业团队 要做语音交互时代的“应用商店”

海知智能的Bot平台号称“第三方Bot开放平台”。首先这个平台不仅提供整个Bot的输出,也提供单个技能的输出,并且在此基础上,开发者能够进行自己的个性化优化。其次,它的开放不仅对于开发者,也对B端的平台开放,如百度DuerOS平台、思必驰的DUI平台。

最后,它还提供开发工具,降低技能的开发成本,让工程师,甚至普通人员来开发他们自己的技能。具体而言,比如你是一个菜谱内容提供商,有100万个文字菜谱,通过海知智能平台的开发工具可以在较短的时间内变成知识图谱,并形成基于Bot的Skill技能。目前这个平台还在内测阶段,有近10家厂商通过海知智能的平台开发技能,涉及政府、新闻、旅行客服等。

谢殿侠坦言,他们只深耕语义理解这个细分领域,如果要想形成闭环,必须要采取开放合作的模式,同时他们也愿意开放,甚至向有业务竞争关系的对手开放,共同把技能平台这块市场做起来。

目前,小米电视、小米AI音箱、海尔冰箱、康力优蓝机器人、张小盒机器人、贤二机器人等都使用海知智能的技能插件,如近期推出是小米AI音箱中就使用了海知智能的17个技能插件。此外,百度DuerOS平台、思必驰DUI开放平台、小米水滴平台都是其合作伙伴。

三、“独辟蹊径”的盈利模式

在语音交互行业都面临变现难题的当下,海知智能是否盈利,以及如何营收呢?谢殿侠表示,海知现金流为正,目前年营业额达千万。

但他也谈到在智能家居技能方面采取免费模式,比如和小米的合作。前提是小米有足够的流量,可沿用应用商店的分成模式,有获得预期收入的可能。对于用户流量规模较小的,可以采用授权模式,按照设备或者调用次数进行收费。

但靠免费怎么能够盈利?海知的收入到底来源于哪里?最终谢殿侠透露了当下的核心盈利来源,目前智能客服业务和智能分析员的B端业务构成了其收入的主要来源。

这家潜伏三年的创业团队 要做语音交互时代的“应用商店”

他近一步谈到,之前做语义理解,做机器人的Bot平台,但是生态没起来,公司的业务就没有预期增长,必须将技术应用在当下“接地气”的项目中。而机缘巧合之下,他们去年介入了智能客服领域。

当时一个潜在合作项目存在大量智能客服的需求,又对原来的智能客服不太满意,而海知智能通过技术测评,发现可以通过其平台的开发工具,提供一套简单实用的智能客服技能。这给了谢殿侠一个启发,他们能够凭借Bot的能力做智能客服。

智能客服确实是当下技术应用的一个刚需,但现有市场中玩家的技术力量不足,谢殿侠便在去年就启动了相关业务。目前他们也在为另一家大型客户构建智能客服,项目已经基本敲定,这块业务预计未来一两年会较快发展。

通过其商业模式,我们发现,尽管海知智能定位于打造家居Bot平台以及技能插件,但是这块市场尚属早期,目前盈利模式并不清晰,反而是当下需求较大的智能客服和智能分析员业务成为了它的主要收入。海知当下的选择,代表了他们对技术落地的新思考,也为公司拓展了更多的生存空间。

不仅感慨,目前市面上许多做Bot的公司如何生存盈利?或许在光鲜的Demo展示之外,不得不将技术落地到当下需求性强、能够解决的实际问题上,来获得生存。

四、提供标准工具打造个性化产品

涉及到打造产品,必然面临一个问题,如何打造差异化的产品?如何提升用户体验?

关于用户体验,谢殿侠认为,首先界定边界非常重要,只有深耕某一场景的语义理解,才能够做出用户能够容忍的技能服务;其次,海知智能在3年前就开始从事知识图谱等的积累,目前在音乐、百科等领域积累了丰富的知识图谱,这也大大提升了语义搜索能力;此外,海知的Bot管理工具可以和人工相结合,让人工参与,从而提升差异化。

具体来讲,海知智能在NLP层面是通过对话模板进行机器学习,由人来写少量的对话模板,再由海知通过平台进行学习、理解。谢殿侠认为,这种方式比端到端的学习方式解释性更强,领域的优化空间也更大。因为算法最后不能解决所有的问题,一个领域的数据量不足够大, NLP中的问题也没法解决。针对这个问题,可以提供一个足够强的工具,让Bot领域的专家、工程师等干预这个过程,将算法和人工相结合的方式提升Bot的管理能力。

这家潜伏三年的创业团队 要做语音交互时代的“应用商店”

而另一个问题就在于差异化。他谈到,目前海知的合作主要分为两类,一类像和海尔的合作,海知提供一整套Bot/Skill的解决方案,对接硬件、语音识别、语音合成,落地到海尔。海尔也可以通过其平台的开发工具,进行设定,打造个性化的产品。

小米的合作是另一种模式,小米有自己的Bot平台,海知则是通过开放API(应用程序接口)的形式,将自己的技能插件输出给小米的技能平台。

前者的输出像是输出了一个手机上的“应用商店”,而后者的输出则像应用商店中的“APP”。即便是对不同厂家输出了相同的技能,随着用户的使用,数据的训练,也会进行自适应,呈现个性化的差异。并且,人工也可以针对不同场景去干预。

五、语音交互的痛点是基于场景的个性化服务

回到语音交互这个大入口,尤其是今年火爆的智能音箱市场。他谈到,语音命令并不是语音交互的核心痛点,比如在冰箱上设定温度,一方面遥控器足够方便,另一方面语音交互准确率并没有那么高。那么语音交互的痛点究竟在哪里呢?

他认为语音命令、语音控制只是锦上添花的事情。比如海尔打造的冰箱,最核心的不是听歌,也不是查天气,最核心的应该是基于厨房场景所提供的个性化服务。当你要做一道菜时,是拿手机搜菜谱,还是直接问一下冰箱更方便呢?当你做菜时,猪肉和杏仁食材能不能搭配呢?当你要减肥,如何制定营养饮食体系?而这个冰箱中的语音交互就相当于一个私人营养师,它会比你电脑搜索、APP查询更高效。

可以看出,谢殿侠眼中的语音交互核心在于Bot,针对每个场景提供智能助理,连接各种服务。而服务的打磨和体验,则有赖于知识图谱和NLP技术在边界范围内进一步完善。

谢殿侠也认为智能音箱在家庭场景中是有刚需的,它可以为用户提供从早上的闹钟、新闻、路况、菜谱、音乐、故事等价值,它是一个典型的MVP(最小可用功能体)。但受限于文化、家庭环境等因素,智能音箱在中国环境可能没有美国那么成功,但它会逐步发展起来,预计今年智能音箱市场将达百万台,明年千万台的规模。

谢殿侠所理解的智能音箱是一个基因Bot的MVP,他认为有电的地方都可以有语音交互。而Bot实质上不仅仅可以是音箱、也可以是冰箱、空调、电视等等,它实质上构建了一个领域的知识图谱,通过人能够理解的语言和人交流。

对于语音技术落地到家庭场景而言,他更看好智能电视,其次才是智能音箱。他谈到,现在出货的电视都是语音交互的电视,而剩下的就是怎么在语义技能上做起来,这也正是海知智能等发力Skill平台的机会所在。

结语:语音技能的崛起

如果说当下火爆的智能音箱、智能电视等推动了智能硬件的迅速发展,那么接下来智能硬件对“技能商店”以及“技能”的需求将会大幅增长。

谢殿侠认为,人们日常生活服务中的需求比如说要8万个Skill(技能)才能够满足,而发展最迅速的亚马逊Alexa也只有1.5万个技能,技能只有达到一个更高的临界点,Bot和人沟通起来,才能大部分命中人们的需求。在这种情况下,行业需要开放,大家共同来做并集。

语音交互会是人机交互中的一场大变革,而硬件之上的交互内容,下一个“应用商店”又会诞生在哪里?

这家潜伏三年的创业团队 要做语音交互时代的“应用商店”