智东西(公众号:zhidxcom)
文 | 四月
从2011年10月4日,苹果在iPhone4s机型上开创性地配置Siri语音控制功能,语音助手浪潮首先在手机端应用掀起。随后人们对于语音识别领域的胃口也与日俱增,现如今,基于传统命令词和固定语法结构的语音识别能力已不能满足人们的需求,自然交互的语音识别和语义理解已成为智能领域的大势所趋。
以Siri为首,小娜、度秘、小冰等语音机器人基于手机等移动终端逐步进入我们的生活,但同时它们也仅是停留在屏幕的另一端的虚拟对象。
近日,一款登陆京东众筹的实体语音机器人——“公子小白”引起了智东西兴趣,他们宣称其机器人产品除去基本的人机语音交互功能外,还具有记忆大脑,同时内部搭载了自主研发的语义引擎。10月13日,智东西记者来到“公子小白”机器人所属公司——狗尾草智能科技有限公司,与其主创人邱楠针对“公子小白”的背后团队、设计思路与研发过程进行了对话。
团队:搭建云数据平台需要不断扩充
据邱楠介绍,公司成立于2013年12月25日,现已发展公司成员40人,“公子小白”为公司成立后的首个项目。据邱楠所述,他本人自2004年就开始了硬件创业,先后做过DVD、车载MP3、蓝牙耳机、音箱等多个硬件产品项目,但也经历过一些挫折和教训,据他回忆,由于那时缺乏知识产权的保护,产品很容易被人山寨而被稀释市场。走到13年,看到了机器人未来的应用前景,同时认为可通过一些在技术上的积累去实现竞争优势,建立壁垒,不再轻易被人复制。
关于项目进展情况,邱楠透露,预计11月初可实现量产供货,今年6月份完成了天使融资,现正在筹划A轮,他坦言,现在深圳地区智能硬件项目拉投资并不容易。但关于团队前期研发阶段的资金支持情况,并未透露。(关于为何从立项到产品正式面市经历了一段较长的时间周期,将在后文详述)。
此外,还包括奥的斯深圳政府项目经理,主导过万达、招商、万科、等多个地产商项目定制整套VR虚拟现实展示方案的联合创始人严汉明。在供应链方面,由曾在重庆长安汽车、日本大发汽车、日本联想thinkpad负责研发与采购的王智把控,以及曾为中国移动音乐提供搜索引擎,IBM研发OEM操作系统研发,人民日报文本分类搜索引擎研发、为深圳刑侦局提供犯罪文本分析的人工智能项目负责人张博等。据邱楠介绍,为进一步优化语义引擎系统需要针对云数据平台不断更数的扩充,针对两阶段12人的研发规模仍需进一步扩充。
产品:更准确的社交互动
据介绍,“公子小白”共有银灰色与白色两款,分别设定为“公子”(男性)、“小白”(女性)两种身份,外形类似不倒翁,其中头部可进行220度旋转,可自动识别人类语音并转化汉语在头部显示,高26cm,重1.6千克。不同于Jibo的家庭机器人定位,据邱楠介绍,他们希望“公子小白”实现更多的社交交互功能,同时两种不同性格身份的设定,也是出于情侣间的沟通信物功能考虑。据悉,“公子小白”于10月初登陆京东众筹平台,单款售价为999元,两台组合售价1799元,预计将在11月的“光棍节”发货,现进售出300余台。据邱楠介绍,实际售价将略高于京东众筹价。
产品照片(此为工程机样品,银灰色款正在进行调式故未套上屏幕外壳)
据介绍,“公子小白”通过采用5麦矩阵,以及头部高灵敏度的电容式麦克风收音装置,可实现3米内远场精确拾音,而其中收音芯片的选取显得尤为重要,据邱楠介绍这一块的调试和测算也花去近四个月时间。同时,通过自主研发的神经网络deep-learning深度学习机制建立的语义引擎,“公子小白”在语义理解和反应速度方面也较为出色。
通过笔者现场与“公子小白”的实际互动感受,在语音的反应速度方面无延时感,同时通过普通音量和略带方言的口音发出命令或开启对话,“公子小白”也能够较准确地识别与理解,并能根据语音定位,转向发言者。但在访谈过程中,被命令“静默”后仍会因为某些字眼而被激活,开启对话状态,以及不间断地摇头,这一点可能在某些生活使用场景中造成干扰。
性能:“主人,我能记住你”
据邱楠介绍,使“公子小白”区别于其它语音智能更大的优势在于自带记忆系统和主人识别功能,比如,邱楠告诉“公子小白”,“我喜欢踢足球”,在随后的互动中,再提及“你猜我有什么爱好”,“公子小白”能准确地回答出“足球”,据邱楠介绍,后续“公子小白”还能提供相应球赛和足球相关活动的推荐,而这一点主要依靠存储芯片和团队的云端服务器及云端数据库的支撑。在这一点上,也为“公子小白”也为脱离原本冰冷的机器形象提供可能,毕竟理解和互动是人类社交活动的最基本特点。
观点:语义引擎要是自己的才能玩出新玩意儿
针对为何从“公子小白”立项到现在产品推出经历了近两年的时间储备,邱楠指出,主要是当时商用机器人的方向和市场需求并不明朗,需要不断摸索和试错,同时由于在云数据平台的抢建方面也需要耗费较大的人力和时间。
“实际上,借助国内的一些优秀的智能语音公司的技术,短时间内造一款语音机器人也完全可能,市面上的同类产品也不少;大费周章地建立自己的语义引擎期待的回报是什么?”,邱楠回答道,如果造机器人的连语义引擎都不自己做的话,何谈什么智能?每款机器人都该有自己的核心功能和应用场景,但如果仅是建立在他人的语音系统,那就完全被局限于现成的语音系统已实现的功能范围里了,并且和使用该语音系统功能的机器人在功能上完全没有差异化可言,自己再有其它的功能创新和扩展,也无法实现。
总结:机器人的大脑才是核心
不可否认,随着家庭与商用机器人的进一步发展,成本逐步下降,在普通的生活场景里将会出现更多的机器人身影,形态上的设计创新或许是赢得眼球的有力渠道,但值得深究与关注的差异性功能实现仍必须建立在其大脑的处理与分析功能基础上。否则,仅是一个机器人型外壳套上现成的语音智能系统,这样的“智能”未免太缺乏竞争力了吧。