对话思必驰副总裁雷雄国:背靠阿里由“软”到“硬”

智东西(公众号:zhidxcom)
文 | 寓扬

智能音箱的火热,催熟了语音技术提供商、方案商。而在智能音箱的产业链中,语音语义是核心的一块,也成为语音技术公司的“兵家必争之地”。

而思必驰就是一家面向B端市场的语音技术提供商,阿里巴巴则是其最大的投资方,背靠巨头,发展迅速。近期智东西和思必驰副总裁雷雄国展开对话,作为一家语音技术提供商,思必驰发力哪些细分场景,在智能音箱行业扮演怎样的角色,又为何推出DUI语音开放平台?

对话思必驰副总裁雷雄国:背靠阿里由“软”到“硬”

一、团队:三大场景、四个城市、研发超70%

目前,思必驰在苏州、深圳、北京、上海建有四个团队,员工达300多人,其中研发人员占到70%以上。

具体而言,思必驰总部在苏州,负责核心的底层技术、语音识别算法的研发,DUI开放平台的研发也在苏州;深圳方面主要负责基于语音交互的智能硬件产品化落地,将思必驰技术的SDK、DUI平台进行输出,提供行业语音解决方案,主要包括车载、家居、机器人业务;上海团队是公司的瞭望塔,思必驰和上海交通大学成立联合实验室,布局前沿技术的研发;而北京方面则是市场团队和商务拓展团队。

雷雄国是思必驰深圳团队的负责人,下有车联网和IoT(物联网)两个事业部,团队规模在100人左右。其中车联网事业部面向车机厂商将语音识别、内容和交互产品做一个融合,提供语音交互整体解决方案。而IoT事业部主要面向智能音箱、电视盒子、机器人等提供从技术到整套解决方案。其中,阿里巴巴、小米、联想等头部玩家都是思必驰的客户。

对话思必驰副总裁雷雄国:背靠阿里由“软”到“硬”

(思必驰主要深耕领域)

雷雄国谈到,目前思必驰的“主战场”没有变,还集中在车载、家居、机器人等三个具体场景,提供语音技术及解决方案。此外,思必驰也在进行着突围,如推出DUI开放平台,向开发者提供定制化的语音语义技能;并针对医疗、政府、客服等业务,通过资本方式孵化团队提供解决方案。

其中,思必驰在车载市场深耕时间较久,客户也比较多,目前在车载市场份额最大,也是核心盈利来源之一。雷雄国表示,在后装车载市场,思必驰占有车机语音交互60%~70%的市场份额。而在目前以科大讯飞为主的前装市场,思必驰近期也在发力布局。

二、深耕垂直场景凸显技术优势

思必驰提供的核心技术主要集中在前端信号处理和语音语义两方面。其中,前端信号处理包括麦克风阵列技术、声源定位、回声消除等;语音语义技术方面从思必驰2007年成立就有了深度的积累,目前集中在语音识别、语义理解、语音唤醒、语音合成、声纹识别、人机对话等方面。

对话思必驰副总裁雷雄国:背靠阿里由“软”到“硬”

(思必驰的语音AIOS对话操作系统)

目前语音交互平台市场火热,从巨头到创业公司纷纷涌入,相较于其他企业,思必驰的优势又在哪里?雷雄国认为,核心优势需要聚焦到产品上,其中不同场景的声学环境优化和内容语义理解是两个核心的优势。

他谈到,语音交互和场景紧密相关,Siri在手机中识别的很好,但是在汽车中识别率就会大幅下降,在家里远场场景下也无法工作。在车载的各种环境,如高速、嘈杂市区、车窗是否打开、副驾驶有没有人在说话等, 思必驰对声学环境做了一系列的优化,将车载环境下的识别率大幅提升。

此外,不同场景下,用户发出的指令可能有不同的语义,思必驰对不同场景提供深度定制的语言模型。在车载环境和家居环境中,车上主要是导航场景,互联网电视主要是搜索场景,思必驰为不同的场景提供不同的语料模型。他解释到,车载中“我饿了”可能是导航去饭店,而家庭中“我饿了”可能是点个外卖,这需要在语音识别的基础上对语言模型进行深度定制。

三、看好智能音箱市场 较早入局

目前,阿里巴巴、小米、联想等公司的智能音箱都采用了思必驰的语音技术或方案,显示出市场对思必驰的认可。

雷雄国谈到,思必驰很看好智能音箱这个市场,在2015年就开始做这个市场。在整个产业链中,思必驰与每个环节厂商的合作关系都很不错,包括底层的芯片厂商、深圳大量音箱ODM厂商、内容提供商、做智能音箱的传统客户、互联网客户等等。在与大品牌合作的过程中发现,智能音箱的门槛还是比较高的,思必驰也推出软硬一体化的解决方案,降低智能音箱玩家在语音交互上的门槛。

对话思必驰副总裁雷雄国:背靠阿里由“软”到“硬”

(图为天猫精灵X1中使用的思必驰六麦环形阵列)

思必驰在智能音箱相关的技术上的研发投入则布局更早。他介绍到,除了语音识别、语义理解思必驰很早就布局以外,在2012年就开始研究麦克风阵列技术。这项技术是和联想的一个内部项目启动的,从2012年到2015年,思必驰在不断的积累此项技术。

仅仅是麦克风阵列这项技术,思必驰也有不小的投入,包括人力投入、数据采集投入,以及硬件生产。具体来讲,在思必驰内部,有一个十几人的团队专门研究麦克风阵列的前端信号处理,结合思必驰的语音引擎进行优化。除了专门的研究团队,思必驰还配备了相关的配合团队,如数据资源采集团队, 在2012年就开始采集嘈杂环境下的数据资源;提供产品化资源,配备软件人员、IP开发人员、阵列硬件开发人员;此外,在产品化过程中,针对麦克风阵列核心技术出现的问题,产品研发团队中也有人员负责阵列的评估和优化。

在麦克风阵列方面,目前思必驰提供单麦、双麦、四麦、六麦的解决方案。其中单麦和双麦主要应用在车载后视镜和电视盒子上, 雷雄国表示, 经过几年技术的积累,思必驰2015年在单麦克风远场交互的效果上还是不错的。

而六麦是目前思必驰性能最好、技术最全的麦克风阵列。它是在之前6+1麦早期方案的升级上产生的,通过算法的优化,6麦就能达到甚至超过6+1麦,从而降低了麦克风阵列的成本以及赋予产品设计更大便捷。阿里推出的智能音箱天猫精灵X1就是采用的思必驰的六麦环形阵列。此外,雷雄国透露,在麦克风阵列方面也在跟如百度、腾讯等一些重量级客户合作,陆续也会有产品推出。

目前思必驰在麦克风阵列的参考设计有两类,一类是纯采集板,另一类是基于全志R16芯片平台的完整解决方案和基于联发科MT8516芯片平台的完整解决方案,也是思必驰目前主推的方案,成本约在200元左右。

雷国雄谈到,在智能音箱的麦克风阵列方面核心有两个,一是技术性能,二是商业模式。性能上,麦克风阵列需要一定的技术积累,而思必驰在麦克风阵列方面积累了5、6年的经验,能够提供稳定的性能;在商业模式上,客户除了考虑性能还会考虑价格,因此思必驰提供单麦、双麦、四麦、六麦等不同的解决方案。

此外,他也谈到,短期内国内智能音箱的市场教育比较难,需要大公司对用户的习惯进行教育,思必驰看好这个市场,未来也会持续投入的。目前国内智能音箱在语音交互的体验、技术、产品上还有很大的改进空间。此外,内容版权方也会对这个行业产生较大的影响。像智能音箱的基础功能还是听歌,音乐内容版权方对市场的判断,以及他们的市场策略都会影响行业的发展。

四、前进新探索:DUI开放平台

思必驰在今年7月份推出了DUI开放平台,开发者可通过其平台进行个性化技能定制。9月7日,DUI开放平台也将在北京正式发布。

对话思必驰副总裁雷雄国:背靠阿里由“软”到“硬”

(思必驰DUI开放平台技能服务)

雷雄国介绍到,思必驰做平台已经很长时间了,2013年就推出了“对话工场”平台, 把核心技术通过平台开放给做APP的合作伙伴。在2015年推出了AIOS,把平台场景化,解决技术的实际落地问题,也取得了不错的成绩,其中后装车载市场占据了60%~70%的市场份额,几个智能音箱的头部公司使用思必驰的技术,电视盒子实际落地量超一千万台。从对话工场到车载、家居、机器人等几个方向的落地,这些落地反过来也推进平台的发展。

在去年年底,结合这几年的落地经验,思必驰打造了DUI开放平台。尽管目前越来越多的玩家推出语音交互的平台,也包括百度、腾讯等互联网巨头,但思必驰的视野核心还是智能硬件平台,从几个具体场景的深耕转向通用平台。

那更多的垂直场景如何优化服务?他给出了两种解决方案。一方面,思必驰会将车载、智能音箱、电视机盒子、机器人等几千万台用户终端连接到DUI平台, 前期做的解决方案会围绕DUI平台继续垂直打磨,让客户很方便的使用思必驰的即使积累。

另一方面思必驰DUI平台的“开放”更加包容,即和第三方技术提供商合作共同打造平台。思必驰在擅长的领域提供技术解决方案,在其他领域则和垂直行业的公司合作,比如海知智能在NLP(自然语言处理)领域作的不错,通过深度合作,将其NLP技术作为一个技能或者产品解决方案集成在DUI平台上。

目前该平台出于内测阶段,已经有几百个开发者。开发者需要注册并提交审核,符合智能硬件、物联网大方向并具备足够开发能力的开发者将会通过审核,使用平台进行定制技能。

而在盈利方面,雷雄国称,目前思必驰会把精力集中到产品层面,把产品功能做好。

结语:走软硬件结合的道路

雷雄国认为,语音技术公司在智能手机的落地中,由于硬件固定,只需要做好交互技术就行。而未来的物联网时代,一方面公司核心需要考虑产品落地问题,如单单一个麦克风阵列,就需要和后端的唤醒引擎对接,技术对硬件的形态和要求、应用到不同的领域,也是很敏感的。

另外,市场需求是多样的,需要把前端信号处理、后端唤醒、语音语义相结合,推出基于这一整套的交互解决方案,体验才会好。

这就决定了思必驰需要从最初的一家软件公司走向一条软硬件结合的道路。

对话思必驰副总裁雷雄国:背靠阿里由“软”到“硬”