智东西(公众号:zhidxcom)
文 | 寓扬
智东西5月3日消息,今天,阿里宣布全资收购北京先声互联科技有限公司,先声互联创始人、中科院声学所前研究员付强博士,正式入职阿里达摩院机器智能技术实验室,负责语音交互前端处理技术和方案的研发。
先声互联是智东西早期关注的创业项目,也是国内最早从事语音增强、远讲语音交互接口技术的团队,曾为阿里、百度、小米等多家公司提供远讲语音交互软硬件的解决方案。智东西在去年7月份就曾与创始人付强有过深入沟通(从中科院走出创业小团队 扼住了智能音箱的咽喉!)。
(图中红衣者为付强博士,背景为智东西曾经的办公室)
在阿里宣布对先声互联收购的消息后,智东西也第一时间联系付强,在获得对方确认的同时,也获得了关于此次收购的更多信息。付强曾是中国科学院声学所的研究员,在语音信号处理领域拥有20余年是深厚经验,此次加入阿里,他和他的团队又将上演怎样的故事?
一、阿里全资收购 今年初正式完成
据付强介绍,阿里此次对先声互联是全资收购,主要是技术、人才的收购,并在今年年初正式完成。本次加盟的技术人员一共5人,他们多为付强在中科院的原班人马,其中有一位来自著名的杜比实验室。
“团队核心算法人员包括我之前带的学生和从杜比实验室出来跟我一起创业的。他们的共同特点都是能文能武,既能写出IEEE trans.这样的领域内国际顶级刊物学术文章,又能深入到实际产品研发”,付强称。
当谈到为何为何选择加入阿里时,付强谈回忆到,他从硕士阶段就开始做语音处理了,至今已有20多年,当时做语音并不吃香,但正是他凭借做事就做透的精神,一直坚持至今。“和有情有义的人,一起做有价值的事”诠释了他的心声,无论是最初长达12年的声学所研究,还是选择创业,亦或是今天选择加入阿里,对于他而言都是声学事业的一个阶段,相信他也会在这条道路上走的更远。
付强及团队在语音增强等领域创造了多项国内第一,在中科院声学所期间,他与团队完成了国家自然科学基金面上等30余项科研课题,并在包括IEEE Trans.等国内外权威学术刊物及会议上发表论文70余篇。此外他还积极将学术成果与实际相结合,在2006年和2008年分别和通用、大众合作,将远讲语音方案应用到车载中,这也是国内最早在消费级产品上的远讲语音探索。
而通过对先声互联的收购,付强团队在远场语音交互技术的解决方案,也成为阿里IoT场景落地的关键一环。
二、筹建声学实验室 将语音交互落地更多场景
入职阿里达摩院机器智能技术实验室后,付强所负责的是语音交互前端处理技术以及方案的研发。他短期的目标是帮助语音交互技术在多种场景和终端上落地,在复杂环境下保持正确的识别率。
让万物实现听说的第一步就是,让机器“听清”,而现实场景往往伴随着各种噪音。比如地铁机场等场景:有人流声音、有喇叭音,背景音嘈杂;家庭场景:噪音没那么复杂,但涉及到混响、回声处理;车载场景:不远不近、混响小,但涉及到胎噪、风噪等扩散场噪声。
在这些场景中,付强称他们都有不同的终端产品已经或即将落地量产。在这些已有成绩的基础上,他们会在技术深度和方案的可复制性上有更多的布局。
特别是针对智能家居的需求,付强团队正在研发基于小阵列语音增强技术的低功耗、低成本、高集成的端云一体语音交互技术和硬件方案。
最近付强也在与团队筹建两个实体声学实验室,其中一个是标准的全消声实验室,该实验室将由付强和去年11月份加入阿里iDST的前Polycom声学设计和信号处理首席工程师冯津伟共同建立。
另一个声学实验室则是用于复杂声学环境下的语音交互系统在线端到端测试。这有别于现有的远讲语音交互测试认证方法,其特色是在局部区域内建立真实的声场场景(家庭、车载等),在此环境中建立自动化的一整套测试流程,从而提升对语音交互IoT终端设备的赋能效率和产品质量。
付强还称,随着阿里在芯片上的战略布局,他们也会在语音专用芯片上有更多进展。这不由得就让我联想到,在2013年7月诞生的国内首颗专用语音芯片,就是由四川长虹和当时在中科院声学所的付强团队共同研发的,该芯片在语音识别的基础上,融合了多方面的语音增强功能,包括语音降噪、回声消除、波束形成等,支持低功耗唤醒,能够实现远场语音采集。
可以预见的是,不远的未来,付强团队或许也会为阿里带来一颗语音专用芯片。