智东西(公众号:zhidxcom)
作者 | 韦世玮
编辑 | 漠影
夏至将至,和气温一样持续攀升的还有TWS(真无线蓝牙立体声)耳机市场的热度。
据业内机构统计,截至5月12日,今年已有25款品牌TWS耳机推出。仅在刚刚过去的5月,OPPO、vivo、华为、努比亚、小度等玩家也相继推出TWS耳机新品,进一步加剧市场混战。其中,前三位玩家的TWS耳机均支持通话降噪。
与苹果AirPods带火的主动降噪不同,通话降噪主要针对耳机中的麦克风,通过算法使麦克风收音更加纯粹,而主动降噪主要针对扬声器,算法围绕用户“听”的过程进行处理。
随着通话降噪逐渐成为当下各路玩家PK的主要功能之一,也出现了许多公司竞相押注通话降噪赛道,各类解决方案百花齐放。
成立于2017年2月的大象声科,则是专注AI智能听觉技术赛道上一家颇具特色的企业,主要基于机器听觉AI算法开发智能语音增强和语音交互解决方案。
近期,智东西也有机会与大象声科的核心团队人员交流,在了解他们创业故事、核心技术和发展路径的过程中,我们也看到了当下通话降噪技术领域的发展现状。
实际上,大象声科的AI通话降噪算法最初被锤子科技创始人罗永浩看中,应用在了坚果手机上,随即一战成名,业务逐渐向智能手机、PC、车载声场控制、智能家居、助听器等多个领域拓展。同时,他们背后还有小米、高通等企业的投资。
今年4月,大象声科还官宣了一笔超亿元人民币的B轮融资,由兰璞资本领投,佳康科技基金、紫金港资本跟投。这是它成立四年多以来公开的第4笔融资。
下面是我和大象声科战略总监的交流干货:
▲大象声科公司团队合影
一、硬核创始团队加持,用AI拓展人类听觉感知
“与机器视觉相比,现在机器在听这件事情上并不够智能。”大象声科战略总监谈到,大象声科成立的初衷就是希望通过机器听觉技术,赋予机器像人一样的听力,比如说能解决经典的鸡尾酒会问题。
何为鸡尾酒会问题?简单来说,当许多人同在一个场合内说话时,人类能通过注意力集中在某一个人的谈话中,而忽略背景的其他谈话或噪音,这也是人类听觉系统的神奇之处。
但对机器来说,鸡尾酒会问题是一个极其大的挑战。因为声波的重叠与互相干扰,让机器很难在信号采集完毕后对它们进行有效的分离处理,机器难以像人一样有选择性地去听某一部分声音。
这就是大象声科想利用AI技术解决的问题,从另一个角度看,就是将AI(人工智能)用于人类听觉感知范围的拓展,“这也是我们创始人们一直希望实现的目标。”战略总监说。
青萍始于微末。实际上,大象声科如今成绩与其创始团队的硬核实力息息相关。
大象声科董事长兼CEO苗健彰是位80后的连续创业者,拥有西安交大通信与信息工程学士及加拿大UBC软件工程硕士学位,曾在温哥华RBC及IBM等全球知名企业就职。尽管一路顺风顺水地走来,但苗健彰心底里仍保留着创业成事的梦想。
终于在2014年,苗健彰选择了辞职下海,开始在温哥华当地创办科技公司。此时适逢AI技术在北美蓬勃发展,他敏锐地发现,在语音前端信号处理的技术链上游环节,存在亟待深入研发的技术难题。换言之,就是存在商业机会。
经过对市场和行业的广泛调研与摸底,苗健彰更坚定了从事语音处理AI技术研发与落地的方向和决心。而他这股创业热忱下对技术创新及应用落地的执着,也打动了时任俄亥俄州立大学终身教授,在语音人工智能领域处于全球领先地位的顶级科学家——汪德亮教授。
于是在2016年,汪教授成功加盟创业团队任首席科学家,并引荐了其实验室的访问学者——时任内蒙古大学教授的张学良。一直以来,张学良教授在CASA和DNN等技术研究与落地实施等领域有深厚造诣,随后他也以CTO的身份成功加盟。
随着两位行业大咖的加盟,并基于创始团队对国内AI市场蓝海的判断与未来蓬勃发展的看好,2017年2月,大象声科在深圳正式注册成立。
▲从左至右分别为大象声科董事长兼CEO苗健彰,首席科学家汪德亮,CTO张学良
目前除了深圳总部外,大象声科在南京、上海、台湾等地均有分部,整体团队规模约70人,核心研发团队占比超60%。
基于学术界知名学者的深厚技术经验和研究理论加持,大象声科也开启了机器学习语音赛道的新航线。
二、以AI通话降噪为核心的技术城池
技术是立足之本。在公司成立之初,大象声科就瞄准前端信号处理赛道,率先将深度学习技术应用到语音增强中。
“在此之前,前端信号处理领域较为传统的主流方案是基于稳态噪声假设下,利用滤波器将噪音信号过滤掉,留下一部分相对清晰的语音信号。”战略总监解释,但这降噪效果非常有限,因为真实场景中存在的非稳态噪音如马路上的噪音、咖啡厅内噪音和地铁中的噪音等是不符合稳态假设的。
而以汪德亮教授的CASA研究为导向的AI流派,则利用AI将人声与非人声进行区分,从各类复杂的非稳态环境噪音中分离与提取出清晰的人声,从而突破了传统语音信号处理的瓶颈。
在这一过程中,降噪的技术难题从最初的单纯过滤问题变成了一个分类问题。也正是基于这一差异化技术路径,大象声科逐渐构筑起了自己的技术壁垒。
算法方面,目前大象声科核心声学算法覆盖智能降噪、回声消除、混响抑制、语音唤醒、声源定位、波束形成、声纹识别、DHS深度啸叫抑制等方面,为客户提供一系列面向智能手机、蓝牙耳机、PC、车载、助听器等领域的智能语音增强和语音交互解决方案。
“我们的底层技术是通过AI去做语音信号处理,而通话降噪是我们技术落地的基础之一。”战略总监告诉智东西,面向不同的细分赛道和声学结构,大象声科还相应发布了一些列语音增强解决方案。
例如,大象声科针对蓝牙耳机推出的Vocplus Headphone解决方案,基于深度学习和计算听觉场景分析理论而研发,能够实时分离人声和背景噪声并提取清晰人声,大大提升用户在地铁、商场、马路等各类噪声环境下的通话体验。目前,该方案还拥有Al单麦、AI双麦、AI三麦和AI单麦骨传融合版本。
“整体来看,得益于汪教授二三十年来的研究经验,我们的技术储备非常多。”战略总监提到,包括几年后的技术路径,大象声科都有非常清晰的规划,并较为清楚地看到技术的发展方向,以此不断拓展公司的技术节点与业务布局。
▲大象声科公司办公区
三、创业之初的关键一役,业务拓展要啃最硬的骨头
尽管拥有一支硬核的创始团队以及不少前沿技术经验,大象声科在成立之初还是遇到了不少难题,融资就是公司起步的其中一道难关。
2018年1月,当大象声科拿到由紫金港资本、挚金资本及狗尾草智能投资的天使轮融资后,如何推动技术方案落地是摆在他们面前的一大难题。
“当时公司只是几个人组成的小团队,在没有大客户背书的情况下,我们是很难直接被小米、华为等手机大厂商认可的。”战略总监回忆道,因此最初大象声科在寻求技术落地方面屡屡碰壁。
对永远有准备的新玩家来说,机会也许会迟到,但从不会缺席。恰逢当时的锤子科技正紧锣密鼓地进行新产品研发,“相对而言,老罗是一个喜欢尝试新事物的人。”战略总监说,因此锤子科技也率先尝试将大象声科的Vocplus Telecom智能通话降噪方案用在坚果手机上。
2018年4月,随着大象声科智能通话降噪方案在坚果手机3上量产,也让小米、高通等厂商陆续看到了大象声科的潜力与价值,客户和融资机会随之而来,而小米和高通也于2018年5月完成了对大象声科的A轮投资,2018年也成为公司扬帆起航的重要一年。
同时在这一年,大象声科的Vocplus Gaming上行方案还成功在努比亚红魔Mars量产,并与高通联合展示了基于高通骁龙855芯片的AI通话降噪方案。
但手机并不是大象声科AI通话降噪技术唯一的落地方向,从2019年起,大象声科开始朝着更广阔的业务边界拓展。同年12月,其Vocplus Headphone方案首次在OPPO Enco Q1无线降噪耳机成功量产,正式打开耳机业务。
紧接着在2020年3月,大象声科正式发布Vocplus PC方案,并成为首个在Intel GNA上运行的第三方语音方案商。这意味着,大象声科的AI语音降噪算法技术再一次得到广泛落地的机会,包括联想、惠普、戴尔等计算机公司,都是其重要的已有或潜在客户。
实际上,2020年对大象声科而言也是一个重要的发展节点。
从6月其单麦克风骨传导AI降噪算法落地漫步者TWS耳机,到9月首次打入华为供应链,到年底联想首款搭载其算法的PC在海外正式量产发布,再到2021年初同多家造车新势力深度合作,大象声科一路狂飙突进,AI降噪算法技术实现多点落地开花。
如今,大象声科的“朋友圈”已覆盖高通、英特尔、Arm、恒玄等国内外知名芯片厂商,以及华为、小米、OPPO、vivo、联想、摩托罗拉等品牌企业。
不过,从手机到耳机再拓展至PC,大象声科一步步切入市场的思考逻辑是怎样的呢?
“我们的思路是要先啃最硬的骨头,但这并不代表我们要死磕。”战略总监谈到,一方面,最难的方向也存在较大的市场空间,对公司发展来说是好事情;另一方面,从较高的难点开始起步,也能为公司带来更广阔的技术空间。
例如在TWS耳机兴起之初,大象声科认为AI降噪算法落地耳机的其中一个难点在于,AI算法本身的尺寸较大,不仅需要经过大量数据训练以形成神经网络,还对算力有较高需求。但耳机的存储空间比手机小得多,意味着它能承载的算法尺寸也更小。
因此,如何将大尺寸算法“裁剪”成能放进耳机中的小尺寸算法,也是一个AI降噪算法落地耳机领域的一块硬骨头。
正是基于这一思路,大象声科的业务不断成熟拓展。自成立至今,大象声科Vocplus AI智能语音增强与语音交互算法已赋能近亿台智能终端产品。
四、海外市场是重要业务方向,加速实现人声之间分离
现阶段,智能手机、蓝牙耳机、PC领域和智能车载仍是大象声科的主要落地方向,“但每一个赛道对我们来说都十分重要。”战略总监谈到,从业务层面看,未来大象声科也会逐渐朝AR/VR、IoT、穿戴设备以及助听器等对人机交互需求高的场景进一步延伸,持续拓展新平台。
不仅如此,大象声科还将进一步朝海外市场拓展。“因为我们公司团队本就拥有较为国际化的传统基因。”他解释,同时包括摩托罗拉、联想等在内的国际化品牌客户,也为大象声科的海外业务拓展提供了经验,这也将是公司接下来的业务发展方向之一。
而在技术层面,大象声科仍将专注于AI智能听觉技术的研发与应用,加速在移动通信、远程会议、蓝牙耳机、助听器、智能家居及车载声场控制等领域的算法及专用芯片的研发。
▲深度学习声音分离技术的流程(图源:IEEE Spectrum)
“我们要把基于AI做语音信号处理这件事情做到极致。”战略总监说。
在他看来,现阶段机器在听觉方面仍然很“愚蠢”,这意味着也有非常大的空间和应用场景,可以用AI去做相关的语音信号处理工作。
“现在机器视觉领域的技术已经很聪明了,不过都主要应用在门禁、刷脸支付等场景,相对都是B端领域,但只要C端市场不爆发,机器视觉技术就很难实现井喷爆发。”战略总监解释,相比之下,当下的耳机等消费电子产品的火热,也给人与机器听觉的交互提供了更多的机会。
“如果AI技术能够改变人与机器在语音交互方面的功能,这不仅能推动机器听觉技术的成熟落地,也能更快地市场发展带来更大的经济效益。”他说。
结语:机器听觉领域发展仍道阻路长
在智东西与大象声科战略总监的深入交流中,我们也看到一幅描绘着AI语音技术创新落地的商业蓝图,正在我们面前徐徐铺开。
尽管与机器视觉技术相比,机器听觉技术仍显得较为年轻,但在其大量的细分赛道之下,许多玩家争相入局,各类AI语音解决方案百花齐放,也为机器听觉技术的发展注入了源源不断的生命力。
相信在未来,这条技术长河中的每位玩家都能找到属于自己的位置,共同推动机器听觉领域的应用爆发、技术繁荣与发展。