智东西(公众号:zhidxcom)
文 | 伊娃

2019年的第一个工作日,云知声创始人、CEO黄伟以一句“少有人走的路”,为其多模态AI芯片战略拉开帷幕。

云知声造芯再迈一步,推多模态AI战略,打响AI芯片场景落地战!

▲云知声创始人、CEO黄伟

2014年人工智能还远未如此火热,黄伟在面向B端市场的商业探索中,就意识到算力、算法结合在一起的重要性,于是确定了“云端芯”一体化的战略,并于2015年启动自研AI芯片。

在AI前夜的那个节点来看,作为一家刚成立2年的创业公司,云知声当时的策略无疑饱受质疑。

然而随着阿尔法狗(AlphaGo)战胜世界顶级围棋选手李世石后,AI浪潮袭来,并逐渐落地走向应用。2018年在场景驱动、中美贸易摩擦的背景下,AI芯片走向时代前台。

历时3年,云知声也终于2018年5月推出第一款语音AI芯片雨燕,交出造芯答卷。而2019年,云知声将在云端芯战略的基础上再迈进一步,并提出多模态AI芯片的构想。

先行业一步提出多模态AI芯片战略,这背后是云知声怎样的思考,这一构想又能否引领云知声下一阶段的发展?

一、多模态AI芯片战略浮出水面

过去6年来,云知声大概走过了四个阶段,2012~2014年即刚成立的前两年,布局算法平台构建技术优势;紧接着云知声确立“云端芯”一体化的策略,并启动自研AI芯片;到了2017~2018年云知声加速AI的商业扩展和应用,并推出首款语音AI芯片雨燕。

云知声造芯再迈一步,推多模态AI战略,打响AI芯片场景落地战!

站在2019年的起跑线上,黄伟称,接下来就是依托云知声的AI算法与AI芯片构建场景优势。而构建场景优势的关键就在于多模态AI芯片战略。

之所以提出这一战略,黄伟重点讲述了他面向5G与AIoT的思考。他认为,5G将推动行业产生质变,引发连接大爆炸、应用大爆炸,尤其是工业领域。

可以预见,随着5G的到来,语音、图像、视频等多维数据将会海量增长,此时多维数据的处理能力成为刚需。

与此同时,IoT场景下AI应用对于端云互动有着强需求,强大的云会让端侧能力更强,而强大的端则可提升数据处理的实时性和有效性,进而增强云的能力。

在多维数据处理能力与边缘计算的需求下,具备更强算力的多模态AI芯片就成为了场景的关键竞争力之一。

黄伟指出,面向5G场景,只有更强的算力还不够,还需要有深入场景提供服务的能力,并在此基础上对传统SoC(System On Chip,片上系统)做了进一步的解读。

云知声造芯再迈一步,推多模态AI战略,打响AI芯片场景落地战!

他认为,S应该代表不同的 AI 服务能力即 Skills,O 代表云端与边缘侧的互动 On/Off Cloud,C 代表具备智能处理能力的 AI 芯片。

从云端芯一体化,到多模态AI芯片战略,再到对SoC全新的理解,云知声对AI芯片的理解和布局都保持着行业领先性。

二、战略背后是多模态AI技术的积淀

从2018年开始,多模态交互就成为业界研究的一个重点。简单来说,模态可以理解为感官,多模态交互即是调用多种感官的交互方式,它跨过了自然语言,其方式也更加贴近人,也代表了AI未来的一个发展方向。

云知声在2019年开年提出多模态AI芯片战略,无疑在多模态探索的道路上又迈出一步,但多模态不应该成为一句口号,而应该真正落实到技术研发中。

智东西发现,在语音技术主赛道外,云知声在2018年也加紧布局图像识别、机器翻译等领域,进行多模态技术的储备。

去年,在国际权威人脸识别标准评测数据库 LFW 和 MegaFace 上,云知声团队研发的人脸识别系统,在上述两项标准评测中,性能分别达到 99.80%和 98.47%,得分位居业内前列。

云知声造芯再迈一步,推多模态AI战略,打响AI芯片场景落地战!

▲WMT2018国际机器翻译大赛成绩

去年5月份的WMT2018国际机器翻译大赛的中英翻译比赛中,组建不足1年的云知声机器翻译团队,也拿下英中第二、中英第四,综合第三的优异成绩。

本次发布会上,云知声联合创始人李霄寒进一步分享了云知声在人脸识别、表情分析、标签化、多目标唇动状态追踪等视觉AI方面的进展,进一步储备多模态技术基础。

云知声造芯再迈一步,推多模态AI战略,打响AI芯片场景落地战!

另一方面,云知声还发布了多模态人工智能核心 IP——DeepNet2.0,其AI处理能力也有1.0的语音进化到2.0的多模态,支持语音、图像等处理能力。DeepNet2.0可兼容 LSTM/CNN/RNN/TDNN 等多种推理网络,支持可重构计算与 Winograd 处理,最高可配置算力达 4T。

目前云知声 DeepNet2.0 已在 FPGA 上得到验证,将在2019年落地多模态AI芯片海豚(Dolphin)。

可见,在硬件层面与算法层面,云知声都在储备多模态技术,为其多模态AI芯片的落地打下地基。

三、造芯之路:从云端芯一体化到多模态AI芯片

2014年,云知声就确定了“云端芯”的发展战略,2015年推出IVM(通用芯片方案),并落地格力、美的、海尔、长虹等一线家电厂商,从客户需求切入,布局AI芯片更具场景优势和时间窗口优势。

在此基础上,云知声在2015年启动AI芯片研发,历时3年终于推出第一代语音AI芯片雨燕。基于此,云知声又在去年9月推出Turnkey方案,加速雨燕芯片的落地。李霄寒透露,预计落地产品最快会在今年Q1季度面世。

云知声造芯再迈一步,推多模态AI战略,打响AI芯片场景落地战!

针对面向物联网时代的AI芯片,云知声又在2019开年之分享了一些新的思考。李霄寒指出,当前物联网产品线的 AI 芯片越来越明显地体现出三个趋势:

场景化。所谓场景化是芯片设计要坚持场景导向、需求导向,面向垂直领域的具体场景,通过芯片以及解决方案解决实际场景中的问题。

端云互动。在物联网的不同应用场景下,海量终端设备要实现功能智能化必须端云配合,即形成边缘算力和云端算力的动态平衡。这意味着从芯片设计开始,就要考虑端云互动能力。

数据多模态。在5G驱动的万物智联场景下,数据类型由原来的单一化走向多元化,芯片所需处理的数据也由单模态变成多模态。

以此来看,面向物联网终端场景的AI芯片核心是解决垂直场景问题的能力,其呈现形式将不再是一个单一的硬件,而是承载着边缘能力与云端能力的多模态AI软硬一体解决方案。

在此基础上,云知声在多模态AI芯片战略的引领下,抛出2019年的AI芯片布局蓝图,今年将推出3款芯片,抢滩IoT场景。

在去年5月份发布的雨燕芯片的基础上,今年云知声将面向智能语音场景,推出一款适用性更广的轻量级AI芯片雨燕Lite,比如可以应用在智能开关、智能灯泡等场景,实现设备的智能化,相比第一代其成本也将更低。

面向智慧城市场景,云知声将推出支持语音和图像等计算的多模态AI芯片海豚(Dolphin),预计将在今年Q3季度投产。

云知声造芯再迈一步,推多模态AI战略,打响AI芯片场景落地战!

面向智慧出行场景,云知声将与吉利集团旗下生态链企业亿咖通科技共同打造车规级 AI 芯片雪豹(Leopard),预计将在2019年Q3/Q4季度投产。

相比行业其他公司造芯,云知声的优势在于自主设计,尤其是DSP、深度神经网络处理器都为云知声自主研发,能够真正面向场景,使AI芯片满足真实场景中的需求。

而AI芯片战略布局的领先性,雨燕芯片在行业的率先推出,给了云知声更多的时间窗口优势。把握这一优势,从而率先导入客户,抢占场景,则更有利于率先在行业中形成规模优势。

今年云知声再进一步,面向语音、视觉、车载等场景再推3款AI芯片,可见其对AI芯片的战略积极且坚定,在芯片落地的节奏上领先行业。

结语:场景落地战刚刚打响!

物联网时代是一个场景导向的时代,很难形成PC时代或者移动互联网时代在芯片领域形成一家独大的局面,因此业内也有一种观点,物联网时代是应用定义算法,算法定义硬件(芯片)。

这一观点也与云知声强调的场景化、端云互动不谋而合。以云知声为代表的AI技术公司,最早面向行业场景探索技术落地,能够率先发现场景中客户的真实需求,从而定制出更加满足行业需求的AI芯片。这也是AI技术公司布局AI芯片的优势所在。

从云知声2019年布局的三款AI芯片可以看出,轻量版的雨燕Lite面向智能语音场景,成本更低,可以与第一代雨燕(算力更强)配合,满足智慧家庭领域更广阔的终端设备。车规级的雪豹AI芯片是面向智慧出行领域,多模态语音和图像的海豚AI芯片则是面向智慧城市领域。

通过这三款AI芯片,云知声正在搭建一整套满足语音、多模态、车载等场景的AI芯片能力。

目前AI芯片正处于场景落地的初期,场景的真正需求尚不明确,哪些场景最终能够成为有潜力的市场也尚需探索。可以看出云知声的策略是,从自身深耕的智能家居、车载、医疗、教育出发,快速搭建一整套覆盖语音、视觉等能力的AI芯片,搭建好能力框架之后,就可以在市场中一面探索场景需求,一面快速基于能力框架量体裁衣,推出更加适合场景需求的AI芯片。

而雨燕Lite这款轻量级、低成本的语音AI芯片,很有可能就是这一打法下的产物。

无论是在多模态AI芯片战略,还是AI芯片的推出、落地速度上,云知声都走到了行业前列,但迎接它的是更加艰巨的AI芯片落地战、卡位战。

只有经受场景与市场的考验,真正解决现实场景的实际痛点,才能真正被行业与市场认可,而这一战役刚刚打响。