云知声造芯再迈一步，推多模态AI战略，打响AI芯片场景落地战！

智东西（公众号：zhidxcom）
文 | 伊娃

2019年的第一个工作日，云知声创始人、CEO黄伟以一句“少有人走的路”，为其多模态AI芯片战略拉开帷幕。

▲云知声创始人、CEO黄伟

2014年人工智能还远未如此火热，黄伟在面向B端市场的商业探索中，就意识到算力、算法结合在一起的重要性，于是确定了“云端芯”一体化的战略，并于2015年启动自研AI芯片。

在AI前夜的那个节点来看，作为一家刚成立2年的创业公司，云知声当时的策略无疑饱受质疑。

然而随着阿尔法狗（AlphaGo）战胜世界顶级围棋选手李世石后，AI浪潮袭来，并逐渐落地走向应用。2018年在场景驱动、中美贸易摩擦的背景下，AI芯片走向时代前台。

历时3年，云知声也终于2018年5月推出第一款语音AI芯片雨燕，交出造芯答卷。而2019年，云知声将在云端芯战略的基础上再迈进一步，并提出多模态AI芯片的构想。

先行业一步提出多模态AI芯片战略，这背后是云知声怎样的思考，这一构想又能否引领云知声下一阶段的发展？

一、多模态AI芯片战略浮出水面

过去6年来，云知声大概走过了四个阶段，2012~2014年即刚成立的前两年，布局算法平台构建技术优势；紧接着云知声确立“云端芯”一体化的策略，并启动自研AI芯片；到了2017~2018年云知声加速AI的商业扩展和应用，并推出首款语音AI芯片雨燕。

云知声造芯再迈一步，推多模态AI战略，打响AI芯片场景落地战！

站在2019年的起跑线上，黄伟称，接下来就是依托云知声的AI算法与AI芯片构建场景优势。而构建场景优势的关键就在于多模态AI芯片战略。

之所以提出这一战略，黄伟重点讲述了他面向5G与AIoT的思考。他认为，5G将推动行业产生质变，引发连接大爆炸、应用大爆炸，尤其是工业领域。

可以预见，随着5G的到来，语音、图像、视频等多维数据将会海量增长，此时多维数据的处理能力成为刚需。

与此同时，IoT场景下AI应用对于端云互动有着强需求，强大的云会让端侧能力更强，而强大的端则可提升数据处理的实时性和有效性，进而增强云的能力。

在多维数据处理能力与边缘计算的需求下，具备更强算力的多模态AI芯片就成为了场景的关键竞争力之一。

黄伟指出，面向5G场景，只有更强的算力还不够，还需要有深入场景提供服务的能力，并在此基础上对传统SoC（System On Chip，片上系统）做了进一步的解读。

云知声造芯再迈一步，推多模态AI战略，打响AI芯片场景落地战！

他认为，S应该代表不同的 AI 服务能力即 Skills，O 代表云端与边缘侧的互动 On/Off Cloud，C 代表具备智能处理能力的 AI 芯片。

从云端芯一体化，到多模态AI芯片战略，再到对SoC全新的理解，云知声对AI芯片的理解和布局都保持着行业领先性。

二、战略背后是多模态AI技术的积淀

从2018年开始，多模态交互就成为业界研究的一个重点。简单来说，模态可以理解为感官，多模态交互即是调用多种感官的交互方式，它跨过了自然语言，其方式也更加贴近人，也代表了AI未来的一个发展方向。

云知声在2019年开年提出多模态AI芯片战略，无疑在多模态探索的道路上又迈出一步，但多模态不应该成为一句口号，而应该真正落实到技术研发中。

智东西发现，在语音技术主赛道外，云知声在2018年也加紧布局图像识别、机器翻译等领域，进行多模态技术的储备。

去年，在国际权威人脸识别标准评测数据库 LFW 和 MegaFace 上，云知声团队研发的人脸识别系统，在上述两项标准评测中，性能分别达到 99.80%和 98.47%，得分位居业内前列。

云知声造芯再迈一步，推多模态AI战略，打响AI芯片场景落地战！

▲WMT2018国际机器翻译大赛成绩

去年5月份的WMT2018国际机器翻译大赛的中英翻译比赛中，组建不足1年的云知声机器翻译团队，也拿下英中第二、中英第四，综合第三的优异成绩。

本次发布会上，云知声联合创始人李霄寒进一步分享了云知声在人脸识别、表情分析、标签化、多目标唇动状态追踪等视觉AI方面的进展，进一步储备多模态技术基础。

云知声造芯再迈一步，推多模态AI战略，打响AI芯片场景落地战！

另一方面，云知声还发布了多模态人工智能核心 IP——DeepNet2.0，其AI处理能力也有1.0的语音进化到2.0的多模态，支持语音、图像等处理能力。DeepNet2.0可兼容 LSTM/CNN/RNN/TDNN 等多种推理网络，支持可重构计算与 Winograd 处理，最高可配置算力达 4T。

目前云知声 DeepNet2.0 已在 FPGA 上得到验证，将在2019年落地多模态AI芯片海豚（Dolphin）。

可见，在硬件层面与算法层面，云知声都在储备多模态技术，为其多模态AI芯片的落地打下地基。

三、造芯之路：从云端芯一体化到多模态AI芯片

2014年，云知声就确定了“云端芯”的发展战略，2015年推出IVM（通用芯片方案），并落地格力、美的、海尔、长虹等一线家电厂商，从客户需求切入，布局AI芯片更具场景优势和时间窗口优势。

在此基础上，云知声在2015年启动AI芯片研发，历时3年终于推出第一代语音AI芯片雨燕。基于此，云知声又在去年9月推出Turnkey方案，加速雨燕芯片的落地。李霄寒透露，预计落地产品最快会在今年Q1季度面世。

云知声造芯再迈一步，推多模态AI战略，打响AI芯片场景落地战！

针对面向物联网时代的AI芯片，云知声又在2019开年之分享了一些新的思考。李霄寒指出，当前物联网产品线的 AI 芯片越来越明显地体现出三个趋势：

场景化。所谓场景化是芯片设计要坚持场景导向、需求导向，面向垂直领域的具体场景，通过芯片以及解决方案解决实际场景中的问题。

端云互动。在物联网的不同应用场景下，海量终端设备要实现功能智能化必须端云配合，即形成边缘算力和云端算力的动态平衡。这意味着从芯片设计开始，就要考虑端云互动能力。

数据多模态。在5G驱动的万物智联场景下，数据类型由原来的单一化走向多元化，芯片所需处理的数据也由单模态变成多模态。

以此来看，面向物联网终端场景的AI芯片核心是解决垂直场景问题的能力，其呈现形式将不再是一个单一的硬件，而是承载着边缘能力与云端能力的多模态AI软硬一体解决方案。

在此基础上，云知声在多模态AI芯片战略的引领下，抛出2019年的AI芯片布局蓝图，今年将推出3款芯片，抢滩IoT场景。

在去年5月份发布的雨燕芯片的基础上，今年云知声将面向智能语音场景，推出一款适用性更广的轻量级AI芯片雨燕Lite，比如可以应用在智能开关、智能灯泡等场景，实现设备的智能化，相比第一代其成本也将更低。

面向智慧城市场景，云知声将推出支持语音和图像等计算的多模态AI芯片海豚（Dolphin），预计将在今年Q3季度投产。

云知声造芯再迈一步，推多模态AI战略，打响AI芯片场景落地战！

面向智慧出行场景，云知声将与吉利集团旗下生态链企业亿咖通科技共同打造车规级 AI 芯片雪豹（Leopard），预计将在2019年Q3/Q4季度投产。

相比行业其他公司造芯，云知声的优势在于自主设计，尤其是DSP、深度神经网络处理器都为云知声自主研发，能够真正面向场景，使AI芯片满足真实场景中的需求。

而AI芯片战略布局的领先性，雨燕芯片在行业的率先推出，给了云知声更多的时间窗口优势。把握这一优势，从而率先导入客户，抢占场景，则更有利于率先在行业中形成规模优势。

今年云知声再进一步，面向语音、视觉、车载等场景再推3款AI芯片，可见其对AI芯片的战略积极且坚定，在芯片落地的节奏上领先行业。

结语：场景落地战刚刚打响！

物联网时代是一个场景导向的时代，很难形成PC时代或者移动互联网时代在芯片领域形成一家独大的局面，因此业内也有一种观点，物联网时代是应用定义算法，算法定义硬件（芯片）。

这一观点也与云知声强调的场景化、端云互动不谋而合。以云知声为代表的AI技术公司，最早面向行业场景探索技术落地，能够率先发现场景中客户的真实需求，从而定制出更加满足行业需求的AI芯片。这也是AI技术公司布局AI芯片的优势所在。

从云知声2019年布局的三款AI芯片可以看出，轻量版的雨燕Lite面向智能语音场景，成本更低，可以与第一代雨燕（算力更强）配合，满足智慧家庭领域更广阔的终端设备。车规级的雪豹AI芯片是面向智慧出行领域，多模态语音和图像的海豚AI芯片则是面向智慧城市领域。

通过这三款AI芯片，云知声正在搭建一整套满足语音、多模态、车载等场景的AI芯片能力。

目前AI芯片正处于场景落地的初期，场景的真正需求尚不明确，哪些场景最终能够成为有潜力的市场也尚需探索。可以看出云知声的策略是，从自身深耕的智能家居、车载、医疗、教育出发，快速搭建一整套覆盖语音、视觉等能力的AI芯片，搭建好能力框架之后，就可以在市场中一面探索场景需求，一面快速基于能力框架量体裁衣，推出更加适合场景需求的AI芯片。

而雨燕Lite这款轻量级、低成本的语音AI芯片，很有可能就是这一打法下的产物。

无论是在多模态AI芯片战略，还是AI芯片的推出、落地速度上，云知声都走到了行业前列，但迎接它的是更加艰巨的AI芯片落地战、卡位战。

只有经受场景与市场的考验，真正解决现实场景的实际痛点，才能真正被行业与市场认可，而这一战役刚刚打响。

一、多模态AI芯片战略浮出水面

二、战略背后是多模态AI技术的积淀

三、造芯之路：从云端芯一体化到多模态AI芯片

结语：场景落地战刚刚打响！

相关推荐