云知声康恒:物联网AI芯片的五大趋势!

智东西(公众号:zhidxcom)
编 | 寓扬

3月15日,由智东西主办,AWE和极果联合主办的AI芯片创新峰会,在上海成功举办!本次峰会报名参会的观众覆盖了近4500家企业,到会观众极为专业,其中总监以上级别占比超过62%,现场实际到会人数超过1800位。

大会现场,20位人工智能及AI芯片业界翘楚共聚一堂,系统的探讨了AI芯片在架构创新、生态构建、场景落地等方面的技术前景和产业趋势。

云知声康恒:物联网AI芯片的五大趋势!

▲云知声联合创始人、副总裁康恒

作为从AI技术延伸至AI芯片的创企,云知声去年5月发布了面向物联网的芯片UniOne及其解决方案雨燕。在GTIC AI芯片峰会上,云知声联合创始人、副总裁康恒带来《Skills On Chip:物联网人工智能的落地路径》的主题演讲。

他认为,随着物联网与AI的落地,并将云端的能力下沉到设备端,原有的传统架构芯片遇到极大的挑战,新的时代需要新的“SoC”——Skills On Chip。

为此,他提出物联网芯片应具备的五种趋势:第一,从通用架构转向AI架构,在成本可控的前提下提供边缘计算的能力,实现更优的能效比;第二,AI芯片的设计要注重软件、硬件、场景的有机结合;第三,物联网芯片应更加注重应用的优化,而不仅仅关注芯片的性能、功耗、面积,即关注点从PPA转向APP;第四,交互方面正在经历从单模态到多模态演变的趋势;第五,边缘芯片需要和云端有效结合,实现端云互动。

这意味着在芯片设计时,我们的目光要从通用的需求变为更加垂直化、场景化的能力;其次,从芯片的本身能力到关注方案,从关注硬件本身到关注场景。

接下来的2019年以及2020年早期,云知声将会有3款芯片落地,包括今年第三季度的“蜂鸟”芯片,提供更高性价比的语音能力,“海豚”芯片结合图像和语音的能力,“雪豹”是面向车载的车规级交互芯片。

附云知声联合创始人、副总裁康恒演讲实录

康恒:我是来自北京云知声的康恒。今天我们在物联网人工智能落地,跟芯片结合的时候提出了一个概念Skills On Chip,我先不解释,循序渐进引出最后的结论。

关于物联网我就不详细讲了,这不仅仅是趋势,而是已经成为了事实。我们更关心的是在物联网大环境、大趋势下和AI结合的必然性、规律以及我们需要做什么的问题。

刚才我在台下看海尔陈总的演讲,整体的观点我非常认可,特别是在物联网和AI结合的时候我们应该不仅仅去谈交互智能,更应该谈怎么样通过交互和用户的数据实现数据智能以及主动地为用户提供服务。但是我也并不觉得交互智能和主动智能是相互矛盾的,而是必须要结合成有机的整体。

假设今后每个人都有一个AI助手,通过不断地学习能够了解我们的使用习惯,知道我们的喜好,在我们不需要主动发起指令的情况下就能提供服务给我们,这就是主动服务的概念。但同时也有可能有一些特殊的状况,或者非规律性的事件,由用户需要向设备发起要求,这个时候交互就成为必须的途径。

对IoT设备来讲,和过去的电脑、手机、平板等产品有非常大的区别,今天为什么说AIoT,是强行地把IoT和AI拼在一切吗?不是,而是AI已经成为物联网的必需,很多IoT的产品没有屏幕、键盘、鼠标、按纽,但随着物联网的发展,连接网络后提供给我们额外的能力、更多的服务,用户一定需要和设备进行互动的,去操作它获得服务,这就是AI存在的意义,为这些新形态的IoT设备提供新的交互方式,语音也好、图像、手势、身体语言,甚至是表情都有可能成为新的IoT设备下的交互方式。

谈到芯片的时候不得不谈一个大趋势,今天IoT的芯片,特别是AIoT的芯片更多在运行单一的程序,也就是一个一个的Skills在这样的芯片上运行,而不用过多地考虑同时支撑很多的应用程序,这是我们认为芯片对AIoT产生比较大的变化,于是提出了Skills On Chip的概念。

云知声康恒:物联网AI芯片的五大趋势!

基于刚才我说的结论也有几个观点支撑它,比方说从架构方面到硬件和软件的结合,到对芯片设计标准以及单模态、多模态的需求,甚至是端云结合,端和云之间的互相搭配。这些点都需要我们考虑Skills On Chip。

第一,通用架构在AI落地的时候遇到了哪些问题?我在讲AI在IoT落地的时候更多是在讲端侧,有很多算法、需求需要在芯片上实现,有的可能是因为网络连接的问题,有的可能是因为隐私的问题等,用户不太希望很多隐私的数据被上传到互联网上再被处理,而是希望数据就在本地被处理。其实这对本地的算力来讲是有额外要求的,但通用芯片在这方面会有天生的缺陷,如果你用Arm这样的架构,或者是其他的通用架构算力是不足以支撑的,或者需要比较大的面积芯片去支撑,这其实就是我们看到通用的架构对本地算力的支撑呈现出不足的地方。

也许语音的处理不是对芯片算力要求最高的交互方式,可以看图像的处理,包括更多的新数据维度。同时我们也要考虑做出来的端侧产品是否能够满足用户对成本的需要,现在我们考虑的并不是服务器的芯片、云端的芯片。如果我们在传统的家电上需要加好几百块钱才能实现智能交互功能,我想没有用户愿意去买单,所以成本这件事情也非常重要。基于刚才的理由,我们认为在端侧上实现智能必须要有新架构去支撑,现有的通用架构是不足以支撑的。

第二,从软件的角度来讲,虽然我们在芯片上可以加一些相对通用的处理单元,比如说NPU、GPU。但是一个应用程序还是有蛮多的算法需要在这些计算单元上运行的,如图展示的就是比较典型的语音交互流程,在这当中可以看到有一些算法像回声消除、语音合成、语音识别、自然语音处理等。SOC上有CPU和NPU,那么哪一部分需要运行在CPU上?哪些部分需要运行在NPU上?或者不同算法在NPU上运行哪个部分,我们如果不能对这一块儿有深入的理解,如果你只是关注芯片本身,而不关注软件,或者不关注这两部分进行有机的结合,芯片也不能被设计的非常好,这也是另外一个矛盾。

如果要做到比较好的芯片设计需要我们不仅仅关注芯片设计,同时也要有AI算法的背景,甚至是要知道一些应用场景的东西。就像我刚才举的完整语音交互的例子,其实这是应用场景的体验,如果简简单单只是把语音识别的算法设计在芯片上形成电路,不懂场景芯片也没有达到我刚才所说的目的。

云知声康恒:物联网AI芯片的五大趋势!

第三,从PPA到APP,这是什么意思呢?PPA是很多芯片专业人员关注的数据,指的是性能、功耗、面积,这是所有做芯片必须去关心的,面积意味着成本。和动辄就运行几十个APP的通用芯片不同,我们的物联网芯片本身运行的应用程序没有那么多,芯片需要在这个应用上去做专有的设计以及优化。物联网的芯片设计应该从关注PPA到更加关注APP(应用程序)。

这意味着什么呢?意味着我们在设计芯片的时候要把目光从通用的需求变到使芯片更加垂直化、场景化;其次,从芯片的本身能力到关注方案,从关注硬件本身到关注场景。

云知声康恒:物联网AI芯片的五大趋势!

第四,交互方面还应该注意到一个非常明确的趋势,从单模态到多模态。所谓的单模态是只用单一的技术(像语音、图像)解决交互问题,人和人之间的交互应该是一些不同的交互方式的结合,有声音、表情、手势。如果今天看智能音箱的话可以打不是那么恰当的比方,今天的智能音箱相当于听力不怎么好的瞎子,只能听得见但看不见。或者甚至这个人没有跟音箱说话,背过身跟另外的同事交流的时候,智能音箱突然被唤醒然后回应,这是非常诡异的事情,这也是多模态为什么一定要被应用在交互过程中,这也是IoT芯片必须要解决的问题,不能只处理单一维度的数据。

第五,独立到协同。我们的设备不应该只是单一的控制,而是说设备之间必须被有效地连接起来,互相分享数据,互相协作给到用户场景化的体验。这个时候芯片需要和云端进行有效的结合,这就是我们一直在强调的“端云互动”。

基于以上的理由,我们认为在IoT方面应用的AI芯片交互需要考虑Skills,芯片厂商也好、解决方案厂商不应该仅仅提供芯片,也不应该仅仅提供硬件,我们也需要在设计芯片的时候考虑新的数据维度以及考虑端云互动的问题,这样我们把芯片、IoT、AI、云统一考虑起来,这就是今天所要表达的概念——Skills On Chip。

我也介绍一下云知声在Skills On Chip这件事情上取得的进展以及在做的工作。云知声在2018年已经发布了面向行业的第一款物联网人工智能芯片,代号为雨燕,今年会有更多的芯片向外界发布。相对来讲在技术上往前走,就是从语音到图像,往多模态的方向走的更远更深,比方说我们自主研发的DeepNet是深度学习加速器,会从1.0走向2.0,算力会更加丰富。第一代只支持LSTM以及CNN面向语音的结构,DeepNet2.0将会支持RNN、DNN、图像,包括可重构计算以及支持算法的处理,总之是往新的架构不断地往前演进。还有一些新的创新点,比方说在图里展示的是自主研发的人体识别、物理识别,在FPGA模拟上已经能够比较好地运转。

如果我们去做多模态的处理,特别像图像、人脸识别,一定是需要做ISP的处理(图像预处理),在ISP方面我们和来自哈佛的技术团队BlinkAI合作,他们的算法借助了深度学习,在我们DeepNet上可以比较好地加速ISP,更好运作,并且提供更好的效率以及功耗。

刚才提到因为我们有DeepNet2.0,不论是计算能力、效能、算法都有提升,其次在语音技术层面也有非常大的突破。这展示的是超听限,完全超过了人类听觉的极限,音量已经超过了100分贝,并且噪声和人的声音在一个方向上,这对很多传统的算法提出了极为严苛的挑战,但今天这种技术在算法和DeepNet2.0的架构上已经完全实现。

谈一下端云结合的事情,这也是Skills On Chip里非常重要的一点。芯片和物联网结合以后一定不可以自己独立的运转,会涉及到算力分配的问题。在语音交互里会经常遇到的场景、技术难题是断句的问题,意思是假设我说,“我想听一首歌”,如果你现在对着智能音箱说这句话中间是不连续的,有比较长的停顿,现在的智能音箱是搞不定的,因为他看到中间有比较长停顿后,后面就停掉不处理了,音箱听到了“我想”两个字,会回复你一堆“我也想你”,但其实这并非用户真正想要的。

真正想听懂用户的问题,这需要放在云端来做,芯片和云端的关系必须要联系起来,这就是举的非常简单例子,告诉大家在端云互动方面我们也有很多工作去做。

云知声康恒:物联网AI芯片的五大趋势!

如图是云知声在AI芯片方面的路线图,2018年云知声发布了第一款面向IoT的人工智能芯片雨燕,接着在2019年以及2020年的早期也会同步有三款芯片,包括2019年三季度Hummingbird(蜂鸟),这是及其优惠性价比很高的产品。Dolphin(海豚)是结合图象和语音,让产品不仅仅能听懂,摆脱“听力不怎么好的瞎子”局面。Leopard(雪豹)是面向车载的车规级语音交互芯片,不仅仅是语音交互还有一些图像方面的交互,当然我们更关注在交互方面。以上是我今天分享的话题,感谢大家!