降低MCU运行AI算法的门槛!恩智浦Nano.AI工具链解读

芯东西(ID:aichip001)
编译 |  心缘
编辑 |  漠影

5月25日,覆盖轻量级神经网络模型设计、模型压缩、AI推理引擎、AI芯片架构创新等主题的GTIC 2021嵌入式AI创新峰会将在北京举行。届时,嵌入式AI产业链10+位技术大牛及业界专家齐聚,探讨物联网与AI融合赛道的核心议题。

峰会前夕,我们与多位嘉宾进行系列深度访谈,提前一睹他们对产业的真知灼见。本期访谈嘉宾为恩智浦半导体IoT解决方案高级经理秦建峰,他将带来主题为《如何设计高效率MCU AI工具链》的演讲。

秦建峰拥有中国科学技术大学硕士学位,负责AI/ML技术在恩智浦的MCU及MPU上的应用开发,曾带领团队独立研发并发布了全球第一款基于MCU RT106F的低功耗、低成本的人脸识别方案,基于双目活体算法的方案广泛应用于门锁及门禁等产品。他带领团队独立研发的Nano.AI工具链,能快速准确地将客户的算法模型从MPU平台部署到MCU平台,达到降功耗和降成本的目的。

就MCU部署AI应用的痛点、现有AI开源工具链的局限性、恩智浦打磨软件工具的经验与解法等话题,我们与秦建峰进行了深入交流。

降低MCU运行AI算法的门槛!恩智浦Nano.AI工具链解读

一、AI跑在MCU上,存在哪些技术挑战和痛点?

在物联网与AI交汇之处,技术创新的火苗正逾燃逾旺,从芯片大厂到创业公司都在积极涌入嵌入式AI新浪潮,恩智浦正是其中的代表玩家之一。

在理解物联网客户需求方面,很少有公司能有像恩智浦这样的深度和广度。一方面,它是MCU(微控制单元)、应用处理器领域的资深玩家;另一方面,它的物联网布局还覆盖到各种无线连接产品、安全功能芯片、超宽带(UWB)芯片及相应软件和方案。

从与客户的交流中,秦建锋发现恩智浦的物联网客户有一些共性需求,除了关注成本外,也越来越看重MCU的算力、丰富的AI功能,以及寻求产品的差异化。

MCU在低功耗、低成本的物联网应用中落地广泛,比如智能门锁、基于电池的手持端设备,它们不像安防监控设备需要高分辨率、快响应速度,更在乎是否足够便宜、耐用性好。

相比初创公司,恩智浦手中握着沉甸甸的数十年MCU产品经验,这是它独有的技术财富。除了持续加固自身技术壁垒外,恩智浦也在思考着怎么解决客户最棘手的问题。

不过,当AI应用逐渐遍及MCU领域,新的挑战开始出现。

第一道难关即是硬件算力的受限和运行内存空间大小的挑战。

囿于低功耗、低成本,有些中低端MCU不支持外扩SDRAM,仅支持内部几百KB的SRAM和受限到几十兆空间的Flash。

大部分厂商的AP处理器采用基于Arm Cortex-A系列的多核、高主频CPU,对于浮点数跟定点数的处理能力都非常强,功耗和成本也相对偏高。

功耗和成本较低的MCU则往往是单核的,主频几百MHz,恩智浦目前主流的是600MHz,1GHz刚刚推出,即便这样,Arm Cortex-M MCU处理器面向低功耗设计,对于浮点数的处理能力较弱。

这些MCU需要设计轻量化的模型,并进行一些量化、裁剪、融合等优化操作。

这就带来第二个难关——目前MCU转化及量化缺乏成熟且统一的标准。如果厂商可以针对MCU的特点开发一些好工具链,就能在MCU上得到相应非常好的性能。

而关键的难题在于,尽管各开源大厂对自身的训练框架、引擎级模型支持较好,但对于一些相对复杂或特殊的模型,大概率无法成功地转化,或者是看似成功,实际上精度丢失比较严重。

有些推理引擎为了实现跨平台和兼容性,一定程度上牺牲了性能;有些开源推理引擎因追求大而全,致使体量过于庞大,内存空间浪费严重。

如果客户并未深度掌握AI机器学习技术,一旦工具链出问题,就无法继续在MCU上部署AI模型。因此,开源工具链是一种选择,但存在很大的技术风险和不确定性。

这也是恩智浦嗅到机会的地方——针对AI在MCU上的部署,客户需要依赖一些商用工具的支持。

二、AI工具链已打磨三年,降低MCU部署AI门槛

2018年底启动研发至今,恩智浦的Nano.AI工具链已经打磨了将近三年,目前已到试用阶段。

传统AI机器学习模型如果直接在MCU上运行,运行效率非常低,可能与优化后的性能大概相差10倍以上。因此这些模型需要通过开源工具链或是厂商自己开发的工具链来做转换。

借助AI工具链,客户无需在原始AI模型转换方面做过多投入,即便缺乏应用经验,也能比较省力地将其原始算法模型转换成在MCU上能直接使用的算法库。

在MPU领域,开源标准已经发展的相对成熟,支持范围较广,出现问题的可能性较低。但在MCU领域,还没出现一款足够成熟好用的AI工具链。

发现这一空白后,恩智浦决定综合各类方案的优缺点,打造一个适用于MCU的AI工具链,起名为Nano.AI工具链,并基于自研工具开发出一些完整解决方案,交予客户商用。

降低MCU运行AI算法的门槛!恩智浦Nano.AI工具链解读▲恩智浦Nano.AI工具链系统框架设计

恩智浦的AI工具链主要包含两部分,一部分是将原始算法模型转换成MCU上能够快速运行的数据和库,另一部分包含一个轻量级推理引擎,能做出一个能跑在MCU上、只需几兆Flash甚至几兆SDRAM的方案。

同时,恩智浦也可以将具体的优化措施反馈给客户,包括从算法、算法、模型本身和源头上如何做优化从而实现一个更适合在MCU上跑的算法模型。这需要一个相互支持的合作模式。

要做出这样一套AI工具链,首先MCU技术团队需对自家产品的架构优势等各方面有深入了解。

比如,恩智浦之所以能在MCU上实现很多视觉与语音AI应用,是因为恩智浦对自身在总线架构设计上的优势有信心,像大尺寸cache、大TCM内存,天然就能在MCU上得到很好的AI性能。

另外,一些终端方案的大厂会推出自家的工具链、算法,但它们主要是服务于自身,同时在对MCU的理解深度方面通常不如芯片厂商。

相对而言,恩智浦不是AI软件公司,而是一家芯片供应商,天然就有帮助客户解决技术壁垒的意愿,会通过合作帮助客户解决基于MCU的AI方案的种种技术壁垒。

三、恩智浦IoT半导体的竞争力:深入客户、车规标准、供货稳定、交钥匙方案

AI工具链只是恩智浦强化其IoT半导体业务实力的一个能力分支。在交流过程中,秦建峰总结了恩智浦IoT半导体方案的4项竞争力。

第一,恩智浦有几十年的微控制器和应用处理器的产品经验,在芯片架构积累了一些独到的能力,并对客户应用有深入理解,能从广泛的客户群中挖掘出很多共性的需求。

第二,作为一个领先的汽车芯片供应商,恩智浦在非汽车芯片的很多设计也遵循车规的要求,因此产品质量本身过硬。

第三,恩智浦坚持长期供货,在芯片设计界有优良口碑,能帮客户降低很多风险。

第四,恩智浦长期大量投入软件和方案,像秦建峰所在的解决方案部门一直帮助客户基于恩智浦的芯片、算法及工具链做交钥匙方案,进而降低方案开发门槛、减少研发投入,并能及时支持一些定制化需求,使客户的方案快速投入到市场。

例如,恩智浦近两年已成功推出基于MCU的亚马逊Alexa方案,其中包含多类算法。如果没有像恩智浦这样厂商去牵头去做,普通客户很难得到亚马逊的认证。恩智浦把整个交钥匙方案做好之后,客户就能快速出产品。

四、下一代MCU将集成更丰富的AI特性

在秦建峰看来,要衡量一个IoT芯片产品的优劣,首先要找到整体成本和性能表现的一个最佳平衡点,除此以外,还有几点还需要综合考虑:

一是整体的功耗和方案的可扩展性,二是否引入了太多的第三方,导致开发进度、灵活度受到限制,三是有没有一个长期路线图,能确保方案设计存在延续性,可以持续地迭代更新。

目前,恩智浦正在规划的下一代MCU和AP平台,将集成更丰富的AI功能和无线连接特性,并基于这些芯片路线图推出更多交钥匙解决方案,进一步覆盖语音和视觉AI的一些高性价比应用方案。

谈及后续计划,他透露说,恩智浦会在边缘设备的AI方面持续投入,包括带有神经网络加速器的全系列微控制器和应用处理器、完整的机器学习工具链,以及基于机器的视觉、听觉和健康运动数据分析处理等各种AI解决方案。

在MCU上运行视觉AI方面,恩智浦已推出基于MCU的语音及人脸识别的一系列完整方案,后续还将推出更多的姿态识别、手势识别等方案。

结语:AIoT的核心挑战:找到AI杀手级应用

长期来看,如果谷歌、Arm等各大软硬件厂商持续合作,应该能慢慢形成一些基于MCU的标准,并随着时间的积淀而做得越来越完备。“很多客户仍需依赖最终的芯片厂商,来得到一个最优化的MCU部署AI的工具链支持。”秦建峰说。

在他看来,AIoT芯片领域仍将面临的挑战是真正找到AI机器学习的杀手级应用,光有技术是不够的,最终要跟客户需求相匹配,找到一些共性的应用来持续推动技术前进。

在5月25日(下周二)举办的GTIC 2021嵌入式AI创新峰会上,秦建峰将带来围绕MCU部署AI应用的主要痛点、如何提升MCU边缘端AI运算性能和精度等方面的分享,并对恩智浦Nano.AI工具链系统框架设计做更详细地解读。