华为麒麟970是不是真正的AI芯片？

智东西（公众号：zhidxcom）
文 | Lina 漠影

导语：最近半年以来，人工智能的发展重心逐渐从云端向终端转移，相伴而生的是人工智能芯片产业的全面崛起。智东西历经数月，首次对人工智能芯片全产业链上下近百间核心企业进行报道，覆盖国内外各大巨头玩家、新兴创企、场景应用、代工生产等，全面深入地对AI芯片产业发展、创新创业进行了追踪报道。此为智东西AI芯片产业系列报道之一。

华为这周末搞了件不大不小的事——发布了“世界首款手机AI芯片”麒麟970——各位科技媒体小编都辛苦了，大周六晚上的不是飞去德国跑会就是在电脑前蹲直播，连约会都要改期，好气哦。

咳，言归正传。

（华为官方推特介绍，“世界上第一款搭载NPU的AI芯片”）

华为为了抢这个“世界第一”着实花了不少心思，作为一个以“自研”为骄傲的企业，本次麒麟970上不仅使用的是别家的（寒武纪的）神经网络处理单元（NPU），智东西还独家获悉到，麒麟970在物体识别方面的一整套嵌入式AI解决方案（从算法＋Camera Tuning）都来自中科创达。

此外，据业内人士透露，寒武纪的AI架构在麒麟970上实现的梳理也并非全部是华为海思自研的技术。

这款芯片打造了多少个月？仅是加了一个NPU模块就能叫“AI芯片”吗？为什么华为要这么紧赶慢赶抢“第一”？联发科、深鉴科技等业内人士又是怎么看待麒麟970？……以上种种疑问，智东西将为你一一揭晓。

一、参数轰炸

麒麟970的参数想必大家已经被刷屏了一遍又一遍，但为了文章完整性这里还是不能免俗地需要列一列数据，看过的读者可以直接跳过这段：

众所周知，目前九成的手机芯片采用的是ARM的架构，麒麟970也不例外。麒麟970采用ARM Cortex-A73四核+Cortex-A53四核的架构，采用了台积电10nm制造工艺，搭载12核高效GPU、8核高性能CPU，4.5G高速LTE Modem，支持LTE CAT.18，最高下载速度可以达到1.2Gbps，与高通目前发布的最强的X20 LTE基带实力相当。

特别值得一提的是，麒麟970的GPU用上了ARM最新推出的Mali-G72 MP12架构——这是Mali-G72 MP12 GPU的首次商用。这个架构很厉害，比上一代的Mali-G71性能提高了40%，能效提高了25%。

但如果抛去数据，一个小细节能让你更直观地理解它：在智东西跟某移动端大咖聊天的过程中，他对NPU、10nm统统只是点头微笑，唯有在看到MP12 GPU小小地惊讶了一下。

与此同时，麒麟970拥有两个用于处理图像信息的ISP，能够更快速地响应处理图片，并且能在低光照度环境下对降噪进行优化。

由中科创达提供的智能拍照技术则将自动识别镜头内的物体（比如一朵静止小花又或是一个奔跑的人类），系统根据该物体的属性调整相机参数或是进行主动去糊。

麒麟970会搭载在将于10月16日于慕尼黑发布的华为Mate 10手机上。

二、寒武纪？何方神圣？

既然一直在说“寒武纪”的NPU，那么这个寒武纪究竟是何方神圣呢？

寒武纪科技（Cambricon）是中科院计算所孵化出来的AI芯片创业公司，中科院计算所不仅对寒武纪进行了天使轮融资，同时还给与了长期的支持与投入。8月底，寒武纪宣布完成了1亿美元的A轮融资，投资方为国投创业、阿里巴巴、联想等，一跃成为国内AI芯片届当之无愧的独角兽。

不仅如此，寒武纪的两位创始人也非常神奇——一对出身中科院的兄弟。哥哥陈云霁目前仍在中科院计算所担任研究员，从事基础科技研发，弟弟陈天石则当起了公司的CEO。

（弟弟陈天石与哥哥陈云霁）

不过，很长一段时间，寒武纪这家公司一直以“研究性”企业被业内所知，说白了就是没有产品出来。直到去年4月份的世界互联网大会期间，宣告自己的第一款AI芯片产品寒武纪1A流片了，这一点不断拿来背书，新闻联播、人民日报都说了这事；不过之后其产品到底有没有商用，有没有量产，并没有官方说法，按照2016年底寒武纪CEO 陈天石的说法，“芯片从研发、量产到商用，是一个以年为单位的周期，所以在明年，大家将可以在市面上看到使用寒武纪技术的芯片产品，比如在手机、安防监控等智能终端和云端服务器上。”

（寒武纪板卡）

不过根据中国科学院计算技术研究所发布的贺信显示，麒麟970芯片上的NPU正是集成寒武纪1A处理器作为其核心人工智能处理单元，实现了手机上本地、实时、高效的智能处理。这也是寒武纪1A真正意义上的一次产品化应用。

不过话说回来，恐怕也只有华为这个量级的土壕，才有能力让寒武纪1A真正产品化，从这一点看寒武纪是抱上了一个不错的大腿。

三、到底什么是“AI芯片”？

上文提到，麒麟970之所以敢叫自己“AI芯片”，最主要的就是集成了寒武纪的NPU（Neural-Network Processing Unit，神经网络处理器。

现在所谓的手机处理器，比如高通的835、苹果的A11、麒麟970等，实际上所指的是一个“处理器包”封装在一起，这个计算包专业一点说叫Soc（System-on-a-Chip），高大上的说法是“计算平台”；根据分工不同，很多专用功能的处理单元加进来，比如我们最熟悉的是GPU，现在这个包里的独立单元数量已经越来越大，比如ISP（图像处理）、Modem（通信模块）、DSP（数字信号处理）等，不同的数据进来，交给不同特长的计算模块来处理，这个NPU就是手机处理器平台新加入的一个擅长神经网络计算的单元，那么到底哪些应用会用到神经网络计算？也就是现在最能代表人工智能计算的一些应用，比如模式识别里的语音、图像（人脸）识别，比如其他会用到深度学习的一些AI应用。

为了让这个深度神经元网络连接更快，“寒武纪1A”还设计了专门的存储结构，以及完全不同于通用处理器的指令集。“它每秒可以处理160亿个神经元和超过2万亿个突触，功能非常强大，功耗却只有原来的1/10。

有时候，有些计算单元会独立出来，不封装在SoC里，比如观察苹果iPhone的主板结构，其Modem模块就一直独立在其A系列处理器模块之外；寒武纪的这个NPU单元之前也是一个独立的处理器单元，只是这次整合封装到了麒麟970的Soc里面。