智东西(公众号:zhidxcom)
文 | 心缘

3月15日,上海,由智东西主办、AWE和极果联合主办的GTIC 2019全球AI芯片创新峰会成功举办!峰会现场延续上一届的火爆场景,全场从开幕到下午结束座无虚席,而且有不少热情观众坚持站着听完峰会全程。

20位海内外AI芯片业界大咖齐聚一堂,围绕AI芯片在架构创新、生态构建、场景落地等方面的技术前景和产业趋势“华山论剑”。

本届峰会报名参会的观众覆盖了近4500家企业,到会观众极为专业,其中总监以上级别占比超过62%,现场实际到会人数超过1800位。

Wave CTO Chris:7nm DPU计划明年面世!联手MIPS改写云边端AI训练格局

▲Wave Computing高级副总裁兼CTO Chris Nicol

会上,硅谷AI芯片当红炸子鸡Wave Computing高级副总裁兼CTO Chris Nicol发表了题为《革命性的AI深度学习计算加速架构和处理器——Dataflow和DPU》的演讲。

作为Wave的技术最高负责人,Chris不仅阐述了Wave在数据流处理器和软件可动态重构处理器(CGRA)这一创新架构方面的研发进展,而且还分享了关于AI芯片未来趋势的预判。

在大会前夕,智东西还与Chris进行了一次面对面的深入交流,从Wave在数据中心、边缘与终端的AI加速筹码,聊到Wave下一代7nm DPU的技术升级,Chris告诉智东西,Wave计划在明年推出7nm DPU。这也是Chris首次接受国内媒体的深度专访。

Chris谈到,基于Wave研发的DPU,软件可动态重构处理器CGRA有潜力革新现有的深度学习格局,另外他认为,联合学习将是机器的未来。

一、AI训练将从数据中心走向边缘与终端

Wave Computing成立于2010年,目前专注于通过基于数据流(dataflow)技术的系统加速从数据中心到边缘的AI深度学习计算,主要业务部门分别承担MIPS IP业务、硅芯片业务、系统业务和解决方案业务。这家公司在全球七个国家设有办事处,累计融资超过2亿美元。

就在去年6月,这家公司将ARM昔日的对手、老牌半导体IP公司MIPS收入麾下,并在不久之后宣布MIPS开源计划。

无论是在演讲还是在与智东西的交谈中,Chris均强调到AI正从数据中心游向边缘:“神经网络正变得越来越大,新的竞争将是网络化之争。”

Wave CTO Chris:7nm DPU计划明年面世!联手MIPS改写云边端AI训练格局

万物互联正成为可能,每一个设备都通过网络实现联通,大到数据中心系统,小到边缘和终端设备都在进行智能化升级。Chris提出数据中心的两个关键词,分别是“scale up”和“scale out”。

Scale up是指将大量芯片集成在一个机架中,scale out指的是在数据中心将大量的机架网络化。在训练一个大型神经网络时,通过将scale up和scale out结合,即可以构建一套大型的数据流超算。

Wave CTO Chris:7nm DPU计划明年面世!联手MIPS改写云边端AI训练格局

目前,全球领先的半导体公司,分别专攻芯片、系统、IP和解决方案这些服务中的一个或几个,比如谷歌、华为暂不对外销售自己的芯片,微软、亚马逊、Graphcore等都不做IP。Chris表示,Wave是迄今为止全球仅有的同时提供从数据中心到边缘的系统、芯片、IP、解决方案服务的公司。

二、创新架构CGRA:比GPU更灵活,比FPGA低门槛

Wave希望探索通过软件编程来动态重构芯片,这和清华大学魏少军教授所提出的“软件定义芯片”异曲同工。

自成立以来,Wave一直深耕于基于数据流驱动dataflow技术的DPU采用非冯诺依曼(von Neumann)架构的软件可动态重构处理器CGRA(Coarse grain reconfigurable array/accelerator)技术,并基于此研发出基于CGRA架构的AI芯片——DPU(dataflow processing unit)。

智东西曾与Wave Computing中国区总经理熊大鹏博士的交流,熊博士生动阐述数据流(dataflow)的工作原理。(革命性的DPU牛在哪?深度对话Wave Computing熊大鹏

CGRA适用于大规模异步并行计算问题,其主要优势是使得硬件更加灵活地适配于软件,降低AI芯片开发门槛。

Chris称,相比较CPU、GPU和FPGA,CGRA在可编程性(或通用性)和性能方面达到很好的综合平衡,具有更好的能效和性价比。在保持良好的可编程性(或通用性)的同时,CGRA的能效可以达到或接近ASIC的水平。

他还介绍道,由于CPU的通用处理能力无可取代,CGRA通常是和CPU进行协同作用。不过相较GPU无法脱离CPU独立工作,而CGRA仅需CPU帮他处理控制、管理和数据预处理任务,所以它比GPU速度更快。

与FPGA的主要区别则在于编程,FPGA使用的是硬件编程语言Verilog,对于软件工程师来说编程难度大。而CGRA支持C、Python、JAVA等高级程序设计语言,更方便程序员们上手。

Wave CTO Chris:7nm DPU计划明年面世!联手MIPS改写云边端AI训练格局

三、7nm DPU硬核升级,CGRA与MIPS强强联合

基于CGRA架构,Wave Computing打造了数据流处理器DPU(dataflow processing unit),适用于汽车电子、智慧零售、智慧金融等各种复杂、算力要求高的各类AI应用。第一代DPU采用16nm制程工艺,以6 GHz以上的速度运行,已经落地商用。

Wave CTO Chris:7nm DPU计划明年面世!联手MIPS改写云边端AI训练格局

Chirs Nicol表示,Wave所做的DPU芯片,将软件接入到芯片,可以存取外部内存上的数据信息。该芯片内部集成大量Cluster,每个Cluster内包含8个DPU算术单元、16个处理元素(PE,Processing Element)及存储器。其中,PE用全局异步、局部同步设计实现,没有时钟信号,由数据流驱动。PE和CGRA可同时运行计算。

Wave CTO Chris:7nm DPU计划明年面世!联手MIPS改写云边端AI训练格局

此外,Wave还引入512 x 512通用矩阵算法(GEMM)处理深度学习任务,充分利用系统的多级存储结构和程序执行的局部性,以降低能耗和加速计算。

Wave CTO Chris:7nm DPU计划明年面世!联手MIPS改写云边端AI训练格局

Chris在PPT中展示了GPU和DPU在数据中心应用的区别。图左为GPU的工作流程,多个GPU并行训练,然后CPU会对该模型进行更新和梯度、参数、损失以及其它变量的反馈。对于大型模型,这种方式需要大量的GPU进行并行训练。

而Wave采用的工作流程大不相同(图右),Wave提供弹性的数据流、MIPS、AI算法及框架等面向云、边、端场景的解决方案。不管原先的数据流来自哪里,均可对这些图像图形信息进行部署,比如部署到汽车、移动手机等边缘领域。

Wave CTO Chris:7nm DPU计划明年面世!联手MIPS改写云边端AI训练格局

Wave用了8年多时间来开发这款芯片所需要的软硬件技术储备。Chris介绍说,相比上一代16nm DPU,Wave正与博通(Broadcom)合力研发的新一代7nm DPU将会有多处重大升级。

Chris主要介绍了两点升级,一个是引入MIPS技术,另一个是采用高带宽内存HBM(High Band Memory)。

首先,Wave已经推出的16nm DPU采用的是英特尔CPU,而下一代7nm DPU会引入64位MIPS多线程CPU。

Wave的新一代DPU可以支持TensorFlow在MIPS上运行,它的速度和能耗均比上一代DPU大幅升级。

Chris表示,MIPS拥有虚拟化、多线程处理等技术优势。相比ARM,MIPS是开源架构,不需要付专利费;相比RISC-V,MIPS已经经过6代的优化,更加节省能耗,同时生态也相对成熟。再加上Wave正在针对AI深度学习开发的MIPS扩展指令集,DPU可以满足多数终端设备对AI算力的需求。

Wave CTO Chris:7nm DPU计划明年面世!联手MIPS改写云边端AI训练格局

另外,新一代DPU引入高带宽内存HBM。HBM是一个新型DDR内存芯片,通过将多个DDR芯片堆叠实现大容量、高位宽的DDR组合阵列。HBM将帮助新一代DPU突破存储瓶颈,提升带宽并降低功耗。

Chris告诉智东西,Wave计划在明年发布7nm DPU的计划。

四、联合学习:实现边缘AI训练

说罢DPU如何发力数据中心,我们再来聊聊Wave怎样将机器学习训练从数据中心扩展到边缘设备。

Wave CTO Chris:7nm DPU计划明年面世!联手MIPS改写云边端AI训练格局

Chris特意提到联合学习(federated learning),就是在数据中心训练一个大型模型,然后将其分布到不同的边缘设备上,边缘设备也具备训练的能力,可以在数据中心训练好的模型的基础上,基于实际所处的环境进行新的训练学习,随后将训练完成的模型梯度再传回数据中心,促使数据中心进一步升级其神经网络模型,再将更新的模型传送到各个边缘或终端设备。

以自动驾驶汽车为例,一辆自动驾驶汽车上可能有20多个智能摄像头,每个摄像头都配有由数据中心训练好的神经网络模型,当它驰骋在不同的城市街道,比如上海、伦敦、纽约,摄像头所记录的街道、车型、车辆颜色等信息可能大不相同。

然而,数据中心并不能考虑到每辆自动驾驶汽车所“看到”的路况,这就需要汽车根据自己所处的环境,在边缘进行学习和训练,并将训练结果反馈到数据中心,从而升级主神经网络模型,然后数据中心再将更加智能的模型传送给各个自动驾驶汽车。

Wave CTO Chris:7nm DPU计划明年面世!联手MIPS改写云边端AI训练格局

如今数据隐私安全问题已经成了大众关心的一大焦点,而联合学习的方法使得边缘设备无需将采集到的数据传输给数据中心,保障了用户的隐私安全。

联合学习联同以低功耗著称的MIPS CPU,为Wave在边缘和终端加速AI的解决方案提供技术支撑。

结语:CGRA创新征途刚刚开启

如今NVIDIA仍是数据中心深度学习训练领域的独孤求败,但新的竞争者已经在积蓄力量,以CGRA为代表的AI芯片架构创新正在潜移默化地改变着AI芯片产业格局。

尽管CGRA还在发展的早期阶段,但Chris相信Wave将拥有光明的前景,他期待着更多的公司开始加入这一创新架构的阵营,共同撑起CGRA的新生态,随着新一轮的竞争格局形成,客户群体将是最终的赢家。