革命性的DPU牛在哪?深度对话Wave Computing熊大鹏

智东西(公众号:zhidxcom)
文 | 心缘

写在前面:在成功举办国内首场AI芯片峰会「GTIC 2018全球AI芯片创新峰会」之后,智东西联合AWE、极果将于3月15日在AWE期间于上海举办「GTIC 2019全球AI芯片创新峰会」。届时,全球AI芯片领域的20+位技术大牛和产业大咖齐聚,将就AI芯片的生态构建、架构创新与应用落地进行阐述和讨论。大会前夕,智东西对大会嘉宾进行系列深度访谈,提前一睹他们的风采和对产业的真知灼见。本期访谈嘉宾为Wave Computing中国总经理熊大鹏博士,Wave Computing CTO Dr. Chris Nicol届时会参加本届AI芯片创新峰会上午场。

在刚过去的一年,智能化的车轮继续向前滚动,AI芯片作为载动AI发展的中流砥柱,依然是科技圈最炙手可热的话题之一。

随着AI算法的快速演进,芯片架构创新已经成为国内外AI芯片玩家提升竞争力的一大焦点,新兴的芯片架构正在崛起,力图打破CPU、GPU等芯片架构铸就的铜墙铁壁。

如何兼顾传统架构的通用性,同时实现数量级的性能提升?在这之中,美国创企Wave Computing绝对是2018年AI芯片领域一颗耀眼的明星,他们正在通过基于数据流(dataflow)技术的系统加速从数据中心到边缘的AI深度学习计算。

这家在2010年成立于美国加利福尼亚坎贝尔的公司,在去年1月被Frost&Sullivan评为2018年“机器学习行业技术创新领导者”,6月收购老牌芯片IP公司MIPS,8月透露7nm DPU开发计划,12月宣布完成8600万美元E轮融资,Wave总计融资金额已超过2亿美元。

革命性的DPU牛在哪?深度对话Wave Computing熊大鹏

近日,智东西对谈Wave Computing中国总经理熊大鹏博士,对架构创新的三类技术流派,其数据流驱动dataflow技术、以及实现dataflow技术的软件可动态重构处理器(CGRA)这一创新架构如何突破性能和通用性的瓶颈等问题进行深入交流。熊大鹏博士从其20多年的半导体从业经验中总结出AI芯片的三类技术流派,同时也讲述了MIPS开源计划背后的逻辑。

一、三类技术流派主导的主流AI芯片

熊大鹏博士于2018年加入Wave Computing任职中国子公司总经理。他拥有美国德克萨斯大学奥斯汀分校航空航天工程博士学位,以及应用数学、电子工程和自动控制等领域的硕士学位。熊大鹏博士在半导体和系统工程领域深耕20余年,在加入Wave之前,他曾在上海兆芯半导体公司、Apexone Microelectronics和美国ADC等公司任职,从事系统架构、芯片设计及产品策划等相关工作。也曾在华中科技大学任教。

AI算法的快速发展,促使芯片架构创新成为必然需求,熊大鹏博士将当前的芯片架构分为三个技术流派。

第一个技术流派是CPU、GPU和FPGA。这一流派对于不同的算法、神经网络,具有一定的通用性。它的主要缺点在于,无论是系统架构本身,还是说数据传输通道及交换容量不足的问题等,都会导致其效率相对而言较低,实际能效遇到瓶颈。

第二个技术流派是专用芯片ASIC。通常ASIC解决方案是基于DSA(domain specific array/architecture)这样一种技术思路,即针对特定应用领域优化的处理器架构,包括谷歌TPU在内的很多跨界造芯玩家均采用这种思路。

相比通用芯片,这种解决方案的优势在于对特定应用能显著提高能效比,但当遇到网络和算法变化较大的情况时,它在通用性上的不足会导致其面对不同形态的网络和算法时,能效表现千差万别。

现在混合型的模型正在越来越流行。以智慧无人值守超市为例,它往往需要面部识别、行为识别、轨迹跟踪等多个不同功能的神经网络模型同时运行,最后将这些模型的运行将结果放在一起进行融合分析。而类似于这样的应用,对于ASIC来说会有一定的技术挑战和门槛。

第三类是软件可动态重构计算(或者说“软件定义芯片”)。这也是清华大学微电子所所长、中国半导体行业协会IC设计分会理事长魏少军教授带领的团队早在十年前就开始研究的技术。

这类技术流派的特点是,采用非冯诺依曼(von Neumann)架构,通过软件实时动态地控制成千上万个异步的处理器来构成具有特定功能的、并行处理的、数据驱动的计算流水线,最充分使用芯片的算力,最大程度减少数据存储、传输和交换,实现较好的效率、通用性和可扩展性。

Wave Computing看重并研究的数据流(dataflow)架构正属于第三类技术流派。

二、从技术到产品,Wave的AI芯片成长之路

在详解dataflow技术架构之前,我们先说说Wave Computing是让如何一步步确立AI芯片方向的。Wave Computing的成长可以分为两个阶段,第一个阶段是解决技术问题,第二个阶段是做出产品。

9年前,Wave Computing刚成立不久,深度学习尚未问世,这家公司的主要任务是解决一个革命性的技术问题——基于软件可动态重构处理器CGRA(Coarse grain reconfigurable array/accelerator)技术的大规模异步并行计算问题。

2014至2015年是一个分水岭。在此期间,他们用这一技术研发了一款采用28nm制程工艺的芯片样品,验证了其技术的可行性,可应用于大规模并行计算的数据挖掘等领域。

也是在这段时间内,Wave Computing意识到这一技术对深度学习和大规模计算的重要性,并意识到CGRA非常适用于实现数据流驱动dataflow技术架构,其AI芯片DPU(Dataflow Processing Unit)的产品方向至此确立。

基于dataflow技术架构芯片DPU的解决方案不仅适用于数据中心,在边缘计算方面也有独特的价值。一方面,AI对边缘处理的能力要求越来越高;另一方面,AI不再只是单一模型的处理,现在更多的是类似contexual visual analysis,需要同时支持多个不同的神经网络,对处理器的通用性和能效的要求更高。

据熊大鹏博士介绍,Wave的单芯片解决方案DPU对边缘计算来说非常适用,可以在保证较好通用性的同时,在相同价格、功耗的条件下,实现比GPU解决方案更高的能效、可扩展性和性价比。

三、DPU架构:适合深度学习,比GPU更高效

CPU、GPU等传统的芯片,每结束一阶段的计算任务,需要将数据输送到外部的DDR计数器存储,等到下一阶段再重新从计数器取出数据,处理完数据后再存回去,这样繁复的流程容易造成数据通道的拥堵,特别不适合AI对巨量数据处理、传输和存储的要求。

这是典型的冯诺依曼(von Neumann)架构。基于数据流驱动dataflow技术的DPU采用非冯诺依曼(von Neumann)架构的软件可动态重构处理器CGRA(Coarse grain reconfigurable array/accelerator)技术,在最合理分配和使用算力的同时,成倍节约了数据存储和传输带宽。熊大鹏博士表示,这一方案基本上能将芯片算力资源的利用效率保证在75%-80%以上。

具体而言,对一个完整的神经网络计算流程,对每个计算节点,可以事先分配好合理的资源,使得整个计算流程达到资源有效地使用。同时,每处理完一个任务节点,它会将数据直接传输到第二个任务节点的输入端,第二个任务处理完数据后,它会将数据直接传输到第二个任务节点的输入端,第二个任务节点处理完数据后,又会将任务送到第三个任务节点的输入端,就像pipeline似的,最大程度减少数据存储和传输。

熊大鹏博士打了一个形象的比方,做一百层神经网络计算就如同设计手机生产线的一百道工序。在每一道工序中,要确定做什么事、准备完成任务的工具以及物流分配方式。

首先是确定做什么事,生产手机时,要知道现在的任务是安装屏幕还是按键。同样,DPU要先确定在神经网络的这一层是做池化、卷积还是其他操作。

接下来,装手机需要电烙铁等合适的工具。对于DPU来说,就是要把需要的乘法器、模块化计算等资源准备好,其存储空间就相当于手机生产线上存放工具的工具台。

开始安装手机后,每完成一道工序后就进行判断,如果暂时用不到,就先将其送回存储器等待重新分配。如果接下来可以接着这道工序继续操作,就可以将半成品直接送到下一道工序。这里的仓库对DPU而言就相当于存取数据的DDR存储器。

通过对上述三步的仔细规划,可将每一道工序的资源最大程度地利用。只需将数据放置到第一个工序的入口,它就会自动地进入到第二道、第三个直到一百道工序全部完成,然后将最终结果输出。

此外,熊大鹏博士还介绍道,Wave提供基于dataflow技术架构的整体解决方案,会有一个独立的通用CPU模组来提供控制、管理和数据预处理功能,但无需实时干预DPU。

目前Wave已经落地商用的DPU采用16nm制程工艺,每个DPU具有16384个处理元件,面积为300多平方毫米,并以6 GHz以上的速度运行。其DPU与国内外多家云服务商和AI公司均有紧密合作,合适汽车电子、智慧医疗等各种复杂、算力要求高的各类AI应用。

四、收购MIPS:是双赢

Wave Computing备受瞩目的一大原因,是其在去年6月收购了老牌IP提供商MIPS。要知道,MIPS曾比ARM还要火,是三大处理器架构和平台之一,只可惜在生态的较量中渐显颓势。

Wave收购MIPS后不久,宣布了MIPS开源计划。熊大鹏博士表示,这是一个不可逆的开源计划,对于MIPS本身和Wave Computing而言会是个双赢的举措。既有助于MIPS建立更强大的生态,又可以吸引更多优秀的公司做出更多基于MIPS的优秀IP和CPU产品,同时也会促进Wave去开发更好、更适合市场的IP,这对于Wave自身和整个产业都是很有价值。

围绕加速AI计算的目标,Wave计划将MIPS与AI相融合。因此,在开发新的MIPS IP的时候,Wave会有针对AI深度学习计算开发相应的MIPS扩展指令集。另外,除了会作为芯片内部的管理功能之外,MIPS IP也将被用到AI芯片DPU当中,成为加速深度学习计算的重要组成。

据熊大鹏博士介绍,MIPS架构在虚拟化和多线程处理等技术上拥有独特的优越性,使用MIPS核加针对深度学习的扩展指令集,一般就足以满足许多终端设备对AI算力的需求。

以汽车电子为例,Wave Computing提供两类MIPS CPU内核,包括域控制器电子控制单元(ECU)和用于高级驾驶辅助系统(ADAS)的自动驱动域控制器,旨在解决汽车制造商在边缘安全性和智能处理方面的独特难点。

由于自动驾驶包含激光雷达、红外线、高清摄像头等多个器件,而MIPS在多任务切换、延时等方面的性能表现非常出色,因而在自动驾驶领域的应用越来越广泛。今年2月,Wave宣布其MIPS处理器技术使80%以上的车辆配备了当今领先汽车制造商的高级驾驶员辅助系统(ADAS)。

除了提供无与伦比的性能外,Wave的AI数据流技术与MIPS的IP架构的融合还通过提供单一、线性可扩展且高效的AI计算平台,该平台能够将AI功能扩展到其他自动驾驶车辆功能。

Wave现已拥有MIPS的400多项专利授权,并会为开源社区的成员提供专利保护。 作为MIPS开源计划的主要推动者,Wave将邀请业界知名的企业、高校等共同推动技术的发展和生态的建设。关于MIPS开源计划的具体细节,Wave Computing会在今年3月月底公布。

结语:创新架构涌现,AI芯片的未来趋势在哪里?

在计算体系结构持续演进的过程中,AI算法的高速成长对AI芯片性能提出了越来越高的需求,CPU、GPU等主流芯片架构早已不再是唯一选择。

AI技术无疑成为这个时代新的催化剂,催生出新一轮架构创新风潮。无论是半导体巨头还是新兴AI创企,都在积极探索兼顾性能、通用性、灵活性与成本的可行方案。

新一轮采用创新架构的AI芯片产品的落地潮即将到来,如果真正掌握扎实的芯片技术,同时对产品有着准确的定义和规划,成为AI芯片新的引领者并不是什么异想天开的事。

GTIC 2019全球AI芯片创新峰会将于3月15日在上海举办,Wave Computing高级副总裁兼CTO Chris Nicol博士将出席峰会并发表主题演讲,我们期待Chris Nicol分享关于革命性的AI深度学习计算加速架构dataflow技术和处理器DPU的更多细节。