芯东西(公众号:aichip001)
编辑 | GTIC
芯东西9月8日报道,在刚刚落幕的GTIC 2022全球AI芯片峰会期间,后摩智能创始人兼CEO吴强以《用存算一体助力智能驾驶算力革命》为题发表演讲。
吴强认为,存算一体是解锁算力和功耗难题的金钥匙,这种创新计算架构具有大算力、低功耗、低延时的特点,对工艺的依赖较弱,能用28nm工艺做出基于传统计算架构的其他AI芯片用7nm甚至5nm工艺才能实现的性能或者能效比。
今年上半年,后摩智能首颗存算一体芯片成功点亮,首次达到运行智能驾驶的复杂AI场景所需算力和精度需求,成功跑通11个类别的智能驾驶典型算法,能效比高达20TOPS/W。
吴强透露,其首颗芯片预计在今年底或明年初送到一部分客户侧试用。
以下为吴强的演讲实录:
大家好,很高兴能代表后摩智能来参加这个峰会。我今天演讲的主题是《用存算一体助力智能驾驶算力革命》。
这里面有两个关键词,第一个是存算一体,第二个是智能驾驶。我先从智能驾驶讲起。
一、智能驾驶普及商用,对芯片提出新的要求
汽车产业正经历一个百年未有的大变局,主要是新能源化和智能化,它对人们的出行方式、生活方式都会带来很大改变,这种改变某种意义上不亚于100多年前汽车刚刚出现的时候。
在今天的中国,走在智能化和电动化的前列,我们已经能够感受到这种改变,比如说今天在大部分城市,你上了一个网约车,很大概率这是一个新能源车,你会听司机跟你说新能源车比燃油车便宜多了,口袋里很多钱、很幸福。
不管是新能源车还是传统燃油车,汽车智能化是一个主要的趋势,并且这种智能化的趋势比我们想象要快。比如说很多专家预计2023年可能智能化普及率到25%,但事实上我们今年L2及以上的智能化普及率已经接近30%,到2025年可能接近50%。这意味着我们中国每年有2500万辆的车,大概有1000多万辆车会有L2或者以上的智能化。
这种智能化也改变了我们生活,很多是一种刚需,前几天,一个朋友跟我说,他因为家里有事情,要开车回家单程1000公里,一个周末,2000公里在高速上,如果有智能辅助驾驶是很轻松的事情。
智能驾驶智能化的普及和商用,对芯片提出了很多新的需求,要普及智能化有三个要素:一是强智能,就是这个东西足够聪明,至少让我在高速上开1000公里也非常轻松;二是低成本,因为中国大部分的车是在10-20万人民币,而这些车能用得起;三是安全,用车是人命关天。
从芯片的角度来说,它对应着是大算力、低功耗、低成本、高可靠。
从算力的角度来说,智能芯片发展到今天,有一个核心的矛盾。
二、智能驾驶芯片发展的核心矛盾
在需求侧,算力需求不断增长。
比如我这里比较了特斯拉Model 3和今年刚发布的蔚来的车:第一,传感器多了很多,像素也多了很多,120万到800万更高,这都会对应着算力大大加强;第二,算法变得更加复杂,并且还在不断演进,这意味着我需要芯片对算法有更开放的一个支持,因为一定要能够支持未来的算法。
而目前的做法是什么?
首先,我要做大算力,以前是几十TOPS,现在是几百甚至到千TOPS。在智能驾驶芯片,那么我用先进的工艺,从7nm到5nm甚至到3nm,我用HBM来增加存储带宽。
但这些东西,第一,非常昂贵,只有大厂才玩得起,比如HBM就是英伟达和AMD做得最好。另外一种方法像用软硬耦合的方式来增加效率,这种提高了效率,但牺牲了通用性。
所以某种意义上来说,今天我们在智能驾驶计算面临的核心矛盾是:
第一,要大算力,但是用传统的方式去做,成本非常高。
第二,大算力必然代表着大功耗很高,因为差不多都是1TOPS/W的水平,而在数据中心可以用空调,在车上我没办法散热,散热就产生很大成本和稳定性问题。
一个朋友告诉我,你不要看家里的液冷,你的时效就增加了,因为每个环节增加了95%的可靠性,1个是95%,3个95%下去它就变成80%多或者更低的水平,所以我希望一个更简洁的方式来降低散热、功耗过高的问题。
最后,一定需要一个软硬解耦的方案,这是今天我觉得智能驾驶芯片面临的一个核心的矛盾。
三、存算一体,解锁算力和功耗难题的金钥匙
在所有的方式当中,存算一体,是一种创新的计算架构。在所有的新技术当中,它可能是能够解决我们今天算力和功耗的一把金钥匙。
从传统的冯·诺依曼到今天的存算一体,存算一体严格意义上它不是近存,近存我理解它是改良,它只是部分解决问题,而只有真正的存算一体才能从底层去解决这个问题。
它的能够带来的好处是:可以把算力做得更大,另外它天生有能效比的优势,可以避免大数据的搬运,它可以把能效比做一个数量级上的延伸,它的延时也有提升。还有一个最重要的点,很多人没有意识到,在今天的国际大环境下,我们面临着技术封锁,存算一体对工艺的依赖比较弱,它可以用更传统的28nm工艺做出别人7nm甚至5nm的性能或者能效比,这也是它天生的优势。
但它也面临挑战,毕竟它是一个新的东西。我也一直类比,就像电动车刚刚出现的时候有很多设计上的挑战,因为燃油车毕竟做了上百年,而电动车刚刚开始。因为冯·诺依曼也做了很多年,大家都知道怎么设计,而存算一体怎么做大算力,这是个刚刚开始的事情。
后摩选择用存算一体芯片,做智能驾驶、无人车、仿生机器人等边缘端场景,这本身从技术、产品和市场是个比较完美的匹配。
那么我们怎么把存算一体的技术优势变成一个产品优势,并且能解决下游客户具体的痛点。
举一个具体的案例,很多中档的车,他们是很在意成本的,而散热其实是个很大的问题,有三种方式,一个是自然风冷,一个是风扇,或者液冷。自然散热无论从成本、可靠性都是最理想的,但是这有一个强制要求,就是功耗在15瓦以内。
传统的NCU大家没有问题,大家都是自然散热。而智能驾驶给车厂带来一个新的头疼的问题,从来没遇到过芯片那么热,怎么散热,能不能不用液冷、不增加成本,这是车厂很关心的问题。
如果在传统冯·诺依曼架构上,差不多1瓦1TOPS的样子,15瓦大概20TOPS或者更高一点,这其实满足不了L2++或者更高自动驾驶的需求。
而存算一体它能够用能效比高的特点,做到比如15瓦的功耗算力达60TOPS(物理算力),或者更高的算力,满足L2++智能驾驶的需求。
四、首颗存算一体芯片今年点亮,成功跑通主流智能驾驶算法
简单介绍一下后摩,后摩主要是两拨人,一拨人做存算一体的大牛,另外一拨人是像我这样在工业界做了20年、在做大芯片、做过CPU、GPU,或者智能芯片的一拨人。
我们两拨人一起碰撞,怎么解决我们面临的问题?我们一起想到了这些比较认可、比较看好存算一体做智能驾驶芯片、做大算力芯片的路径,所以我们走到了一起,成立了这家公司。
后摩也得到了一线资本的认可,目前在南京、上海、北京、深圳设有研发中心,我们今年也点亮了第一款大算力的芯片,并且跑通了一些智能驾驶的主流算法。
用存算一体做大算力芯片,这是一款AI芯片,怎么去设计电路,怎么做AI核融合,比如架构层面,包括编译器、算法层面怎么去融合,这些都是我们成立以来面临的挑战,是我们要解决的核心。后摩成立一年多,现在也申请了大概30多项的专利。
我举个例,这是我们第一代的AI核的设计,整个都是我们自己设计,采用了分层分布式的设计。从右边开始是最底层,我们叫Macro,是存算单元,它是在存算里做计算的单元,根据不同需求,它可以有不同大小,比如512×64、64×64。
若干的Macro可以组成一个Macro Group,多个Macro Group可以组成一个Macro Group Array,Array就变成了Tensor Engine这儿的一部分,我的Tensor Engine主要是Macro Group。
一个Tensor Engine组成了一个Tile,有点于类似于FSD的Core,是一个独立运算单元。若干Tile可以组成AI Core,多个AI Core又可以组成Cluster,Cluster变成了SoC,就是车规SoC里最重要的AI计算单元。
整体来说,一个Tile之间本身类似一个FSD Core,是一个独立运算单元,多个Tile之间也可以联合起来进行运算,多个AI Core也可以联合起来做一个联合运算。所以整体来说它是一个分布与集中的完美的结合,这是我们第一代的设计思路。
我们成立以来,去年成功做了第一颗流片,这颗流片是业内第一次把存算一体做到了几十TOPS甚至更高的芯片,能效比20TOPS/W左右。
我们把它点亮,并且成功跑通了一些主流的智能驾驶算法,比如像检测、识别、语义分割。
这应该也是业内第一次用存算一体芯片做出了能够做智能驾驶主流AI应用场景的尝试,这是按照一个量产的设计,我们考虑了冗余、自修复等等,是完全按照一个产品级的设计。我们第一代芯片希望今年底或明年初能够送到一部分客户去试用,这是我们产品方面的一些进展。
五、未来规划:奔向100倍能效比
再说一下我们未来几年产品的规划。
后摩做存算一体,它是基于不同的存储介质,前几代基本上基于成熟的SRAM去做,SRAM现在比较成熟,性能也好,但它容量有限。
我们希望在用SRAM我们能做出至少能突破500TOPS到千TOPS之间的大算力芯片。
2.0阶段,我们芯片是基于更先进的如MRAM、RRAM等存储介质来做的。我们希望它本身有更大的容量,能够做出更大的算力和更高的能效比,可以推出更有竞争力的产品来。
后摩的芯片是通过底层进行架构创新,对于客户来说是无感知的,他不在乎你是怎么实现的,他不在乎你是用存算还是冯·诺依曼,他只要看到一个更好的产品,有更好的性能、更好的延时等等,这是我们希望的结果。
对后摩来说,软件更加重要,我们尽可能希望能够对接主流的AI的编程框架,包括比如应用层TensorFlow、PyTorch、ONNX这些,然后我们自己提供一个中间层,能够进行无感转化。
我们只做推理,希望有一层很轻的工具,把这些推理的模型进行转换,让大家做到无感。
另外,我们做相对通用的计算芯片,我之前说了,算法一直在演进,大家对开放性是有要求的,因为本身算力是个底层的架构,可以做到很通用,我们可以提供一系列的计算的架构,还能提供类似底层的接口,可以让客户自定义算子,这是我们在软件方面的一个规划和正在做的事情。
总体来说,这是我们软件栈,基本上我们希望是个软硬解耦的设计理念,这里面有三个颜色,看起来有点多:棕色是我们提供的硬件、芯片、驱动软件、SDK;黑色是我们会提供一个参考设计,包括参考的硬件、解决方案;灰色是客户自己的东西,更多是应用层,包括他们的操作系统、中间件等等,基本上是三层。
我们希望给客户,把软硬解耦的方式,我们提供一个参考设计,让客户有最大的灵活度开发自己的东西,这是后摩智能的设计理念。
六、愿景:打造1P/W的算力,支撑万物智能
最后分享一个有趣的产业观察。我觉得在一个国家或者一个地区,一个产业的繁荣一定会带动或者孵化出本地供应链的龙头企业。
打个比方,比如说在七八十年代日本消费电子,大家记得摄像头等的繁荣,诞生了像松下、索尼这样一些优秀的半导体企业。到90年代,美国PC产品的繁荣,当然也带动了英特尔、AMD这些大的半导体公司。
原因很简单,因为产品的厂商跟供应厂商它会有一个良性的循环,产品厂商会把需求给供应商,供应商就能够做出更好的部件、更好的服务,因为是本地,反过来厂商会把更多的订单给供应商,最后形成一个良性的循环。
所以我自己的结论是说,中国汽车在电气化和智能化它一定会崛起,这是一个趋势。它必然会带动本土供应链公司,包括芯片公司做大做强。
所以我也希望我们后摩智能以及在座的一些兄弟AI芯片公司,能够抓住这个历史机遇,做大做强,做出中国自己的芯片国际巨头。
最后,我讲讲后摩智能的愿景,左边这个图是从刘明院士的演讲里摘取的,她讲了一个有趣的事,说芯片能效比每提升1000倍都会延伸出一个新的计算形态,比如小型机时代差不多1M/W,PC机时代差不多1G/W,而我们现在的手机时代差不多1T/W。她的预测是,如果到未来,真到了万物智能的时代,也许我们需要1P/W的计算能力和能效比。
我很喜欢刘明院士这个演讲,我把它引进来,也表达后摩智能创业的初心,我们希望用更多底层的技术去打造1P/W的算力。
后摩智能早期从无人车、机器人、乘用车的智能驾驶作为切入点,把产品落地,为客户创造价值。未来,希望能向仿生机器人、VR/AR这些领域去拓展,最终我们希望能够打造人工智能时代的一个算力平台,去实现万物智能的美好愿景。
以上是我的分享,谢谢大家。
以上是吴强演讲内容的完整整理。