对话后摩智能CEO吴强:用存算一体解锁大算力芯片,不复制别人走过的路

芯东西(公众号:aichip001)
作者 |  心缘
编辑 |  漠影

写在前面:12月21日-22日,GTIC 2021全球AI芯片峰会将在北京举行。届时,来自芯片巨头、独角兽公司及创业新秀的产业大咖和技术专家将同台分享AI芯片的技术创新和落地经验。大会前夕,芯东西对参会嘉宾进行系列深度对话,提前一睹他们对产业的真知灼见。本期对话嘉宾为摩智能创始人&CEO吴强。

2021年的AI芯片圈,“大算力芯片”无疑是热度最高的话题之一。这个由英伟达、英特尔等半导体巨头执掌的赛道,正有一批创业新秀摩拳擦掌。

在产业界,吴强已经历练了大约20年。他经历过CPU和GPU的鼎盛时期,见证过互联网巨头的崛起,也曾亲临人工智能新一股浪潮爆发的前线。

从AMD的GPGPU/OpenCL创始团队核心成员、Facebook总部资深科学家,到国内知名AI芯片独角兽公司技术副总裁和CTO,他经历了一次次身份转变,在2020年底踏上新的创业旅程。

这次创业,吴强思忖已久。此时的云端及边缘计算领域略显拥挤:高举“国产替代”旗帜的GPGPU赛道,已经聚集了一只手数不过来的创企。吴强不想做同质化的事。

在他看来,颠覆性的新兴技术,才能真正带来赶超巨头的机会。由他创办的后摩智能,在国内率先提出基于存算一体,做面向边缘端及云端推理的大算力AI芯片。

创立不满一年,后摩智能已完成两轮数亿元融资,并于今年8月完成首颗核心技术验证芯片的设计。在近日的深入交流中,吴强告诉芯东西,其首颗样片已投片送测。

他希望后摩智能的选择,能让中国AI芯片成功的概率,变得更高一点。

对话后摩智能CEO吴强:用存算一体解锁大算力芯片,不复制别人走过的路

一、未来15年,必有AI芯片超越英伟达GPU

20世纪90年代末到本世纪初,奔腾(Pentium)系列高性能处理器横空出世,翻开英特尔辉煌的篇章,由此连续10年主宰全球PC处理器市场。许多伟大的研究论文也开始层出不穷。

那时,正在美国普林斯顿大学计算机科学博士学位、研究计算架构和编译器的吴强,被英特尔搅动的PC风云所触动,对芯片行业心向往之,先是进入英特尔参与研发高性能计算处理器安腾,随后加入AMD转向GPGPU研究。

经历几波科技浪潮,吴强总结出一个规律:技术永远是被需求驱动的,而人工智能(AI)是新一轮芯片热潮爆发的根本原因。

早期从DOS到Windows操作系统,对速度要求很高,如果不换智能机,软件跑不起来。底层芯片的快速迭代推动了很多伟大的工作出现。但后来随着PC市场开始饱和,很难再出现颠覆业界的新软件。到2009年左右,芯片行业已经陷入低潮。

PC产业被连年唱衰之际,互联网企业却在争议中走到了历史舞台的中心位置,通过网络不断吸纳海量数据,带动起全球的流量风暴。

吴强意识到,PC市场对算力的需求越来越弱,而大数据、并行计算、高性能计算的需求之门正被互联网企业开启。他转而进入Facebook,亲历了这家企业从数百人的创企成长为科技巨头,直至2017年,芯片行业因为AI的方兴未艾,再度涌动起创新的热潮。

“AI的出现带动了所有算力的需求。”吴强说,因为智能化符合人性,没人喜欢苦累繁复的工作,他坚信AI普及会是大势所趋。AI对算力更大的需求,驱动了芯片产业的变化。“所以,我一定要做AI芯片,因为它有需求,有需求就有发展。”

伴随着AI兴起,一家美国芯片公司开始飞升,它就是AI训练加速市场的霸主——英伟达NVIDIA。

英伟达是第一家、也是迄今最成功的AI计算芯片公司。在2006年以前,英伟达更多是作为游戏显卡龙头享誉全球,解决了GPU统一编程难题的软件平台CUDA横空出世,并在数年后与GPGPU联手,成为AI技术革命的核心燃料。

乘上AI东风的英伟达,股价一路走高,如今最新市值已逾8000亿美元。

对话后摩智能CEO吴强:用存算一体解锁大算力芯片,不复制别人走过的路

吴强从2006年就开始接触和研究英伟达产品,对CUDA和GPGPU架构设计有深入理解。

现在主流的AI计算源自GPGPU,而GPGPU源于图形处理单元GPU。GPU本来用于做图形渲染,渐渐地,研究人员开始尝试让它做非图形相关计算,由是出现general purpose GPU,即业内常说的GPGPU。

但第一个成功的路线,就是最好的路线吗?

“不一定。”在吴强看来,英伟达的成功存在一定的历史偶然性,“我们需要回答的问题是,我们能不能做出一个更符合AI计算特性的东西来。”

他坦言,这条路必然充满挑战,但如果放大时间维度,看向未来15年,一定会有人能做出来

二、大算力芯片时代到来,政策加码、资本涌入

“挑战英伟达”,凡是站定AI芯片赛道的初创公司,几乎都会喊出这样的口号。

但在英伟达极厚的软件生态壁垒面前,即便有些海外创企已经大牛如云,至今仍在挑战英伟达的道路上步履维艰。

不过,中国正迎来新的时运。

从2018年开始,持续不断的中美贸易摩擦将芯片半导体这一信息产业“软肋”推至风口浪尖,国产替代的号角吹响,资本开始倾注各个“卡脖子”的关键赛道,许多行业老兵选择跳入创业的汪洋。

吴强亦是如此,他看见了中国AI芯片枝繁叶茂的远景,并关注到一个千载难逢的机会——中国人敢做大芯片了!

中国有上千家芯片设计企业,其中早期一批芯片企业大都在做小型应用芯片,包括WiFi芯片、电源芯片、蓝牙芯片等等。但做大算力芯片的玩家相对少见。这是个高投入、高门槛、高试错成本的赛道,一个芯片流片动辄要耗去几千万美元。

现在,在政策鼓励、需求激增、资本力捧的大环境下,大算力芯片创业的池子正在变大、变得活跃,很多像吴强一样在工业界做了20年的老兵开始入局。

这促使吴强在创业之初便下定决心:“第一,我要做AI芯片;第二,我要在中国做。

做什么?是下一个要解答的问题。

吴强观察到一个现象,创业者总是一窝蜂地冲到同质化赛道,国产替代仿佛成了“金字招牌”,抢产能、抢人才等浮躁现象出现,在他看来,这些并不利于国内芯片发展。

大算力AI芯片领域存在类似的境况,“英伟达怎么做,那我也国产替代复制一遍。”吴强觉得这种用英伟达的方式打英伟达,很难实现真正的超越。

他也支持有人做传统路线的国产替代,只不过,总要有人去探些新路,选择另辟蹊径,也有助于增加中国AI芯片成功的概率

因此,2020年下半年,面对已经聚集着一批云端AI芯片创企的国内市场,吴强决定去走一条截然不同的路——用存算一体做大算力芯片,并立下实现单芯片算力高达1000TOPS的目标。

三、不复制别人走过的道路

为什么选择存算一体?这是综合考量的结果。

吴强在计算芯片及编译器等技术积累深厚,曾获第38届计算机体系架构顶会MICRO-38唯一的一个最佳论文奖,其科研成果被美国业内杂志IEEE Micro评选为年度最有影响的12个科技成果之一,并多次担任国际会议项目委员会委员和国际期刊的客座主编。

除了早年研究的GPU外,他也是谷歌第一代TPU论文的5个主审编之一,非常清楚TPU的技术底层逻辑。在研究过各种非常规的新兴技术后,吴强认为存算一体可能颠覆传统AI芯片的路径。

对话后摩智能CEO吴强:用存算一体解锁大算力芯片,不复制别人走过的路▲吴强与团队交流(来源:焦点访谈)

他将AI芯片公司分为三类:1)把AI算法与硬件高度融合,将算法一部分固化在硬件;(2)仿照英伟达的技术路径,把GPGPU做图像的东西去掉,只保留做AI计算的部分;(3)针对某一类应用场景或某一种工作负载来做相对定向优化的AI计算

这三类都有不少公司在尝试。一方面,这些方式很难在通用性和效率上做到两全。另一方面,用这种方式去挑战英伟达,会面临巨大的工程上的挑战,很难真正超越英伟达。

而存算一体并没有遵循传统的冯·诺依曼架构,而是更多是从底层技术去重新设计,用存储介质承担计算任务,以节省数据在存储与计算单元之间搬运所导致的延时和能耗。这是一个全新的维度,是可以在不损失通用性的前提下,实现效率的提升。

做存算一体AI芯片在业内已经有公司在尝试,但用存算一体做大算力AI芯片,彼时在国内并不多见。

早先存算一体技术活跃于学术界,国内外也出现了一批团队尝试先做小算力芯片。他们对推动“存算一体”芯片的发展做出了积极的贡献,也增加了外界的关注度。

吴强不想“复制别人的存算道路”,他观察到技术发展至新阶段,用存算一体做大芯片已成可能

存算一体芯片的实现依赖存储介质。早期存算一体技术在做大算力方面有一定局限性。近几年(特别是2018年之后), 新型存算技术和新型存储介质技术都发展到了一个新阶段,用存算一体做大算力芯片已成可能,商业落地的苗头渐显。

吴强想,结合自身积累的工业经验和学术资源,也许能抓住这个时代机遇,达到更高的天花板。

四、先攻边缘端和云端推理,首颗样片年底回片

做大算力存算一体AI芯片,既离不开拥有工程实践经验、做过大算力芯片的人才,也需要存算一体技术积累深厚的人才。

吴强本身兼具长期的工业背景和很强的学术资源,因而能将这两拨人聚在一起,他也将此视作团队核心竞争力所在:兼备学术创新能力和工程能力,具有架构、算法、软件等层面的综合积累,并熟悉整个产业链玩法,深入理解要以下游客户需求为出发点反过来定义芯片,而不是先有技术这把锤子,去到处寻找钉子

“我比较幸运,团队里有这样的人才。”吴强说,其团队成员在存算一体研究的技术积累超过15年,在学术顶刊发表过多篇相关论文,并有业内最丰富的学术流片经验。。

一方面,只有具备学术创新能力才能真正做到“知其然,并知其所以然”;另一方面,除了能按论文理论做出芯片,团队还需能将芯片理论产品化,只有拥有工程化经验、做过芯片并深入理解客户需求的团队,才有能力快速地往前走。

聚集了多位能力强、有技术信仰和长期主义的人才,这是创业以来,尤其令吴强最感到骄傲的事。有的团队成员是从异地加入,有的放弃了高薪或数量可观的成熟上市公司期权,他感慨道:“这说明对方是真正认可你在做的事情。”

对话后摩智能CEO吴强:用存算一体解锁大算力芯片,不复制别人走过的路

▲后摩智能办公室(来源:焦点访谈)

在吴强看来,大芯片创业要闯三道关:做出来、落地、规模化商用

多数芯片公司都能做到第一步,即做出芯片;接下来真正难的是落地商用,这将会经历一段很艰难的日子;实现落地难关的公司将到最后的冲刺阶段——起量,这时市场会排出前几名。

因此,在解决做什么、怎么做的问题后,接下来的关键战略选择,就是芯片首先落在什么场景

在云端训练领域,设计出性能、能效超过英伟达GPU的芯片并非不可能的事,英伟达真正坚不可摧的是由CUDA+GPGPU砌成的生态壁垒。吴强认为,要替代英伟达,起码要比英伟达的产品性能好5~10倍,1~2倍的改良客户可以就等下一代产品,没必要忍受一个新的、没那么顺手好用的软件。

他选择先从竞争对手相对薄弱的环节——边缘端和云端推理攻入。当前AI推理芯片普遍采用特定领域架构(DSA),其效率与通用性存在天然矛盾,而存算一体恰恰能发挥出兼顾高效能与通用性的优势。

经过近一年的发展,如今后摩智能的团队规模扩大至近百人,研发团队硕博士占比超80%,申请了10余项新专利。

吴强透露道,后摩智能的首颗存算一体大算力样片已经投片送测,预计年底回片、明年点亮

结语:大芯片创业窗口收窄,创新值得被鼓励

据吴强观察,中国大芯片元年从2018年开始,到今年是三年的开放窗口期,待到今年年底后,创业窗口将收窄,再想入局可能为时已晚。此时早期一批玩家已经各占一席,如果还在做基于类似技术的产品,很难做出差异化。

除了存算一体外,吴强也希望国家可以多鼓励企业去探索其它的底层创新技术路线,尤其是新材料、新存储介质等基础技术,这些技术的发展,甚至有望推翻整个计算机设计的基本假设,开创出AI芯片新思路。

“如果中国真想超越美国,需要有人去做这样的事情。”他呼吁无论是投资还是创业,都少做同质化探索,多往不同的创新技术路线去布局和分配资源,才更有可能抓住历史机遇。

随着更多投资者开始关注新兴技术赛道,国内市场将有一个大浪淘沙的过程,然后趋于理性,留下真正产生价值的AI芯片公司。