芯东西(公众号:aichip001)
编辑 | GACS 2024

2024全球AI芯片峰会(GACS 2024)于9月6日~7日在北京举行,大会由智一科技旗下芯片行业媒体芯东西和硬科技知识分享社区智猩猩发起举办。在主会场AI芯片架构创新专场上,亿铸科技创始人、董事长兼CEO熊大鹏以《AI芯片架构创新开启大算力第二增长曲线》为题发表演讲。

熊大鹏认为,AI芯片架构创新将开启大算力第二增长曲线。如今摩尔定律面临挑战,以计算单元为中心的已到达天花板,将来AI芯片一定是以存储单元为中心。

他谈到如今算力提升面临瓶颈,首要破局之路就是是解决数据搬运问题,并详细展开阐述了存算一体技术对AI模型算力方面的支持作用。

在人工智能领域,存算一体技术正以前所未有的速度推动着计算效率与性能边界的拓展。该技术涵盖了存内计算与近存计算两大主流路径,旨在通过减少数据搬运、提升计算密度与能效比,为大规模AI模型提供强有力的算力支持。

亿铸科技于2023年首次提出存算一体超异构架构,并致力于通过基于新型存储介质,提供高性价比,高能效比的AI大算力芯片。

亿铸科技熊大鹏:算力增长面临挑战,存算一体技术成破局密钥丨GACS 2024▲亿铸科技创始人、董事长兼CEO熊大鹏

以下为熊大鹏的演讲实录:

一、AI芯片架构迎来第二增长曲线,大模型引领算力需求飙升

今天我这边介绍一下AI芯片架构第二增长曲线。

大模型发展到今天已经从量变发生了质变,量变指的是大模型不断加大参数等,能够使得模型的能力不断增强。质变,则是说当大模型容量到了一定程度时,人工智能尤其通用智能在某些方面超过人类,甚至后续的发展还会有更多超过人类的东西会出现。

同时,随着基础模型越来越完善的情况下,再加上大模型最后一公里的落地,包括AI智能体等等,对于AI计算能力的需求会不断持续快速地增长。根据研究报告,市场规模已经从2022年不到100亿增长到今年的780亿美金。

从英伟达的财报能看得出来,去年其收入差不多700亿美金,占了全球90%以上的AI芯片市场。预计到2029年,市场规模会到1510亿美金,在这个过程中,我们可以看得到,2026年有可能会出现比较明显的拐点。

这个拐点是什么?目前,全球更多的算力是花在大模型的训练上,到2026年,大模型会在各个领域开始落地推动推理算力的进一步增长。

根据IDC预计,到2027年用于推理的AI算力占比可能会达到70%以上,未来95%以上都是推理模型一旦成熟之后,主要就是落地应用,落地应用主要就是推理。

摩尔定律已经遇到很大的挑战,2019年OpenAI的研究表明,AI模型的计算量每年增长十倍,远超摩尔定律一年半到两年翻一倍。根据今年国信证券的研究报告,大模型的参数量每一年半增加35倍。

二、详述AI芯片“三堵墙”,硬件架构突破很重要

摩尔定律已经失效,我们一定要寻求新的硬件架构的突破。探索新的架构,成为非常关键非常重要的一件事

对于AI芯片来说,一直存在三面墙存储墙、能耗墙、编译墙。这些墙根源来源于存储墙,也就是所需要参数的存储量越来越大,对参数的搬运量也越来越大。从这里出发,带来很多的问题。

第一,存储墙会带来数据的堵塞,需要我们对数据流在动态过程中进行优化,这个也会导致软件的算子要做非常深度的优化。所有这些都会使得能耗非常高,不管是数据搬运导致的能耗,还是因为模型非常大,对于计算能力的需求非常高。

继而就会带来能耗墙的问题英伟达最新的芯片B200,现在已经推迟推出,其中的原因就是封装散热的问题。现在一颗芯片号称功耗超过1000多瓦,这是一个很恐怖的数字。

第三,就是编译墙。要对数据流进行深度的优化,这就要求编译器包括相应的工具能够做得非常好,能够提供非常好的优化工具。当然,这个很难做到,至少今天为止,我们做GPGPU公司很多人力物力包括资源都花在对算子、程序各方面的优化。这是为什么英伟达在软件生态上占据很大的优势,这也是一个主要的原因之一。

三、盲目堆算力不可取,存算一体技术可为AI模型提供算力支持

问题的根源其实还是来自于阿姆达尔定律。对计算架构基本实际有效的算力取决于两个因素,一个α,一个F,α比较好理解,更好的工艺,能够堆叠更多的计算单元在上面、能够有更高的工作频率,这个α值更高。

英特尔告诉我们,你买我更好的芯片,我的芯片工艺更好、密度更高、计算能力更强。但是我们买了它的电脑回去之后发现,其实它真正的计算能力并没有提高,或者提高不多,为什么?

真正决定计算效率的还有另外一个原因,包括数据的搬运、数据的缓存、数据的整备所花的时间等等,这个时间在整个计算周期里面它占的百分比是F,如果这个值很大的话,你这个α值再高,其实最后它会碰到一个天花板,这个天花板是由F值设定的。

在AI大模型的时代,我们的AI芯片包括英伟达的AI芯片,用于数据搬运,不管能耗也好,还是它占用的整个计算周期百分比也好,都超过80%,甚至90%,就意味着英伟达如果继续往下走,采取1nm、2nm的工艺,能收获的性能提升也就是20%左右,基本到天花板。

为什么英伟达现在把更多的精力投放到跟存储相关的,包括花很多精力去做HBM4.0。尽管这个东西做出来之后,最终赚钱可能是三星、SK海力士,但为了有效提升自己的AI芯片实际效能,这样一条路必须要走。

将来的AI芯片一定是以存储为中心,而不是以传统的计算单元为中心来配存储器。

这里举一个简单的例子,去解答F值怎样估算,怎样影响有效算力的。LLaMA2—70B每次完整计算至少有70B或者70G数据的搬运,并且这个数据搬运如果距离非常远,所经过的节点非常多,搬运的时候频率结点比较多,自然导致F值非常大,搬运70B所花的时间比较长。

现有的技术带宽是很大瓶颈。举一个例子,英伟达H100的算力大概是2000T,要把它的算力完全用满,即使计算强度非常低的情况下,它大概需要1000T的搬运量。这意味着即使现在用HBM4.0,甚至将来10.0或者20.0,我相信带宽也不够。

同样再往下走,用现在HBM3.0的技术的H100,大概是3T的带宽,当然有另外一些种类可以到4T、6T,我们以3T作为例子,它的性能天花板就是42token,远远低于2000T的算力质量能够达到的。当然它可以加上多用户批处理,去把它的算力用得更多,但是它带来的问题是延时比较长。

芯片本身能够支持的用户数量是有限的,不管内部的算子资源,还是并行度等等资源,会给它造成很大的限制。将来的模型会越来越大,我们相信带宽的瓶颈会更加突出这些问题,F值进一步上升,越上升意味着算力实际利用率越小。

如果只是盲目往上去堆算力,其实意义不大。

四、第一增长曲线已触顶,解决数据搬运问题成关键

以算力单元为中心的时代已经结束了,第二增长曲线一定是以存储单元为中心。

我们做过分析,第一增长曲线基本已经到了天花板,像今天英伟达BG200不断堆计算单元核,堆到1000多瓦,很难想象这是什么概念,比重庆火锅的温度还高很多。一定要想新的办法去解决这个问题。

突破天花板有两个途径,从芯片层面,主要就是要解决数据搬运的问题。数据搬运的问题第一点就是,缩短数据搬运的距离和时间,如果没有距离当然是最好的,缩短距离有很多不同的方式,包括近存、3D封装、2.5D封装等等。

另外一类,存内计算,计算和存储在同一个单元。除了芯片本身之外,我们知道大模型一般来说用一颗芯片装下去完成整个任务看起来不太现实,即使推理也需要多颗芯片来做,这时候做一件事可能是一个集群。既然如此,板件和板件的通信互联、芯片和芯片之间或者芯片内部用Chiplet组成一个完整的芯片。

我们认为,芯片之间的互联是解决这个问题的另外一个重要路径。包括类似英伟达的NVLink、NVSwitch技术也应该是重点的研究方向之一。

存算一体有很多不同的技术路径,有存内计算,有近存计算。

对存内计算来说存储和计算融为一体,有不同的方式做到这一点,尤其模拟计算。但模拟计算有很多问题,主要是精度不可信。那些号称8位精度、4位精度的,实际达不到。

数模转换会吃掉很多的面积和功耗,三四年前,大家开始往数字化的存算一体方向转,包括亿铸也算是在这个领域走得比较靠前。

通过数字化的方式,有优点,也有牺牲存储容量的代价。理论上来说,存内计算可以让F值等于0或者接近于0,是最理想的方式。当然它也有它的问题,最大问题就是它的存储容量,普遍来说,不管使用了哪种存储介质,要么存储容量不够理想,要么计算速度各方面不是特别理想,希望有新的更好的下一代的新兴存储能够出来。

后期的演进,到了全数字化存算一体,细节不解释,主要的原理就是每个存储器只存放0跟1,如果是8位精度就是8位存储器,如果是16位的精度就是16位存储器,性能可能会牺牲,但是精度是可信的并且消灭掉了数模转换最大的好处还是减少了或者消灭了数据搬运的瓶颈。

说到近存计算,可以想象一个存储器,不管其类型是SRAM、FRAM还是DRAM,我们将数据存放到这里。然后,另一侧有一个计算单元,其中包括可重构计算单元。存储器和计算单元可以通过2.5D/3D封装技术封装到一起,二者之间距离很短,传输宽带就变得很宽、速度很快。

另外,如果我们想处理像GPGPU相关的复杂计算任务,或者是逻辑计算等,也可以把这两个功能的芯片封装到一起,形成一个比较完整的AI计算芯片。这种计算芯片,在很大程度上突破或者缓解了数据搬运的带宽和瓶颈的问题。

将各种计算单元通过2.5D/3D封装技术封装到一起,不同计算单元可以用各种不同的存储介质,因为不同的存储介质可能有不同的优点,也有不足,根据不同的应用场景可以去做适配。这样做的好处是,会使传输带宽远远超过HBM(高带宽内存)技术,能效比和性价比接近存内计算。

存近计算与存内计算两个相比较,各有优缺点。或许把存内计算跟近存计算有进行非常好的结合,其效果更能够解决目前现实的问题。