苹芯科技杨越：拆解存算一体技术进阶，解读大模型芯片的四个优化方向

芯东西（公众号：aichip001）
编辑 | GACS 2024

2024全球AI芯片峰会（GACS 2024）于9月6日~7日在北京举行，大会由智一科技旗下芯片行业媒体芯东西和硬科技知识分享社区智猩猩发起举办，在主会场开幕式上，苹芯科技联合创始人兼CEO杨越以《存算的进阶——从神经网络到大模型》为题发表了演讲。

苹芯科技联合创始人兼CEO杨越拆解了存算一体技术的进阶过程。产业界主流芯片的出现和成长与当下计算需求的特点紧密相关，2015年前后，计算体系结构中的计算瓶颈从处理器端向存储端迁移，尤其是神经网络的出现，加快了人工智能（AI）芯片计算效率的提升节奏，存算技术因此受到关注。

杨越认为，存算一体技术在大模型时代的新风口，是尽量在有数据存储的地方，都加入计算。随着软件不断发展，基于存算的端侧芯片今年已经逐步成熟。未来，在云端解决数据带宽瓶颈，或将成为存算芯片下一个杀手级应用。

苹芯科技杨越：拆解存算一体技术进阶，解读大模型芯片的四个优化方向 | GACS 2024

▲苹芯科技联合创始人兼CEO杨越

以下为杨越演讲内容的完整整理：

存算一体技术是解决当下算力焦虑和效率焦虑的有效途径之一。苹芯科技是以存算一体技术为抓手的一家芯片设计初创公司。今天，我们的话题围绕着AI芯片展开，演讲的主题是从AI 1.0时代的神经网络，走向AI 2.0时代的大模型，存算一体技术如何持续赋能。

一、存算一体的诞生：数据处理瓶颈从计算端，转移到存储端

我们不难发现，产业界所有主流芯片的出现与成长，都与当下计算需求的特点紧密相关。

最初，斯坦福实验室于1969年首先提出了存算技术这个概念。后来，1992年在多伦多大学，1997年在伯克利实验室，相继尝试以逻辑电路的形式拉近存储与计算的距离。

但在上个世纪的计算机体系的整个架构中，计算的瓶颈位于处理器端，因此大家主要提高了CPU的效率。同时，外加摩尔定律当时仍然有效，从存算的角度来说它的杀手级应用还没有出现。

2000年前后，大数据对于并行计算的需求逐步加大，以英伟达为代表的GPU芯片逐渐成为主流。英伟达的市值现在已接近3万亿美元了。GPU这种架构对于高级制程升级，以及对于通用性计算支持都是非常好的。

大概到了2015年，随着神经网络架构的出现，存算技术受到更多关注。背后的原因主要有两方面。

一方面，计算体系结构的计算瓶颈开始向存储端迁移，存储墙、能效墙的问题逐步浮现。

另一方面，AI本地化要求芯片具有更高的计算效率要求。过往冯·诺伊曼架构的数据搬运模式并不能满足AI芯片的计算效率，但神经网络架构突破了这一点，并且用存算技术可以有效支撑AI推理中大部分的阵列式运算，这也给存算技术带来了宽广的商业化空间。

我们可以了解下冯·诺伊曼架构与存算一体架构间的区别。将一个计算结构分为计算单元和存储单元两部分。绝大多数芯片能耗都浪费在数据搬运上，占比超85%。如果我们把这部分节省掉，一定程度上，计算效率能大幅提升。

在冯·诺伊曼架构中，需要计算时，数据先从存储单元里面读取出来，通过数据种线传到计算单元，运算完成后，结果会返回到存储单元。我们发现，计算总线上数据搬运得非常频繁。

相比于冯·诺伊曼架构，计算体系内还有存内计算架构、近存计算架构等。近存计算的方式是不断缩短存储和计算单元间的距离，而存内计算就是把这个距离缩短到极致。

在存算技术架构中，计算单元和存储单元放在了一起，计算总线上数据搬运频次降低了，总量也减少了。

不过，当计算单元所需要做的事情，简化为只是给存储单元发出开始计算的指令，这个架构也相应会有一些劣势。原因是并非所有的计算种类都依靠一些简单的指令，便能够在存储单元中完成。这种架构需要牺牲一部分通用性。

我们评价一个架构的时候，主要考虑其通用性、专用性、成本这3个指标。相比冯·诺伊曼架构来说，近存和存内计算架构不仅专用性更强，而且成本更低。

二、存算一体的意义：动用更少的资源，来高效解决更多的计算任务

大多数情况下，不同的存算技术路线指向的是底层对于不同存储器件的使用，比如说有静态SRAM，也有ReRAM。每一种存储器都有其工艺特点，甚至还有上层成本特点、性能特点等等。

例如，SRAM耐久性比较好，读写速度比较快；ReRAM存储密度高，可以支撑大量模型存储。然而，从整个计算系统结构来看，很难说有一种RAM通吃市场，历史上这种事情也从来没有发生过。

我们对比了几个主流的、基于CMOS结构的存储器，比较的项目主要是读写时延、数据稳定性、功耗等几个方面。

做推理运算的时候，无论是算法工程师，还是芯片工程师，可能更关注存储器的稳定性，以及读写的速度。

而在训练场景中，大家可能更关注存储器的耐久性，以及读和写的对称性。因此，不同的应用场景对于底层存储器的需求和选择也会有所差别。

与现有的存储器相比，SRAM产业化基础、产品化基础比较好。过去几十年，SRAM和DRAM在计算体系结构中从未缺席。

硬件各有所长，市场各取所需，那么存算技术的意义是什么？

存算技术突破了冯·诺伊曼架构处理器的计算效率天花板，而选择存算架构的处理器能用更小的能耗完成更大的计算任务。

我们最终交付给客户的芯片，通常有多种形态。NPU主要可以提升神经网络的效率，可能涵盖矩阵加速、非线性加速等。基于NPU还可以打造端侧SoC，比如MCU+AI、车载SoC等。云端也相继出现服务器板卡、加速版卡等。

一般来说，对精度要求比较低的随机运算，对精度要求比较高的科学运算，精度要求介于两者之间的信号处理、深度学习加速等，都可以借助存算技术为其赋能。

随着模型规模不断突破上限，无论是神经网络模型、Transformer大模型，还是大家最关心的生成式模型，其存储要求越来越高，带宽越来越大。其中，生成式模型已经出现几百亿，甚至更大的参数量需求。

AIoT领域十分看重智能化升级和功耗能耗，存算技术的高能效比可以发挥出较大优势。因此，存算技术可以为大模型、AI芯片赋能，其落地场景也大多集中在AIoT领域。这也给存算技术创造了一个进军AI生态的切入口。

三、苹芯科技部署SRAM存算一体端侧模型

我们回顾一下产业界近期的动态。今年，存算技术的应用，首先实现端侧的产业化落地。

苹芯科技正在推进SRAM存算一体端侧模型部署。

首先向大家介绍苹芯科技的一款NPU，它是一个集成在SoC芯片里面的IP，用于执行神经网络的加速任务。

如果您的产品里面有简单的语言控制类、图像识别类的任务，这款NPU能帮你大幅节省整个芯片集成的时间，从而让你的产品可以比竞争对手更早推出市场。

性能上，我们现在可以交付28nm和22nm的NPU，整个静态功耗可以做到1mw以内，工作功耗可以做到几毫瓦以内，并且它的面积仅有几个平方毫米。它可以满足端侧小型化、智能化设备开发商对一款NPU芯片的所有想象。

功能上，这款NPU可以支持目前市面上所有经典神经网络的加速，比如图像识别、物体监控、智能超市、运动分析、健康数据分析、图像分割等。

我们还可以允许用户对这款NPU二次开发。我们所有的编程接口都是以算子为节点，现阶段支持12大类、超过100种的基础神经网络算子结构，极大丰富了用户二次开发的工具箱。这些算法结构里，不仅有存算技术擅长的线性运算，还覆盖了非线性运算。

其次，基于这款自研的N300，苹芯科技推出了SoC芯片，名为“S300”，主打多模态和环境感知的功能。

S300内的神经网络加速部分采用了28nm的N300。这款芯片可以对接摄像头、麦克风、陀螺仪，从而实现用一款芯片覆盖更宽泛的应用领域。

S300的核心能效比超过20TOPS/w，可以实现离线交互，不依赖于wifi、5G，也能语音识别、图像识别等。像无人机、智能家居、智能玩具、智能座舱，都将是这款芯片的应用场景。

最后，我们的目标市场比较清晰，主要是可穿戴市场和AIoT市场。

我们发现，目标市场未来的产品有一些共性。一方面是轻量化、便携化的趋势，要考虑到无法插电源工作的情况。另一方面，都有从非AI类转向AI类的产品升级需求。其中，技术层面会存在矛盾，即系统内部算力不断上升，但供电量不断下降，这亟需高能效比的技术来支撑AI类产品。

基于对市场体量的预测，到2025年，可穿戴类产品已经有超1000亿元的市场规模。这类产品将趋于小型化、轻量化、便携化，因此内置的芯片会特别小，一般在10平方毫米左右。除此之外，端侧的本地算法会不断升级，本地电池也会不断变小。

面向AIoT行业，我们看到全球到2030年有超过10万亿级别的需求。目前，AIoT场景内的产品，特点是碎片化，这需要较强的软件层面来支持其泛化能力。

四、大模型时代要升级用户体验，存算技术才是核心驱动力

回到今天的主题，存算技术已经在神经网络里实现较为理想的应用落地了，那么在接下来的大模型时代里，存算技术又可以做什么？

我们要去理解大模型行业正在发生着什么。由于大模型的出现，AI的泛化能力逐步增强，大模型的生态格局也被重新塑造。但是不管最后怎么样变化，大模型行业核心的驱动力，都来源于用户体验的提升。

举个例子，过去大家获取、检索信息以搜索引擎为主，现在方式更加灵活、更加实时，还能通过对话的形式获取信息，甚至更加智能化、多模态化，这也催生了不同的应用形态。

此外，从智能决策、个性化、交互、集成调度、执行准确这5个方面，用户都对新的交互方式提出了不同的要求。

同时，用户有多大的付费意愿、想支付多少费用，来换取基于大模型的用户体验。这给底层AI芯片到产品的构建，都提出了不同的要求。

分析上述各类需求后，我们发现大模型行业里所有公司，都在试图切入这个生态。我们经常在行业里面听到一句话，“AI可以把现在所有的软件都重写一遍，也把所有的硬件都重新设计一遍”。

这句话可能每个人理解得不一样，但大方面确实如此。无论是科技大厂，还是创企，都在用颠覆式的创新适应大模型行业。

科技大厂通过AI聊天机器人来完成AI升级。

一些公司则更关注生产力场景，用AI创作内容、提升工作效率。而像一些垂类场景，部分公司选择通过AI+解决方案的方式，切入中间模型层。

大模型公司会提供更好的模型使用工具，优化开发者生态，来构建底层MaaS这样一个云端的应用新业态。

专注于端侧的公司也在不断切入端侧的应用。苹芯科技也是其中一家。我们把模型不断做小，参数量从700亿到70亿，甚至到10亿，最终把模型嵌入到家居类、机器人类、智能对话类的应用中。

苹芯科技对于自己的定位也非常清晰，我们只把自己看作是一个算力基础设施的提供者。我们关注云侧和端侧的算力构建，同时也关注AI推理类的芯片。背后的主要原因是，推理类运算更加符合存算一体技术的性能特点。

我们的客户价值主张就是低成本，而低成本有两条路径，一个是降低芯片的制造成本，另一个是降低芯片的使用成本。

制造成本方面，我们不依赖7nm、4nm等高级制程，但仍然可以实现高能效比，这是解决当前算力焦虑和能效焦虑行之有效的路径。

使用成本方面，客户愿意支付多大成本，去为电量付费，去用延长AI硬件待机时长，这都是我们需要关注的内容。

基于大模型能力，我们当前有两个拓展方向。

第一个方向，我们仍然相信Scaling Law，模型越大，能力越强。这个宗旨的追随者主要开发云端产品，包括训练和推理，这也是目前主流加速器还是GPU形态的原因之一。

在Scaling Law路线上大家更关注存储容量、通信带宽、互联能力和构建成本。云端服务器产品、加速网卡等，在产品设计层面的定义基本围绕这四个维度。

第二个方向，与第一个方向从模型角度来看是相反的。大家选择把模型越做越小，在知识围栏领域内，把模型内置到嵌入式硬件中。

在路线二当中，最重要的是产品定义的能力。大家的诉求更多是数据安全、通信延迟等，更关心的是芯片面积、功耗。产品形态上，大家则将更多重心放在AI手机、AI PC，以及AIoT领域从神经网络到大模型能力的升级。

五、大模型芯片架构，可以从四大方向着手优化

针对大模型的芯片架构，从宏观上看，我们有4个优化方向。

以Transformer算法结构为例。第一个是存储架构的优化。

大家已形成一个共识，即模型的升级会给存储架构带来非常大的压力，其中包括存储模型的权重、参数、中间数据转移等。

我们提出了一个内存估算的公式。如果单独跑一个70亿模型的训练任务，大概需要7张24GB的4090芯片才能完成一个任务。保守来说，一个推理任务的规模大概是上述训练任务的1/3到1/4左右。那么，当模型参数量增加到几百亿、几千亿以上，存储架构的压力非常大。

第二个是数据交换方式的优化。

存储架构的压力会波及数据交换环节。单个GPU的存储空间有限，芯片整体性能的表现也会受限。

现在主流的解决方案，包括HBM方案、GDDR方案等。GDDR侧重于通过提升工作频率来增加带宽，HBM侧重于通过提升运行度来增加带宽。前者性价比更高，后者则在带宽计算能力上有绝对优势，不过HBM的成本也较为昂贵。

第三个是成本的优化。

如果我们把H系列，或者市面上比较主流的芯片拆开来分析成本架构，会发现第一影响要素是工艺制程的选择。

第二影响要素是IP的价格，是否使用了非常昂贵的IP，像HBM的IP、高级封装IP、互联IP等。我们是不是可以在牺牲通用性的前提下，进一步降低成本？

第四个是通用性和专用性的平衡。

这永远是一个矛盾的主题，现在绝大多数都去谈论像CUDA生态兼容这方面。某种意义上，在设计模型的时候，CUDA能够提供的精度和算子是开发的基础，并且对底层性能的调优时，也要有一定的容错性。

对于专用的芯片，我们关注到美国那边新提出的一个概念，用软件定义硬件，从而能够减轻或者甩掉数据搬运的包袱。这也是一种很主流的芯片设计趋势。

六、存算技术渗透计算机体系“金字塔”的各个环节

从微观上看，存算技术可以做些什么？

存算技术目前是一个比较宽泛的概念，有数据存储的地方都可以加入存算，搭建存算一体的结构。

在整个计算机体系当中，存储器是一个金字塔结构，金字塔的各个层级出现了一些非常有趣的创新做法。

以最近中科院计算所一个非常有意思的项目为例，他们打造了一个所谓的SMART SSD，这是最外层的存算，在硬盘里面做存算。硬盘其实是一个TB级别的存储空间，在硬盘上存储的数据更多是非结构化的数据。在硬盘主控芯片上集成一些NPU颗粒，存储控制颗粒，这对数据早期的清洗以及结构化提供了很大的帮助。

再往金字塔下层走，就来到了内存条。

最近三星和UIUC有一个基于CXL层面的优化，是充分利用LPDDR5X打造了一个智慧内存条。

具体来说，这个智慧内存条基于DFX结构，修改并加入了智能化能力。原本它只具备GEMV加速的能力，但是现在加入了支持通用型矩阵的计算能力，如果没记错是64×32，浮点FP16，从而提升效率。

相比于传统的GDDR、DDR5内存技术，它容量上扩大了16倍，在吞吐量、能效比上也获得了明显的优化。

再往下走一层，就来到我们熟悉的HBM。目前主流的HBM2、HBM2e已经达到非常强大的效果，拥有大几百GB的带宽能力，但成本非常高。

最底层，通过GEMM优化SM实现带宽加速后，数据传输速率可以达到几十TB每秒。同时，还可以把算子级的能力，像矩阵的加成、Embedding集成放到硬件里面去做。

结语：存算技术率先在端侧商业化，未来或将上“云”

纵览时间轴，存算一体技术已经走过了四个阶段。从最早期的院校研究，到现在商业化落地，后续将集成更大、更强的计算能力。

其中，最重要的一个进阶维度就是商业价值的进阶。存算一体技术从最开始的实验室研究价值，到现在能够真正为那些遇到存储墙问题的企业解决实际问题。该技术最先在端侧落地，例如嵌入智能硬件、延长续航时间、增强本地智能化能力，以及初步萌生多模态能力等。

存算一体技术在商业价值上的进阶，与其他维度上的进阶密不可分。其中包括芯片存储器的成熟，算力从零点几TB到几TB，再到几十TB的升级，底层电路结构的优化，软硬件协同，甚至还催生了软件、编译器、工具链的成熟。

未来，存算相关的路线或者说要解决的问题，首先便是异构能力的增强，既包括存储介质异构，也包括架构上的异构设计。 “通用性、计算性能、成本”这三者本身就是矛盾的铁三角，存算也许能带来解决问题的新思路。
其次，存算为不依赖于高级工艺来提升算力和计算效率，提供了新的思路。3D堆叠以及存内计算都可以更好地拉进存储器与处理器的距离，减少数据通信的频次和数量。存储和通信带宽已是大模型的瓶颈。

软件逐步成熟后，基于存算一体技术的端侧芯片今年已经开始规模化生产和应用了。未来在云侧，除了可以为小模型加速之外，解决通信带宽瓶颈也许可以成为存算一体技术的下一个杀手级应用，我们期待未来两到三年内能够达成这一目标。