芯东西(公众号:aichip001)
编辑 |  GACS 2024

2024全球AI芯片峰会(GACS 2024)于9月6日~7日在北京举行,大会由智一科技旗下芯片行业媒体芯东西和硬科技知识分享社区智猩猩发起举办,在主会场边缘/端侧AI芯片专场上,智芯科创始人兼CEO顾渝骢以《具身智能的大脑芯片》为题发表了演讲。

智芯科从2019年开始研究基于SRAM的存算一体芯片,已有大量专利积累。智芯科创始人兼CEO顾渝骢认为,具身智能是其中最大的落地场景之一,具身智能对低延时、低功耗都有严苛的要求,因此有必要配备高能效的存算一体AI芯片。

存算一体芯片的主流技术路径包括DRAM、SRAM、Flash、Emerging NVM等。其中,SRAM具有读写速度快、能效比高、工艺成熟和可集成性佳的优势,可快速无限次读写,很适合Transformer的自注意力机制。凭借这些优势,SRAM已成为海内外存算一体技术研发的首选。

智芯科基于SRAM的模数混合存内计算芯片,精度高、量产一致性高,并能够进一步降低功耗。硬件之外,智芯科还打造了通用性、易用性较强的软件生态。据顾渝骢透露,未来智芯科将推出面向具身智能感知到大算力边缘服务器的众多产品,覆盖大模型、机器人和自动驾驶等场景。

智芯科顾渝骢:详解SRAM存算一体技术优势,将研发服务器和穿戴芯片 | GACS 2024

▲智芯科创始人兼CEO 顾渝骢

以下为顾渝骢的演讲实录:

我是智芯科的创始人。我们目前主要的研究方向是基于SRAM的存算一体创新技术。我们从2019年就开始研究这个技术,目前正在为这个技术找到各种各样的落地场景。

我个人认为,未来具身智能一定是该技术最大的落地场景,类似于人的发展。人形机器人的出现,可能会改变人们的生活体验,每个家庭以后都会有1个,甚至多个人形机器人。

一、低延时且低功耗,将有效解决人形机器人的智能和传感两大问题

如何解决人形机器人的智能问题,以及它的传感问题呢?那么,我们需要提出一些新的芯片。

具身智能的样式形形色色,有人形的、有类狗型的、有无人机式的。这些都可以叫具身智能。而具身智能最大的一个特点是要能给出实时反应。

我前两天看了一个视频,机器人走上演示台的过程中可能要摔跤了,像这种情况,机器人必须要有很快的速度才能反应过来。

传统的芯片虽然也用到了AI,但是反应速度延迟,可能会出问题。它不能够及时把数据传到云端,再快速传回来。虽然这其中的延迟只是毫秒级别的,但机器人可能已经摔倒了。因此,为了减少延迟,我们必须要解决不用5G或者6G连云端,而是让算力直接“上身”到机器人,成为机器人的“小脑”。

“小脑”问题解决之后,我们就应该提高机器人的续航能力。如果一个机器人在家里面干不了几个小时,又要休息,又要充电,显然不太合理。

我个人认为,未来大家都会非常关注高能效AI芯片,而存算一体可能是目前看来比较现实的方法。我相信一个好的产品肯定会把各种各样的先进技术集合在一起。我们会采用存算一体技术,也会采用Chiplet技术,来真正解决具身智能大、小脑的功耗问题。

二、易读写、可异构、难替代,SRAM仍是存算一体技术的最优解

目前,国内外大家都在关注存储器方面的问题。

英伟达走的是相对来说传统的GPU、NPU的路,这条路终究会到头。现在英伟达正在开发3nm工艺,台积电甚至已着手研发2nm工艺。1nm工艺、小于1nm工艺的芯片,我觉得已经要突破物理理论极限了。

海内外都在推进存算一体技术的研究,主流方向是SRAM。我们要把存储和运算有机地结合在一起,突破原来的冯·诺伊曼架构,这样才能解决存储墙、功耗墙问题。

我们通常认为有4类存储器,包括DRAM、SRAM、Flash等。这3类都是现在比较成熟的存储工艺,每个都有各自的优缺点。

我们发现,相对来说,SRAM是比较经济的一种实现存算一体的方式。

首先它的读写速度很快,它也没有读写次数限制。目前还没有一种新型存储器可以代替SRAM。

SRAM还有一个最大的好处,它可以异构,这也是它和DRAM最大的不同。我可以把SRAM存算一体技术、CPU和GPU等组合成一个SoC芯片。

总的来说,SRAM存算一体技术用在Transformer的自注意力(Self-Attention)机制里,是非常有优势的。它可以快速并且无限次地刷新,而每次的计算结果,又能以非常快的速度存回去,从而准备下一次的计算。对于Attention机制里Q×K×V这个矩阵基本的运算,想要真正实现低功耗,SRAM可以算是最好的方案了。

三、芯片算力最小仅1GOPS,最大有1000TOPS,可针对不同场景定制

下面我们简单介绍一下智芯科。智芯科早在2019年就开始涉足存内计算领域,研发工作分布在深圳、杭州、合肥多地,期间也拿下不少专利,并且在SRAM模数混合的存算一体具备创新优势。我们不是采用模拟存内计算,而是采用数字存内计算,这样可以达到精度无损、性能速度非常好和能效比非常高的效果。

同时,我们SRAM存内计算还可以支持矩阵稀疏性。传统的NPU一般采用Zero Skip技术,通过在矩阵运算时跳过或忽略矩阵中的零元素,来减少不必要的计算过程,从而提高整体运算效率。

但是存内计算不需要做这些判断,如果是0的话,会自动省略,甚至里面有“0”这个比特都可以省略。我们可以实现输入DIN稀疏和权重Weight稀疏。

最理想的情况下,假设稀疏性利用率为50%,SRAM存内计算在22nm就可以做到23TOPS/w的能效比。如果采用7nm、5nm等更先进的工艺,其效率随之提高。

在拥有较好的硬件基础之上,开发一系列包括编译器在内的通用软件工具,这是非常重要的。因此,智芯科的业务除了芯片研发,也将逐步拓展到工具开发。

这是我们芯片的布局,基本上覆盖从1GOPS到1000TOPS算力规模的芯片,并且支持多模态能力。其中,小算力的芯片主要用于语音识别、语音交互等场景;AT700主要解决具身智能感知问题,比如具身机器人最重要的视觉;AT800用于构建具身智能的“大脑”;AT900则是车规级别的。

除此之外,我们将研发用于具备多模态能力的边缘服务器、大算力推理服务器和各类穿戴式设备的芯片。