三星存内计算登Nature!全球首搭MRAM,铺路下一代AI芯片

芯东西(公众号:aichip001)
编译 |  
高歌
编辑 |  
Panken

芯东西1月18日报道,近日,三星电子在顶级学术期刊Nature上发表了全球首个基于MRAM(磁性随机存储器)的存内计算研究。

存内计算由于毋需数据在存储器和处理器间移动,大大降低了AI计算的功耗,被视作边缘AI计算的一项前沿研究。虽然MRAM存储器件具备耐用性、可大规模量产等优势,但其小电阻的特性阻碍了这类存储器被用于存内计算。

本次,三星电子的研究团队通过构建新的MRAM阵列结构,用基于28nm CMOS工艺的MRAM阵列芯片运行了手写数字识别和人脸检测等AI算法,准确率分别为98%和93%。

三星存内计算登Nature!全球首搭MRAM,铺路下一代AI芯片论文链接:https://www.nature.com/articles/s41586-021-04196-6#Sec2

一、研究扩展存内计算类型,填补MRAM空白

在传统的计算机架构中,数据需要从内存移动到处理单元,然后将中间结果存储回内存。但这种无谓的信息传输不仅增加了计算延迟,也提升了相关功耗。

根据台积电此前对存内计算的研究,数据移动所消耗的能量甚至大于计算的能量消耗。因此,在内存中同时执行数据存储和计算的存内计算成为了行业与学术机构研究的焦点。

此前的研究中,非易失性的RRAM(电阻式随机存取存储器)和PRAM(相变随机存取存储器)是存内计算最常用的两类存储器。相比之下,尽管MRAM器件在操作速度、耐用性和量产等方面具有优势,但其较低的电阻使MRAM存储器在传统的存内计算架构中无法达到低功耗要求。

在本篇论文中,三星电子的研究人员构建了一种基于MRAM的新存内计算架构,填补了这种空白。论文特别写道,该研究并非和基于其他存储器的存内计算架构竞争。到目前为止,没有一种存储器类型在电子产品中占据绝对主导,因为不同类型的存储器各有自身的优点和缺点。因此,基于不同存储器的存内计算也可能发展成不同的架构。

从这个角度看,三星电子通过填补基于MRAM存储器的存内计算架构空白,有助于存内计算发展。

三星存内计算登Nature!全球首搭MRAM,铺路下一代AI芯片▲三星研究团队:共同通讯作者SAIT(三星高级技术研究所)院士、哈佛大学教授Donhee Ham(左一);论文一作SAIT研究员Seungchul Jung(左二);共同通讯作者SAIT技术副总裁Sang Joon Kim(左三)

二、基于28nm CMOS工艺,准确检测1851张人脸

三星电子构建了一个64×64的MRAM阵列,其外围电路通过28nm CMOS工艺进行了集成。

具体结构上来说,MRAM阵列在写/读(W/R)电子元件和底部的TDC读出电子元件之间,输入数据控制器(IN)位于阵列左侧。

为了弥补MRAM小电阻的问题,三星电子引入了一种新的位单元(阵列行列交叉处的元素,bit-cell),每个位单元组合成两条路径,每条路径则由一个MTJ(磁性隧道结)和一个FET(场效应管)开关串联组成。

三星存内计算登Nature!全球首搭MRAM,铺路下一代AI芯片▲芯片布局与MRAM阵列排布(图片来源:Nature)

研究人员将每列中这些新的位单元串联起来,每个位单元的输出电阻相加便得到了列电阻R。通过新的结构设计,列电阻R取代了传统(存内计算)结构中基于基尔霍夫定律的列电流总和,成为了列输出,解决了MRAM器件电阻较小的问题。

简单来说,就是三星电子开发了一种MRAM阵列芯片,用新的“电阻总和”内存计算架构取代了标准的“电流和”内存计算架构,从而解决了单个MRAM器件的小电阻问题。

为了将这种新的MRAM阵列用于AI计算,研究人员采用了二值神经网络(BNN)算法。这种算法的精度可以以网络大小为代价,将每个实值权值表示为二值化函数,或以计算速度为代价将每个实值输入数据表示为多个二值化函数序列,以提高BNN算法的精度。

该研究中,三星电子采用了后一种方式,将每个输入数据扩展为8位编码,以抑制噪声。之后,研究人员用两层BNN网络以对MNIST数据集进行分类。

MNIST数据集来自美国国家标准与技术研究所(NIST),训练集和测试集均由不同的手写数字组成,数据集和测试集50%的手写数字来自高中生,另外50%来自美国人口普查局的工作人员。

三星存内计算登Nature!全球首搭MRAM,铺路下一代AI芯片▲不同的手写数字7(图片来源:CSDN)

研究人员用MRAM阵列执行了对1万个手写数字图像的分类,并重复了三次,得到了93.23±0.05%的准确率。测试后,研究人员又通过VGG-8神经网络对1万个手写数字图像进行了分类,其准确率高达98.86±0.06%。

除了手写数字分类,三星电子还用4个MRAM阵列芯片运行了人脸检测算法。在这一步,MRAM阵列芯片并没有对场景中的所有对象进行人脸认证,而是先检测场景中是否存在人脸,确认存在后再激活更高功率的人脸认证算法。

通过这种方法,MRAM阵列芯片从2000个无遮罩人脸场景中检测到1851张人脸,准确率为92.5%;从500个遮罩人脸场景中检测到483张人脸,准确率为96.6%,总体准确率为93.4%。此外,MRAM阵列芯片可以和相机结合实时检测人脸。

三星存内计算登Nature!全球首搭MRAM,铺路下一代AI芯片▲4个MRAM阵列芯片与相机相连实时人脸检测(图片来源:Nature)

三、集成多种器件面临挑战,未来或可用于生物神经元网络

对于这项研究,研究人员写道,MRAM阵列运行存内计算的一个重要挑战是构建AI SoC(片上系统),将许多阵列和数据转换器、数字电子设备进行集成。

研究人员还强调,宽泛来说,内存阵列不仅可以用来运算神经网络算法,也可以作为潜在的生物神经元网络载体。

2021年9月,三星电子和哈佛联合在Nature子刊Nature Electronics上发表了名为《Neuromorphic electronics based on copying and pasting the brain(基于复制和粘贴大脑的神经形态电子学)》的论文,提出了一种将大脑神经元连接图(neuronal wiring map)“复制、粘贴”到高密度3维存储网络上的可能。

三星存内计算登Nature!全球首搭MRAM,铺路下一代AI芯片▲三星此前“复制、粘贴”大脑的研究(图片来源:Nature)

MRAM阵列研究的第一作者Seungchul Jung称,存内计算与人类大脑的计算类似,因为人类的计算也发生在记忆或突触网络中。虽然MRAM阵列当前的计算目的并非模仿大脑,但这种固态存储网络将来可能会被用作模拟大脑突触的平台。

结语:新研究或将丰富三星存内计算产品

近年来,存内计算已逐渐成为产业界和学术界的公式,相关论文反复出现在ISSCC和IEDM等电子领域的顶级会议中,台积电等半导体头部厂商也都在布局和探索。

三星电子作为全球存储龙头,更是一直在关注存内计算技术。去年2月,三星电子便公布了其首款集成了AI计算能力的高带宽内存(HBM),可以节省70%以上的能耗并提供2倍以上的系统性能。本次基于MRAM的存内计算研究丰富了三星在存内计算领域的布局,未来或许能够看到更多类型的存内计算产品出现在市场上。

来源:Nature