Cerebras用史上最大芯片造AI计算机,比美国超算Joule快200倍

芯东西(ID:aichip001)
编译 |  子佩
编辑 |  Panken

芯东西11月20日消息,你可能并没有听过Cerebras Systems(下称Cerebras),但你或许听闻过世界上最大的芯片。去年八月,尺寸比肩iPad的巨型芯片Cerebras WSE引爆芯片圈,而背后的总设计师就是这家来自加州的AI创企。

Cerebras用史上最大芯片造AI计算机,比美国超算Joule快200倍

▲Cerebras WSE

近期,曾靠扩大物理面积赢取芯片性能提升的创企Cerebras,已经不满足于仅在芯片上做文章,而要到AI计算机领域大展拳脚。

在本周的超级计算大会SC20上,Cerebras展示了其基于Cerebras WSE的AI计算机CS-1,CS-1也不负众望,在具有5亿个变量的模拟计算中,击败今年世界排名第81的超级计算机Joule。

一、依托巨型芯片,计算速度超Joule 200倍以上

在SC20上,CS-1展示了自己针对火焰模拟的超强计算能力。在实际应用场景中,快速模拟燃煤电厂的燃烧过程,可以帮助人类预防大型事故的发生。

美国能源技术实验室的科学家使用Cerebras CS-1和全球排名第81的超级计算机Joule同时模拟了发电厂中的燃烧过程。结果显示,CS-1不仅计算速度比Joule快约200倍以上,能耗和成本也远低于传统CPU超算。

具体来说,造价数千万美元、具有84000个CPU内核的Joule能耗为450千瓦,在2.1毫秒内完成了计算;相比之下,研发成本百万美元的Cerebras功率约为20千瓦,花费时间约6微秒。

Cerebras用史上最大芯片造AI计算机,比美国超算Joule快200倍

▲Cerebras CS-1

其实,模拟火焰燃烧过程对于CS-1来说,仅是“牛刀小试”。

据Cerebras首席执行官Andrew Feldman表示,类似燃烧过程模拟、天气预报、飞机机翼设计、核电站温度预测等许多流体动力学模拟问题,都是CS-1的“长项”。

据悉,流体动力学模拟的难点在于要考虑的变量参数过多。比如,假设某个问题需要考虑100万个乃至更多的多维数据集,那么就可能需要50万个变量参与到模拟计算中。

而CS-1凭借三大性能优势应对这一难题:1、超高内存;2、高带宽和低延迟的有源通信结构;3、优化高带宽计算的处理器架构。

在这背后,是CS-1搭载的Cerebras WSE带来的超强性能,Cerebras WSE单芯片即包含40万个AI核、18GB的内存、9PB的内存带宽和每秒100 PB的核对核带宽。

就像Andrew所说,CS-1的AI架构绝不是“一个小把戏而已(a one trick pony)”。

二、垂直堆栈打通动态建模“脉络”,AI计算机成为香饽饽?

“在这个工作量级,晶圆级CS-1是有史以来最快的机器,”Feldman说,“当今没有基于CPU甚至GPU的超算可以在模拟燃烧过程等应用场景内击败CS-1。”

其中很大的原因是,基于CPU和GPU的超算通过增加内核来提升性能的逻辑,并不适用于流体力学领域的动态建模。

就像多个厨师做同一份菜反而会手忙脚乱一样,过多处理器同时处理一个问题反而会减慢计算速度,以Joule为例,在仅用16384个处理器时(最多能集成84000个处理器),Joule计算速度反而达到了顶峰。

但当换AI计算机处理动态建模,其垂直堆栈的阵列分配就能更轻松地解决这个问题。

如果模拟数据集为370x370x370的多维数据集堆栈(136900个垂直堆栈,具有370层),Cerebras SC-1可以通过垂直堆栈阵列分配给对应的处理器,将问题映射到晶圆级芯片,但对于CPU或GPU超算,多维数据集会拖慢其计算速度。

而且由于惊艳的模拟速度,CS-1也可以应用在复杂的机器控制系统中。

Feldman表示,SC-1已经受到了包括葛兰素史克在内的医药、天文等多个行业大型公司的青睐,在军工、情报和重工业等领域,也接到不少橄榄枝。

除厂商看好外,SC-1在科研领域也崭露头角,参与匹兹堡超级计算机中心的阿贡国家实验室和劳伦斯·利弗莫尔国家实验室的AI工作。

目前,Cerebras也正积极研制下一代AI计算机。SC-1搭载的芯片采用台积电16nm制程,具备40GB内存,集成850000个AI处理器内核数量。Cerebras下一代AI计算机或将搭载7nm制程的芯片,从而实现内存和AI处理器内核数量的翻倍。

结语:巨芯发力,AI计算机潜力无限

就像Cerebras团队自己曾说过的,相比起英特尔、英伟达等多产线全面发展的“通才”,Cerebras更像专才,要在“快”这一件事上做到极致。

专为人工智能设计的Cerebras WSE突破了人们对芯片尺寸的想象,用很小的能耗和空间提升计算性能,而本次装载巨芯、击败超算的SC-1也让业界看到巨型芯片更大的应用空间,和AI计算机更大的可能。

来源:IEEE Spectrum