Cerebras用史上最大芯片造AI计算机，比美国超算Joule快200倍

芯东西（ID：aichip001）
编译 | 子佩
编辑 | Panken

芯东西11月20日消息，你可能并没有听过Cerebras Systems（下称Cerebras），但你或许听闻过世界上最大的芯片。去年八月，尺寸比肩iPad的巨型芯片Cerebras WSE引爆芯片圈，而背后的总设计师就是这家来自加州的AI创企。

▲Cerebras WSE

近期，曾靠扩大物理面积赢取芯片性能提升的创企Cerebras，已经不满足于仅在芯片上做文章，而要到AI计算机领域大展拳脚。

在本周的超级计算大会SC20上，Cerebras展示了其基于Cerebras WSE的AI计算机CS-1，CS-1也不负众望，在具有5亿个变量的模拟计算中，击败今年世界排名第81的超级计算机Joule。

一、依托巨型芯片，计算速度超Joule 200倍以上

在SC20上，CS-1展示了自己针对火焰模拟的超强计算能力。在实际应用场景中，快速模拟燃煤电厂的燃烧过程，可以帮助人类预防大型事故的发生。

美国能源技术实验室的科学家使用Cerebras CS-1和全球排名第81的超级计算机Joule同时模拟了发电厂中的燃烧过程。结果显示，CS-1不仅计算速度比Joule快约200倍以上，能耗和成本也远低于传统CPU超算。

具体来说，造价数千万美元、具有84000个CPU内核的Joule能耗为450千瓦，在2.1毫秒内完成了计算；相比之下，研发成本百万美元的Cerebras功率约为20千瓦，花费时间约6微秒。

Cerebras用史上最大芯片造AI计算机，比美国超算Joule快200倍

▲Cerebras CS-1

其实，模拟火焰燃烧过程对于CS-1来说，仅是“牛刀小试”。

据Cerebras首席执行官Andrew Feldman表示，类似燃烧过程模拟、天气预报、飞机机翼设计、核电站温度预测等许多流体动力学模拟问题，都是CS-1的“长项”。

据悉，流体动力学模拟的难点在于要考虑的变量参数过多。比如，假设某个问题需要考虑100万个乃至更多的多维数据集，那么就可能需要50万个变量参与到模拟计算中。

而CS-1凭借三大性能优势应对这一难题：1、超高内存；2、高带宽和低延迟的有源通信结构；3、优化高带宽计算的处理器架构。

在这背后，是CS-1搭载的Cerebras WSE带来的超强性能，Cerebras WSE单芯片即包含40万个AI核、18GB的内存、9PB的内存带宽和每秒100 PB的核对核带宽。

就像Andrew所说，CS-1的AI架构绝不是“一个小把戏而已（a one trick pony）”。

“在这个工作量级，晶圆级CS-1是有史以来最快的机器，”Feldman说，“当今没有基于CPU甚至GPU的超算可以在模拟燃烧过程等应用场景内击败CS-1。”

其中很大的原因是，基于CPU和GPU的超算通过增加内核来提升性能的逻辑，并不适用于流体力学领域的动态建模。

就像多个厨师做同一份菜反而会手忙脚乱一样，过多处理器同时处理一个问题反而会减慢计算速度，以Joule为例，在仅用16384个处理器时（最多能集成84000个处理器），Joule计算速度反而达到了顶峰。

但当换AI计算机处理动态建模，其垂直堆栈的阵列分配就能更轻松地解决这个问题。

如果模拟数据集为370x370x370的多维数据集堆栈（136900个垂直堆栈，具有370层），Cerebras SC-1可以通过垂直堆栈阵列分配给对应的处理器，将问题映射到晶圆级芯片，但对于CPU或GPU超算，多维数据集会拖慢其计算速度。

而且由于惊艳的模拟速度，CS-1也可以应用在复杂的机器控制系统中。

Feldman表示，SC-1已经受到了包括葛兰素史克在内的医药、天文等多个行业大型公司的青睐，在军工、情报和重工业等领域，也接到不少橄榄枝。

除厂商看好外，SC-1在科研领域也崭露头角，参与匹兹堡超级计算机中心的阿贡国家实验室和劳伦斯·利弗莫尔国家实验室的AI工作。

目前，Cerebras也正积极研制下一代AI计算机。SC-1搭载的芯片采用台积电16nm制程，具备40GB内存，集成850000个AI处理器内核数量。Cerebras下一代AI计算机或将搭载7nm制程的芯片，从而实现内存和AI处理器内核数量的翻倍。

就像Cerebras团队自己曾说过的，相比起英特尔、英伟达等多产线全面发展的“通才”，Cerebras更像专才，要在“快”这一件事上做到极致。

专为人工智能设计的Cerebras WSE突破了人们对芯片尺寸的想象，用很小的能耗和空间提升计算性能，而本次装载巨芯、击败超算的SC-1也让业界看到巨型芯片更大的应用空间，和AI计算机更大的可能。

来源：IEEE Spectrum