融资34亿！新晋AI芯片独角兽诞生

芯东西（公众号：aichip001）
作者 | ZeR0
编辑 | 漠影

芯东西2月25日报道，2月24日，由两位前谷歌工程师创办的美国AI芯片创企MatX宣布完成5亿美元（约合人民币34亿元）B轮融资，其大模型芯片MatX One预计一年内完成流片。

据外媒报道，MatX透露其目前的估值已达数十亿美元，也就是已跻身独角兽行列。

MatX宣称MatX One能实现远超其他芯片的吞吐量，同时延迟也最低。这款芯片基于可分割的脉动阵列，兼具大型脉动阵列出色的能效和面积效率，同时在小型矩阵上也能实现高利用率。

据MatX披露，该芯片结合了SRAM优先设计的低延迟和HBM的长上下文支持。这些特性加上对数值计算的新诠释，使其在大语言模型上的吞吐量高于任何已发布的系统，同时延迟与SRAM优先设计相当。

MatX的测试表明，根据每平方毫米的计算性能指标，其规划芯片的性能可以超越英伟达即将推出的Rubin Ultra。

2022年，MatX由Reiner Pope和Mike Gunter创办，目标打造一款最适合大语言模型的芯片。

Reiner Pope曾为谷歌的芯片和AI模型开发软件，Mike Gunter曾是谷歌TPU的硬件工程师。

如今，MatX的团队规模已发展到约100人。

由前OpenAI研究员Leopold Aschenbrenner创立的投资公司Situational Awareness与Jane Street领投了MatX的B轮融资。

在Aschenbrenner看来，MatX的芯片非常适合处理预训练和强化学习，“它很有可能成为这一代最重要的AI芯片公司。”

前特斯拉AI总监、OpenAI联合创始人Andrej Karpathy，以及Alchip、Marvell等供应链上的投资者也参与了本轮融资。

Andrej Karpathy在社交平台上分享了他参投MatX的想法。

融资34亿！新晋AI芯片独角兽诞生

他认为，token需求激增，为大语言模型的底层内存和计算资源的合理配置提供了绝佳机会。一个根本且不易察觉的限制是，受限于芯片制造工艺，内存池会分为两个完全不同的池（物理实现方式也不同）：1）紧邻计算单元的片上SRAM，速度极快但容量极低；2）片外DRAM容量很大，但内容难获取。

此外，还有许多架构细节（例如脉动阵列）、数值计算等因素需要考虑。如何设计最优的物理基础架构，并在大语言模型的核心工作流程（推理预填充/解码、训练/微调等）中合理配置内存和计算资源，以实现最佳吞吐量/延迟/成本比，这或许是当今最具吸引力且回报最高的智力难题之一。

“这一切都是为了快速、低成本地获取大量token。可以说，最重要的工作流程（在紧凑的智能体循环中对长token上下文进行推理解码）是目前两种阵营（HBM优先的英伟达阵营和SRAM优先的Cerebras阵营）最难同时实现的。”Karpathy写道。

官网显示，对于大型100层MoE模型，MatX的AI芯片每秒可输出超过2000个token，其横向扩展互连能力可支持包含数十万张芯片的集群。

融资34亿！新晋AI芯片独角兽诞生

当前，英伟达和谷歌的AI芯片都主要依赖HBM来处理训练AI模型所需的大量计算。还有一些芯片公司采用静态随机存取存储器（SRAM）来更快地处理单个用的查询，以满足日益增长的推理需求。

“我们的立场是，实际上可以在同一个产品中同时实现这两点，而且这样会得到一个更好的产品。”MatX创始人兼CEO Reiner Pope谈道。

他在社交平台X上回复网友说：“与其他HBM厂商不同，我们拥有足够的SRAM和互连带宽，足以支持将权重存储在SRAM中。HBM中的key值对不会增加延迟，因为密集读取可以预取，而稀疏读取的数据量很小。除了内存系统之外，我们还拥有最高的FLOPS/mm2。”

据外媒报道，MatX预计在今年完成芯片的最终设计，并希望在2027年开始出货。该公司计划与台积电合作生产该产品。