芯东西(公众号:aichip001)
作者 |  ZeR0
编辑 |  漠影

随着大语言模型的参数量已跨越万亿大关,并持续呈现增长态势。在此背景下,突破内存带宽与容量的固有瓶颈,对于满足AI在训练和推理过程中对实时性能的迫切需求,显得尤为关键。在IDC使能技术和半导体集团副总裁Mario Morales看来,HBM4 IP的出现将作为一个不可或缺的赋能构建模块,为正致力于开发前沿AI硬件的设计人员提供支持。

近日,面向先进的AI加速器、图形和高性能计算(HPC)应用,知名芯片和半导体IP供应商Rambus推出了业界首款HBM4内存控制器IP。Rambus研究员兼杰出发明家Steven Woo博士、Rambus大中华区总经理苏雷接受芯东西等媒体的采访,深入解读了HBM4控制器IP的技术创新和发展趋势。

最新发布的HBM4控制器IP基于Rambus行业领先的接口和安全数字IP组合,专为AI 2.0设计,提供了32个独立通道的接口,总数据宽度可达2048位。基于这一数据宽度,当数据速率为6.4Gbps时,每个HBM接口的总带宽达到1.64TB/s,将比HBM3高出2倍以上,从而可以支持最新的AI模型。

大模型推动AI存储技术进化,深度解读首款HBM4控制器IP

Rambus HBM4控制器IP可与第三方或客户的PHY解决方案搭配使用,共同构建出完整的HBM4内存子系统。该IP现已开放授权,早期设计客户可立即申请。

这是Rambus数字控制器解决方案组合中的最新产品,进一步扩展其在HBM IP领域的市场领导地位。目前Rambus在HBM控制器市场的市场份额位居第一,基于100多项HBM成功设计案例,能够确保芯片一次流片成功。此前Rambus已成功交付业界领先的HBM3E内存控制器、业界最高数据传输速率的HBM2E内存控制器(速率达每秒4Gbps)。

大模型推动AI存储技术进化,深度解读首款HBM4控制器IP

Steven Woo预计客户将在今年晚些时候采用Rambus HBM4控制器IP,明年将IP集成到他们的芯片设计中,这些芯片设计预计最终将在2026年上市。

另据苏雷分享,面向中国客户,Rambus除了提供先进的HBM技术外,还非常注重售中和售后服务,会针对客户的项目产品规格、配置等方面在技术上给予一些最佳建议和参考,帮助客户提前规避一些技术难题,更快推出产品。

一、HBM4:高带宽、高密度,适用于AI训练

在AI系统中,内存替代方案有DDR、LPDDR、GDDR、HBM等。其中DDR是目前最标准的内存形式,广泛应用于全球各地的服务器和数据中心;LPDDR是一种低功耗DDR内存,可用于手机、AI边缘推理及汽车(ADAS)应用场景。

大模型推动AI存储技术进化,深度解读首款HBM4控制器IP

Steven Woo预测HBM和GDDR将共存,服务于不同的性能,具有不同的带宽、容量、集成风格和使用成本。GDDR更便宜,在带宽、成本和可靠性方面实现了良好的平衡,不仅用于图形计算,还用于AI推理;HBM更昂贵,高带宽及密度远超市面上常见的普通DRAM,适用于最苛刻和最高性能的AI训练、高性能计算和网络应用。

HBM的DRAM堆栈采用多层堆叠架构。DRAM堆栈会通过有一个中介层的物理线,与SoC相连。每个HBM3内存设备与处理器之间的数据通路由1024条“线”或信号路径组成。HBM4将拥有2048条线。

大模型推动AI存储技术进化,深度解读首款HBM4控制器IP

上千条信号路径远远超出了标准PCB所能支持的范围,因此采用硅中介层作为桥梁,将内存设备和处理器连接起来。类似于集成电路,硅中介层上可以蚀刻出间距非常小的信号路径,从而实现所需数量的信号线来满足HBM接口的要求。

正是由于这种精巧的结构设计和DRAM堆叠方式,HBM内存才能提供极高的内存带宽、优异的能效、极低的延迟,同时占用最小的面积。

HBM每一代的明显变化是单个堆栈带宽的急剧增加。具备TB级带宽的HBM3已成为AI训练硬件中不可或缺的内存技术。SK海力士、美光、三星等主流DRAM制造商均已宣布推出HBM3E设备,数据传输速率最高可达9.6Gbps。

大模型推动AI存储技术进化,深度解读首款HBM4控制器IP

当前正在开发中的HBM4是由JEDEC制定标准的下一代技术。 这些数值仍在开发中,尚未最终确定,但每个堆栈的带宽已经超过了HBM3E。

Rambus HBM4控制器IP旨在加速下一代AI工作负载,可提供高达的6.4Gbps数据传输速率,每个HBM接口的总带宽达到1.64TB/s。Steven Woo分享说,HBM4的优势在于可以通过减少等待时间来提高性能,以及通过降低功耗来降低运营成本。

二、模块化设计,支持各种第三方PHY

HBM4控制器IP被设计为模块化,使之足够灵活,以便可以对其进行配置和修改以满足特定的客户要求,并预计对IP定制的需求将持续存在。

根据客户在应用场景中的独特需求,Rambus提供定制化服务,涵盖尺寸、性能、功能等方面。关键的可选功能包括ECC、RMW(Read-Modify-Write)、错误清理等,还有多种内存测试算法选项以及内存测试分析核心。

大模型推动AI存储技术进化,深度解读首款HBM4控制器IP

通过控制器测试平台,用户可执行完整的控制器代码库的回归测试。Rambus还提供验证IP,并长期与Avery Design Systems(西门子旗下公司)合作。

西门子EDA副总裁兼设计验证技术总经理Abhi Kolpekwar解释了预验证IP解决方案的重要性:“在当前复杂多变且快速发展的半导体设计领域,预验证的IP解决方案对于实现芯片一次流片成功来说非常关键。”

确保IP能与系统的其他部分无缝连接是一项挑战。Rambus花费了大量时间来确保其控制器兼容,并能够实现快速集成和首次流片成功。

要实现一次流片成功,离不开对物理中介层PHY的支持,因此Rambus将其控制器与各种第三方PHY进行匹配、认证和验证,确保客户在使用其控制器与第三方PHY时能够轻松集成。

Rambus高级副总裁兼半导体IP部门总经理Matt Jones相信,业界首款HBM4控制器IP解决方案将帮助客户在其最先进的处理器与加速器中实现性能的突破式提升。

三、广泛IP产品组合,硬件级加密安全

Rambus提供的半导体IP解决方案组合,通过高性能接口和硬件级安全实现加速计算。

大模型推动AI存储技术进化,深度解读首款HBM4控制器IP

Rambus提供了一整套高性能内存控制器解决方案,涵盖HBM、GDDR、LPDDR、DDR内存;还有一系列互联控制器,覆盖主要的高速互联协议,如CXL、PCIe和MIPI。针对显示应用,Rambus提供支持无损视频压缩和前向纠错的解决方案,可在当前接口技术下提供最高的分辨率和帧率。

大模型推动AI存储技术进化,深度解读首款HBM4控制器IP

其用于AI的半导体IP解决方案提供了高性能芯片的核心构建模块,包括HBM/GDDR内存控制器、PCIe/CXL协议控制器,以及后量子密码学、信任根、内存内加密(IMI)等安全功能。

大模型推动AI存储技术进化,深度解读首款HBM4控制器IP

当通过PCIe/CXL连接处理器时,Rambus提供数据完整性和加密功能,以确保数据在链路中的传输安全。其信任根IP通过安全启动、数字标识和认证签名等功能,保护硬件和数据安全,同时提供其他加密服务。

将这些整合在一起,Rambus的IP产品组合能够兼顾高速数据传输和数据安全性。

大模型推动AI存储技术进化,深度解读首款HBM4控制器IP

“HBM4将代表生成式AI和其他HPC应用在内存技术方面的重大突破。确保HBM4 IP解决方案的可用性,对于为HBM4在市场上的广泛采用奠定坚实基础而言具有至关重要的意义。”三星电子执行副总裁兼晶圆代工IP生态系统负责人Jongshin Shin谈道,三星期待与Rambus及更广泛的生态系统密切合作,共同为AI新时代开发全新的HBM4解决方案。

Abhi Kolpekwar称,Rambus与西门子之间建立了长期且成功的合作关系,希望继续合作推出新一代的、经西门子高质量验证IP验证的、一流的Rambus HBM4内存控制器。

Cadence芯片解决方案事业部协议IP营销高级总监Arif Khan说:“随着异构计算架构的规模不断扩展,以支持有着海量数据移动的多样化工作负载,HBM IP生态系统必须持续提升其性能,并推出可互操作的解决方案,以满足客户日益增长的需求。”

他很高兴看到Rambus提供可互操作的HBM4控制器IP解决方案以支持生态系统,并与Cadence在HBM PHY和解决方案性能领域的领导地位相结合,共同推动行业向开始新一代HBM内存过渡。

结语:突破内存带宽与容量的固有瓶颈,对满足AI性能需求尤为关键

作为前沿内存IP解决方案提供商,Rambus拥有超过30年的高性能内存架构经验,一直致力于扩展内存的性能和容量,在多个HBM代际的客户实施中积累了广泛的成功案例,并与内存制造商和PHY供应商紧密合作,希望利用其专业知识来帮助行业向HBM4过渡。

据Steven Woo分享,Rambus期望能够满足市场对AI的近期需求以及未来几年的需求。其内部研究机构Rambus Labs着眼于未来的内存需求,研究议程的一部分是研究如何改进未来的AI内存,包括如何提供更快的内存、更高的容量和更好的功耗效率。丰富的HBM客户部署经验,以及产品部门与研究部门之间的协作,是Rambus期望保持未来竞争优势的方式。

在他看来,未来AI将继续需要在性能、功效和内存容量方面取得重大改进。这将需要许多不同的公司共同努力,内存制造商和像Rambus这样的公司将改进内存系统,处理器厂商通过压缩数据、使用新的数据格式等方式来改进处理,软件和硬件之间的协同设计将有助于确保软件充分利用可用的硬件。