芯东西(公众号:aichip001)
作者 |  ZeR0
编辑 |  漠影

芯东西9月24日报道,2023英特尔on技术创新大会于当地时间9月19日在美国加州圣何塞开幕。大会首日,英特尔公司副总裁、至强产品和解决方案事业部总经理Lisa Spelman,英特尔资深院士、至强首席架构师Ronak Singhal,与芯东西与少数全球媒体就英特尔至强可扩展处理器的进展、新品、2024年及未来规划进行深入交流。

Ronak Singhal是管理所有至强产品路线图并帮助设定技术方向的专家,他详细分享了英特尔设计服务器CPU的理念、思路、重心及优化方向,以及未来至强的设计重点与特性。总体来看,典型的至强产品正不断围绕核心、内存、I/O、软件等进行演进升级。

芯东西尤其感兴趣的是将于2024年上半年上市的高能效处理器Sierra Forest。它是英特尔第一款基于E-core能效核的产品,其设计将两片各有144个高能效核的芯片像搭积木般“拼”在一起,与第四代至强相比,预计将使机架密度提升2.5倍,每瓦性能提高2.4倍。

对话英特尔至强高管:全面解读至强新品规划,Chiplet和AI将是优化重点▲英特尔CEO基辛格在2023英特尔on技术创新大会上展示Sierra Forest处理器

Ronak告诉芯东西,Sierra Forest基于chiplet架构,产品核数取决于其集合了多少chiplet。英特尔有单个chiplet、两个chiplets或3个chiplets的产品,并可以根据客户需求来扩大核心数量。如果客户的需求是更高核心数量的产品,英特尔会有更多chiplets的芯片,针对更低的核数需求则有更少的chiplets,这给了英特尔构建芯片的灵活性

他向芯东西解释道,相比制造一个巨大、单独的芯片,chiplet方案更具技术优势,有助于提升制造能力。目前集合2个chiplets,是基于现有的理念和技术,并不意味着未来如何,至强向未来扩展时,或许继续使用这个概念,也可能会以不同的技术方式,也许是通过组合不同类型或不同大小的chiplets来进行扩展

针对为什么x86比Arm效率低的问题,Ronak认为,决定效率的因素不是指令集架构,而是构建产品的方式。他相信当Sierra Forest推出时,客户将可以看到它领先的性能和密度。云服务提供商们正尝试将尽可能多的用户整合到一个系统上,帮助他们减少所需的系统数量,从而降低TCO(总拥有成本),而大核数的CPU正好可以帮助他们。

一、25%正在销售的至强正被用于AI工作负载

英特尔资深院士、至强首席架构师Ronak Singhal谈道,当前世界上大部分的推理工作都是在CPU上运行的,可以说每个工作负载都将嵌入一部分AI工作负载。据观察,从算法发展方向及实际案例来看,在CPU上运行AI工作负载拥有更低延迟、更高能效等显著优势。

他回忆说,英特尔几年前就认识到AI即将爆发,并将在未来把加速AI计算的能力嵌入到至强的每个核心中,英特尔在设计至强路线图时更多考虑到这些因素。

据英特尔公司副总裁、至强产品和解决方案事业部总经理Lisa Spelman分享,经分析,英特尔认为25%正在销售的至强正被用于AI工作负载,其中很大一部分被用于推理,只有一小部分被用于训练。许多至强产品还被用于在训练或推理前的一些内容,如数据准备,包括为至强和GPU提供数据。

英特尔正持续推出面向多样化用途的标准平台。她谈道,英特尔能够一直拓展产品的能力,释放性能,即便是发布了产品、设置了硬件之后,这是其为客户提供的“投资保护”的一部分。

“我们始终认为至强是适用于任何边缘网络、数据中心、云等工作负载的强有力产品,但同时其也具备诸多加速器和专业功能,以满足AI工作负载的需求,而这也在日渐成为我们业务中越来越重要的一部分。”Lisa说。

二、至强能跑近200亿参数AI大模型,下一代押注新型MCR内存技术

据Lisa分享,大约6个月前,当英特尔开始在至强上分析研究生成式AI时,能做到在50亿或70亿参数的大模型上实现优秀的TCO和效率;当采用一些框架、软件进行调整和优化后,其可支持的参数规模增加到了100亿;现在,至强可支持的参数规模已接近200亿,英特尔实验室正在研究300亿参数大模型的运行。

Ronak说,讨论大模型可以分为两部分。

第一部分是首个token,输入prompt时该如何处理,这与算力有关,英特尔在当前处理器核心中通过内置加速器AMX进行加速,每一代产品都会通过添加数据类型或增加有助于这些算法的产品特性的方式来进行优化。

后续的token与内存带宽有关。如何持续提供一流的内存带宽来满足特定的工作负载?采用AMX是英特尔几年前的一个“赌注”,新型MCR内存技术则是当前的一大“赌注”,它需要英特尔进行大量的工作以实现支持更高的内存带宽。

对话英特尔至强高管:全面解读至强新品规划,Chiplet和AI将是优化重点

Lisa补充说,MCR是由英特尔发明并对外提供的内存标准,它对于解锁更多在CPU上应用的生成式AI案例至关重要,英特尔努力在2024年实现的目标包括提供针对计算密集型工作负载的产品以及针对生成式AI的卓越性能,从而抓住市场机遇、满足客户真实需求。

在谈论上述第一个、第二个token的延迟时,Lisa认为需要考虑不同的使用场景。比如对话式AI类场景需要非常快的响应速度,让用户顺畅交流,没有等待感。而在一些应用场景,比如医疗诊断场景,人们可以接受稍慢一些的响应,来换取更高的准确性,在这种情况下,通过至强处理器来覆盖这些工作,可以大幅降低成本。

也正因此,英特尔针对至强所做的努力,很多时候会专注于更多的企业级用例,而不是单纯地像对话机器人那样需要更快地解答每一个问题。

三、第五代至强大幅提升每瓦性能,注重增强AI和安全功能

具体到至强的进展上,Lisa分享道,第四代英特尔至强可扩展处理器Sapphire Rapids的功能、核心数量和性能都有显著提升,并增强了在AI领域的应用。英特尔正在大规模推动第四代至强的广泛应用,已与所有领先的云服务提供商展开合作,打造多元化实例,并保障其基础设施的可用性。与英特尔合作的原始设备制造商(OEM)都在大批量出货。

Lisa说,对于英特尔来说,在第四代至强中加入AI加速器不仅意味着成本的变化,对于产品的空间布局等均有所影响,这一决定引发了激烈讨论,最终英特尔内部一致认为这个举措会产生积极的影响,所以将坚定不移地持续推进。在推动硬件革新的同时,英特尔也将更多精力投入到软件的更新中,以期实现更多指数级变革。

“我们花了数年时间来构建生态系统,以确保每一代产品用户都充分利用产品性能。”Lisa说,软硬结合能更好地解锁性能,英特尔正把越来越多的精力转向软件,努力让整个市场更便捷地获取利用到CPU的能力。Ronak补充说,今年至强的一个关注重点是可部署性,英特尔致力于让所有数据中心客户都能够快速部署该产品。

至于将在今年12月14日发布的第五代至强可扩展处理器Emerald Rapids,现阶段,英特尔正与客户紧密合作,完成测试并为广泛的系统做好准备。Emerald Rapids与Sapphire Rapids使用同一平台,据Lisa透露,这是至强产品线历史上最无缝的升级之一

对话英特尔至强高管:全面解读至强新品规划,Chiplet和AI将是优化重点

与前一代相比,Emerald Rapids在每瓦性能方面有很大提升,在相同功率范围内实现了性能的提高,而且各种利用率都有较大增强。英特尔致力于提高不同工作负载或不同利用率水平下的性能、效率和功耗,这对于大型企业客户及流量变化很大的云服务提供商客户来说至关重要。

Lisa谈道,相比一些代表峰值或充分利用状态的书面数字,英特尔更注重与客户在多元化场景中的实际应用数据。新一代至强还将进一步将一些安全功能推向市场,比如正持续扩大可信执行环境的覆盖范围,这作为机密计算的服务基础将更有助于增强硬件安全性。

至强将拥有更快的传输、更大的缓存等。这些改进都将为广泛的工作负载带来良好的性能提升。以AI领域为例,一些AI工作负载非常注重内存带宽,Emerald Rapids也将通过支持DDR5以满足其需求。

对话英特尔至强高管:全面解读至强新品规划,Chiplet和AI将是优化重点

四、披露未来四代至强路线图,为数据中心提供灵活性

包括Emerald Rapids在内,英特尔公布了展面向数据中心的未来四代至强路线图,其它还包括将于明年上市的高能效处理器Sierra Forest和比第四代至强AI性能提高2~3倍的高性能处理器Granite Rapids,以及将于2025年问世的、采用Intel 18A制程节点制造的高能效处理器Clearwater Forest。

对话英特尔至强高管:全面解读至强新品规划,Chiplet和AI将是优化重点

Ronak说,英特尔至强始终致力于通过核心数量、功率、能耗等变化,来满足市场和客户实际工作负载需求。但随着客户用例和应用程序的日益多元化,对硬件基础设施提出了不同的需求。英特尔认为单一的解决方案无法满足所有的需求,为此花费了大量时间探索研究如何处理这些问题,以及是否要尽可能扩展核心数量,而规模扩展又与边缘端、中端等应用难以平衡

针对观察到的情况,英特尔将引入下一代代号为Birch Stream的创新平台,该平台将支持两种不同类型的至强处理器,其一是主打高性能的下一代P-core性能核处理器Granite Rapids。其二是英特尔将推出的第一款基于E-core能效核的产品Sierra Forest。

对话英特尔至强高管:全面解读至强新品规划,Chiplet和AI将是优化重点

与Granite Rapids相比,Sierra Forest使用的核心更节能,且面积较小,因此可以在相同功耗下进行扩展,并增加核数,最多可达288核。

从部署角度来看,如果客户需要投资构建平台,但迟迟无法决定需要怎样的数据中心,是50% Granite Rapids+50% Sierra Forest?还是一方为0,一方为100%?抑或是完全混合,并最终由具体的工作负载或需要服务的最终客户来决定?对此,至强平台为每个客户提供了灵活性,让客户可以完全做自己想做的事情。

五、明年连发两款至强,基于Chiplet,共享更多设计

构建至强处理器的任务艰巨而复杂,需要付出大量的精力、人力和时间,而Sierra Forest和Granite Rapids都目标在2024年上市,英特尔打算如何实现在几乎同一时间推出两款CPU?

Ronak分享道,英特尔构建产品的方式非常重要,是让两款处理器尽量共享更多的设计。这两款处理器不仅平台相同,在核心之外,其他的SoC也相同,这将带来非常高的灵活度。

下图展示了英特尔如何构建其产品,这是基于chiplet(芯粒)的基础设施,顶部的chiplet和底部的chiplet是I/O chiplet,包括PCIe、CXL等。这些功能在Sierra Forest和Granite Rapids之中都很常见。英特尔不会对这些功能以及安全性或可靠性进行区分和更改,不同产品的区别在于所使用的核心,以及根据密度和每核性能所拥有的扩展能力

对话英特尔至强高管:全面解读至强新品规划,Chiplet和AI将是优化重点

Granite Rapids高性能处理器的产品升级主要有两点:

一是增强算力。最重要的是在Sapphire Rapids的基础上增加核数,以及继续提高能效。因为进行大量AI矩阵计算时,耗电量会大幅提升,提升产品能效会直接影响性能底线。

二是内存带宽。部分AI工作负载以计算为核心,因此将受到核数和能效的影响。还有部分大语言模型,需要处理包括计算、存储等AI工作负载,因此对内存带宽亦提出了要求。

这些英特尔至强的下一代技术:英特尔正在优化DDR5内存速度,并将支持MCR DIMM新内存技术,能够以与DDR5相同的形态和互连方式,支持更高的内存带宽,在HPC和AI等领域发挥价值,这些功能都将在Sierra Forest和Granite Rapids上共同实现。因此Ronak认为2024年将是基于该产品组合的数据中心发展拐点

结语:2024年,英特尔数据中心发展重要之年

“实话实说,2024真的太重要了!”Lisa说,“我们为至强工作已经有一段时间了。可以说是整个职业生涯中,甚至是一生中仅有的一次,将完全全新的产品带给大家。这太令人兴奋了,非常有趣,但要承担的事情也太多了。”

为此,英特尔正在扩大组织规模,以及通过各种不同的方式与客户进行合作,这使其够进行一些很有意义的客户对话,譬如讨论大家是如何看待市场、英特尔可以在哪里方面去匹配他们的基础设施等,以及听听一些大客户如何调整他们的基础设施,来更好地匹配英特尔计划推出的未来产品。此外,英特尔还有机会按照“4年5个节点”的引入一条全新的产品线。

目前,英特尔正在利用眼下这段时间打好基础,确保其客户准备好与其产品见面。