英特尔Xe-HPG显卡正在出样，4代可扩展至强支持HBM

芯东西（公众号：aichip001）
作者 | 高歌
编辑 | 心缘

芯东西6月29日消息，今天，英特尔首次公布，对于第4代至强处理器Sapphire Rapids，其将推出高带宽内存（HBM）版本。

会上，英特尔副总裁兼高性能计算部总经理Trish Damkroger与芯东西等媒体，分享了英特尔第3代至强可扩展处理器在高性能计算领域的应用，以及Ponte Vecchio GPU、Sapphire Rapids等产品的最新进展。

一、第3代至强处理器：40个核心，HPC负载性能提升53%，

Trish Damkroger提及，随着与人工智能的融合，高性能计算正在快速地演进。通过云端等方案，高性能计算系统正在改变很多行业。

举例来说，工业制造商利用高性能计算设计具有更好的器材；铁路公司使用气候数据避免火车脱轨事故；制药企业利用机器学习识别药物中的有害成分；能源企业则可以通过对电厂机械进行模拟，对运行和维护流程进行改进。

当数据的量级更多、用户和工作负载类型变得更加复杂时，高性能计算应用对硬件设备的性能要求也更加全面。

这样的情况下，Trish Damkroger认为，高性能计算、人工智能方案供应商不能仅仅专注于如CPU速度、内存容量、输入/输出或内存等某个特定的性能。硬件设备的性能优化需要在各个关键领域同时进行。

据Trish Damkroger分享，英特尔正在通过不同的路径来提升硬件性能。其产品组合涵盖通用计算、专用加速、内存和存储、高性能互连和安全功能等。其中，oneAPI软件编程框架可以利用单个开源平台对多种架构进行开发，而第3代至强可扩展处理器在性能和灵活性上都有很大的提升。

英特尔Xe-HPG显卡正在出样，4代可扩展至强支持HBM ▲英特尔第3代至强处理器

就第3代至强处理器而言，该处理器拥有40个内核，每个内核可以使用8个内存通道，可以提供6TB的系统内存容量。相较上一代，其HPC负载性能提升了53%。英特尔也对其核心架构进行了改进，使第3代至强处理器每个时钟的指令条数提升了20%，高速缓存量也有所增长。

Trish Damkroger强调，至强处理器是业内唯一内置人工智能加速的CPU。英特尔还内置了Speed Select技术，使单个CPU满足更多样化的工作负载需求。他认为，综合来看，第3代至强处理器性能优于AMD的EPYC Milan处理器。

就实际场景而言，在运行蒙特卡罗算法（Monte Carlo）时，至强处理器的运行速度比Milan快两倍多；在金融领域，至强仅用Milan一半的时间就获得了定价结果；在具体处理工作负载的演示中，64核Milan处理器耗时33秒，而第3代至强处理器仅耗时27秒。

此外，英特尔还选择了20个机器学习和深度学习模型，相比于64核Milan处理器，其至强处理器在几何均数方面性能提升了1.5倍。

在会上，Trish Damkroger也分享了基于Xe-LP的英特尔服务器显卡SG1最新进展，而基于Xe-HPG的产品正在出样。

此前，英特尔曾宣布Ponte Vecchio GPU将于今年量产。今天，Trish Damkroger提到，英特尔基于Xe架构的Ponte Vecchio GPU研发已启动，目前进展顺利，正在按照既定日程进行开发。

英特尔Xe-HPG显卡正在出样，4代可扩展至强支持HBM ▲英特尔Xe架构产品线

据Trish Damkroger分享，Ponte Vecchio封装了47颗不同的芯片，集成了超1000亿个晶体管，在封装时采用了Foveros和EMIB（嵌入式多芯片互连桥接）等技术。

在软件框架方面，英特尔希望提供一种简单的跨架构、跨供应商的异构编程模型。oneAPI就是基于这一理念的产物。

目前，oneAPI的跨架构语言Data Parallel C++（DPC++）已可以在英伟达GPU上运行；在美国国家能源研究科学计算中心NERSC的支持下，oneAPI也能在Arm架构上运行深度学习算法；另外，华为的部分硬件也支持DPC++。

据悉，oneAPI工具包还提供编译器、数据库及分析工具，可支持英特尔AMX、VNNI/DL Boost等技术，能够进一步提升工作负载处理效率。

Trish Damkroger也和媒体聊到了第4代至强处理器Sapphire Rapids的最新动态。

近年来，计算性能的增长速度远超内存带宽的限制。为此，Sapphire Rapids将采用DDR5以提升内存宽带。英特尔还将提供配有高带宽内存（HBM）的Sapphire Rapids版本，为气候建模、人工智能、大数据分析等应用提供更好的支持。

针对吞吐密集型工作负载，Sapphire Rapids则采用了新的PCI express 5.0规范。与上一代相比，Sapphire Rapids实现了吞吐带宽的倍增。

除了内存及吞吐方面的优化外，Sapphire Rapids还针对高性能计算及人工智能工作负载进行了额外优化，配备了英特尔AMX（高级矩阵扩展）内置AI加速引擎，提升了其深度学习推理和训练性能。

此外，Sapphire Rapids平台还将具有Compute Express Link（CXL）1.1规范的新一代I/O，以支持跨计算、网络和存储的高级用例。

英特尔Xe-HPG显卡正在出样，4代可扩展至强支持HBM ▲英特尔4代至强处理器Sapphire Rapids的技术细节

过去15年间，HPC成为成长速度最快的IT市场之一。随着技术的逐步发展，HPC已逐步走向AI和深度学习的研发前线，为自动驾驶、精准医疗、智慧城市、物联网等新兴应用场景提供算力支撑。

随着应用领域逐渐增多，英特尔也不再聚焦于单独的CPU性能，而是对软件、硬件等多款产品进行了同步优化。作为行业的头部玩家之一，这某种程度上也是HPC行业的发展趋势。