英特尔Xe-HPG显卡正在出样,4代可扩展至强支持HBM

芯东西(公众号:aichip001)
作者 |  
高歌
编辑 |  
心缘

芯东西6月29日消息,今天,英特尔首次公布,对于第4代至强处理器Sapphire Rapids,其将推出高带宽内存(HBM)版本。

会上,英特尔副总裁兼高性能计算部总经理Trish Damkroger与芯东西等媒体,分享了英特尔第3代至强可扩展处理器在高性能计算领域的应用,以及Ponte Vecchio GPU、Sapphire Rapids等产品的最新进展。

一、第3代至强处理器:40个核心,HPC负载性能提升53%,

Trish Damkroger提及,随着与人工智能的融合,高性能计算正在快速地演进。通过云端等方案,高性能计算系统正在改变很多行业。

举例来说,工业制造商利用高性能计算设计具有更好的器材;铁路公司使用气候数据避免火车脱轨事故;制药企业利用机器学习识别药物中的有害成分;能源企业则可以通过对电厂机械进行模拟,对运行和维护流程进行改进。

当数据的量级更多、用户和工作负载类型变得更加复杂时,高性能计算应用对硬件设备的性能要求也更加全面。

这样的情况下,Trish Damkroger认为,高性能计算、人工智能方案供应商不能仅仅专注于如CPU速度、内存容量、输入/输出或内存等某个特定的性能。硬件设备的性能优化需要在各个关键领域同时进行。

据Trish Damkroger分享,英特尔正在通过不同的路径来提升硬件性能。其产品组合涵盖通用计算、专用加速、内存和存储、高性能互连和安全功能等。其中,oneAPI软件编程框架可以利用单个开源平台对多种架构进行开发,而第3代至强可扩展处理器在性能和灵活性上都有很大的提升。

英特尔Xe-HPG显卡正在出样,4代可扩展至强支持HBM▲英特尔第3代至强处理器

就第3代至强处理器而言,该处理器拥有40个内核,每个内核可以使用8个内存通道,可以提供6TB的系统内存容量。相较上一代,其HPC负载性能提升了53%。英特尔也对其核心架构进行了改进,使第3代至强处理器每个时钟的指令条数提升了20%,高速缓存量也有所增长。

Trish Damkroger强调,至强处理器是业内唯一内置人工智能加速的CPU。英特尔还内置了Speed Select技术,使单个CPU满足更多样化的工作负载需求。他认为,综合来看,第3代至强处理器性能优于AMD的EPYC Milan处理器。

就实际场景而言,在运行蒙特卡罗算法(Monte Carlo)时,至强处理器的运行速度比Milan快两倍多;在金融领域,至强仅用Milan一半的时间就获得了定价结果;在具体处理工作负载的演示中,64核Milan处理器耗时33秒,而第3代至强处理器仅耗时27秒。

此外,英特尔还选择了20个机器学习和深度学习模型,相比于64核Milan处理器,其至强处理器在几何均数方面性能提升了1.5倍。

二、最新GPU研发顺利,集成超千亿晶体管

在会上,Trish Damkroger也分享了基于Xe-LP的英特尔服务器显卡SG1最新进展,而基于Xe-HPG的产品正在出样。

此前,英特尔曾宣布Ponte Vecchio GPU将于今年量产。今天,Trish Damkroger提到,英特尔基于Xe架构的Ponte Vecchio GPU研发已启动,目前进展顺利,正在按照既定日程进行开发。

英特尔Xe-HPG显卡正在出样,4代可扩展至强支持HBM▲英特尔Xe架构产品线

据Trish Damkroger分享,Ponte Vecchio封装了47颗不同的芯片,集成了超1000亿个晶体管,在封装时采用了Foveros和EMIB(嵌入式多芯片互连桥接)等技术。

在软件框架方面,英特尔希望提供一种简单的跨架构、跨供应商的异构编程模型。oneAPI就是基于这一理念的产物。

目前,oneAPI的跨架构语言Data Parallel C++(DPC++)已可以在英伟达GPU上运行;在美国国家能源研究科学计算中心NERSC的支持下,oneAPI也能在Arm架构上运行深度学习算法;另外,华为的部分硬件也支持DPC++。

据悉,oneAPI工具包还提供编译器、数据库及分析工具,可支持英特尔AMX、VNNI/DL Boost等技术,能够进一步提升工作负载处理效率。

三、4代至强:内存、吞吐性能优化,配备最新AI加速引擎

Trish Damkroger也和媒体聊到了第4代至强处理器Sapphire Rapids的最新动态。

近年来,计算性能的增长速度远超内存带宽的限制。为此,Sapphire Rapids将采用DDR5以提升内存宽带。英特尔还将提供配有高带宽内存(HBM)的Sapphire Rapids版本,为气候建模、人工智能、大数据分析等应用提供更好的支持。

针对吞吐密集型工作负载,Sapphire Rapids则采用了新的PCI express 5.0规范。与上一代相比,Sapphire Rapids实现了吞吐带宽的倍增。

除了内存及吞吐方面的优化外,Sapphire Rapids还针对高性能计算及人工智能工作负载进行了额外优化,配备了英特尔AMX(高级矩阵扩展)内置AI加速引擎,提升了其深度学习推理和训练性能。

此外,Sapphire Rapids平台还将具有Compute Express Link(CXL)1.1规范的新一代I/O,以支持跨计算、网络和存储的高级用例。

英特尔Xe-HPG显卡正在出样,4代可扩展至强支持HBM▲英特尔4代至强处理器Sapphire Rapids的技术细节

结语:HPC性能要求多元化

过去15年间,HPC成为成长速度最快的IT市场之一。随着技术的逐步发展,HPC已逐步走向AI和深度学习的研发前线,为自动驾驶、精准医疗、智慧城市、物联网等新兴应用场景提供算力支撑。

随着应用领域逐渐增多,英特尔也不再聚焦于单独的CPU性能,而是对软件、硬件等多款产品进行了同步优化。作为行业的头部玩家之一,这某种程度上也是HPC行业的发展趋势。