芯东西(公众号:aichip001)
作者 |  ZeR0
编辑 |  漠影

芯东西9月22日报道,在2024云栖大会期间,英特尔披露了即将发布的至强6性能核处理器的产品亮点,并与阿里云共同预发布了搭载该处理器的阿里云ECS第九代企业级计算实例组合。

在AI时代,快速增长的算力需求亟需更高性能的基础设施作为支撑。即将发布的英特尔至强6性能核处理器通过内置的英特尔AMX和专门面向AI优化的英特尔AVX-512,提高计算密集型和AI工作负载的性能。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

为满足多样化的客户需求,英特尔至强6微架构采用灵活内核设计,同时拥有共享硬件平台与通用的软件堆栈,有助于提升系统可靠性并简化用户的开发、部署及管理流程。

英特尔还在会上分享了一系列与阿里云合作助力诸多垂直领域实现数智化转型的实践成果。例如在媒体处理领域,搭载第五代英特尔至强可扩展处理器的个性化解决方案,可帮助阿里云视频云AI产品实现在画质修复、一键生成和视频搜索等工作负载上的大幅优化与升级;在生命科学领域,英特尔与阿里云合作优化多个面向不同场景的AI大模型,从而帮助加速药物的研发、生产及销售的全流程。

一、至强6性能核处理器剧透:Intel 3工艺,更多核心,更大内存通道

英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉谈道,未来生成式AI技术和算力基础是构造新质生产力的关键一环,英特尔作为一个打造基础设施的技术公司,推动着算力、计算架构向前发展。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

英特尔基于开放、可扩展的软硬件平台,打造了覆盖云、边、端的计算解决方案,并与阿里云合作助力AI应用在全场景的落地,加速推动千行百业的数智化进程。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

英特尔中国数据中心及人工智能事业部产品规划总经理李尔成提到数据中心技术日新月异,英特尔至强处理器力争对此提供全面支持。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

根据市场多样化需求,至强6产品采用能效核(E-core)与性能核(P-core)双头并进的策略。能效核实现更优能效,以满足更高密度和横向扩展工作负载需求;性能核实现更高性能,以满足计算密集型和AI工作负载需求。两种核采用了兼容的架构,共享硬件平台和通用软件堆栈,从而使英特尔拥有更好的软硬件生态系统。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

至强6性能核处理器采用Intel 3制程工艺,能效更高,拥有多达128个性能核,内存从8通道增至12通道,内存频率也从5600MT/s升级至6400MT/s,整机内存带宽相比上一代提升70%,L3缓存提升50%,大幅提升在数据吞吐场景的性能,相邻代际提升非常可观。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

相较第四代至强处理器,至强6性能核处理器的内存带宽提升2.8倍,MCR DIMM内存模组带来30%-40%的内存带宽提升,混合AI工作负载性能提升2-3倍,能够为更大的内存敏感型大语言模型提供更高性能。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

针对科学计算,该处理器内置针对深度学习设计的加速单元英特尔AMX和专门面向AI优化的英特尔AVX-512,可显著提升基于CPU执行AI的性能,搭配更高的I/O性能、更大的内存带宽,从而进一步提升系统性能。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

英特尔新产品线对增加机柜密度做了很多优化,使客户能省出空间和电力,从而更好支持越来越多新增的AI计算。至强6提高了数据中心的机架密度,可满足各家云厂商对大规模、高性能计算的需求,有效降低总体拥有成本(TCO)。

以一个典型的中型数据中心为例,以前采用第二代英特尔至强处理器,其包含了200个机架,典型的机架配置是每机架1.5kW,容纳了20个2U服务器;至强6700E能效核处理器可带来3倍服务器机柜替换比,将机架数减少至66个。这意味着4年设备群的耗电节省将达到8万MWh,可减少3.4万吨的二氧化碳排放量。

二、丰富软件栈助攻大模型落地,至强6首度支持CXL 2.0

除了硬件平台的更新,英特尔还打造了一系列丰富的软、硬一体解决方案和创新性技术,助力大模型时代AI应用的发展与落地。

英特尔不仅做了很多当前流行的框架和工具,其优化也会扩展到一些必要的基础设施软件,以助力提高使用CPU执行AI的效率。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

至强处理器和CXL平台紧密关联。由于至强服务器平台与CXL规范保持一致,英特尔与CXL生态伙伴合作来实现各种用例。

其中,英特尔联合阿里云推动CXL创新技术的落地,帮助行业更好地应对大模型时代内存容量、成本及利用率等挑战。目前,英特尔正携手多家行业伙伴探索更多涵盖该技术的解决方案,并将其应用于更多AI场景中。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

至强6是英特尔第一代支持CXL 2.0规范的处理器,可商用部署。在至强6平台上,CXL 2.0的一种用法是CXL内存和DDR内存交织,从而扩大容量,实现并发访问,提高总峰值带宽。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

从软件角度看来,加上CXL内存的好处是无需关心写的内存在哪里,软件作为一个连续的内存空间使用即可。CXL的内存带宽比DDR带宽小、延迟大,如果业务对带宽和延迟的抖动不敏感,用户就能非常方便地使用更大的内存。

另一种CXL内存的使用方式是把CXL内存和DDR内存一起呈现给OS,这样内存不会被浪费,在OS中看到的容量是所有的内存叠加。还有一种内存使用方式是让CXL内存和DDR内存在OS中以两个各自独立的内存呈现出来,这种方式从系统角度需要软件。

CXL规范不断在演进,以实现资源的解耦,支持机箱、机架和数据中心规模的资源分解、池化与共享。到CXL 3.0代际,这种池化共享可扩展到机柜级,甚至是跨机柜、多机柜的级别。

再下一代处理器将支持CXL 3.X。3.0、3.1的一大重要特性是支持CXL Fabric。CXL Fabric由很多交换机组成的,有更大的组网能力,可解决AI大模型对计算、互连、内存等特性的要求。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

三、阿里云第九代企业级计算实例:多种性能加速,性价比大幅提升

阿里云智能集团服务器硬件负责人文芳志回顾说,阿里云从2009年开始采用很多基于英特尔产品的标准服务器,从2016、2017年开始逐步转向自研服务器,双方多年来形成了默契,英特尔新平台发布时,相应的阿里云实例就会上线。

阿里云与英特尔共同推动技术与生态系统的进步,在服务器技术研发和云产品方面进行深入合作,率先在国内进行浸没式液冷技术的商业部署,推出了包括高级RAS、硬件动态内存刷新控制等一系列先进的软件创新。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

英特尔助力阿里云打造磐久高性能存储服务器解决方案,不仅通过英特尔QAT/DSA等加速引擎优化服务器访存时延,提升产品整体服务能力,同时软硬结合助力实现其超高性价比。

除了在整机服务器方面,阿里云与英特尔在CPU定制、硬件故障诊断及隔离等方面进行深度合作。双方还在CXL、UCIe、UALink(超级加速器链行业开放标准)等开放互连组织上合作推动标准建设,并联合推动Alinux和OpenAnolis社区的繁荣和发展。在魔搭合作方面,很多一级开发者想借此直接将大语言模型在英特尔AI PC上本地化部署。

“未来,我们期待继续与英特尔在创新技术领域紧密合作。”文芳志说。

阿里云智能集团弹性计算高级产品专家姬少晨谈道,阿里云在弹性计算产品上持续与英特尔进行深度技术合作,从七代实例联合开发并在全球范围内率先发布基于SGX的安全增强型实例,到八代实例充分利用了英特尔AMX矩阵加速引擎和英特尔QAT技术等,并发布业界领先的TDX机密虚拟机。

在第九代产品发布前,阿里云做了一系列的客户调研,发现客户对数据处理的速度和效率、算力资源的灵活弹性、云上算力的安全与稳定性等都提出了更高的要求。基于这些诉求,阿里云致力于核心技术研发,其自研的CIPU(云基础设施处理器)作为云计算加速器,已经成为业界标杆,大幅提升业务负载的计算效率。

即将发布的搭载英特尔至强6性能核处理器的阿里云ECS第九代企业级计算实例,基于CIPU架构和英特尔的硬件支持,在性能、灵活弹性、安全稳定性等方面实现全面的提升。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

该实例尤其适合数据库、传统AI推荐、通用企业应用Web、Java等应用场景,相比上一代产品,性能均提升15%以上。

在IO能力方面,网络连接数提升2倍,eRDMA时延低至8μs,整机IOPS提升20%,云盘密度翻倍提升(例如小规格云盘数量从8提升至16,大规格云盘数量从64提升至192)。

在安全稳定性方面,支持TDX机密虚拟机,硬件采用双单路架构设计,提升整机核密度的同时,降低故障域半径。

在资源灵活性方面,第九代实例全面支持全新弹性临时盘,相对本地盘实例,可灵活配比高性能算力与高吞吐存储,在数据分析、分布式缓存等场景中能获得超过30%的性价比提升;大幅提升了磁盘网卡密度,单VM最大可支持192云盘,使容器云原生场景大幅提升使用效率。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

阿里云与英特尔持续推进深度合作,将英特尔在至强处理器上的技术优势,通过阿里云弹性计算转化为云上弹性的算力,为客户提供安全、稳定、高性能、弹性的云上算力服务。

除了通用场景的性价比提升外,双方基于CPU原生的硬件加速器能够帮助客户以超高性价比实现场景化的能力增强。

其中,AMX引入了新的硬件结构,大幅提高基于向量矩阵计算的计算效率,非常适用于传统AI推荐、大模型的前置数据清洗工作。在基准测试中,相对于不启用AMX,启用AMX能实现数倍级性能提升。

Intel 3工艺、128核心、支持CXL 2.0,英特尔至强6性能核亮点剧透:AI性能大增

该特性在第八代实例首发。某客户模型训练的前置数据预处理过程中有大量语料需清洗,清洗过程主要对数据进行向量化处理,通过利用英特尔AMX指令加速能力,整体性能提升30%以上。第九代实例则做了进一步提升,增加了对FP16的支持,相对于BF16精度更高,同时生态更成熟,兼容性会更好。

该实例还默认支持英特尔QAT加速器,在数据加解密、压缩、解压缩过程中,可大幅降低处理器内核的负载。比如常用Web加密性能测试中,相比不开启QAT,开启QAT大概有4-6倍的性能提升。其适用场景包括基于Nginx性能加速、数据库的压缩解压缩、视频的压缩解压缩等。

结语:英特尔打造全栈AI底座,加速AI应用全场景落地

通过提高处理器的能源效率,优化数据中心的能效表现,对未来数据中心的发展至关重要。迈向“双碳”目标,如何在能源和性能之间取得平衡,将是未来微架构发展的方向。

英特尔至强6系列通过共享硬件平台和不同侧重的性能核与能效核,能够满足广泛的计算负载需求。即将发布的英特尔至强6性能核处理器,将以其先进特性助力下一代数据中心升级,并为大模型时代企业AI的落地与发展提供有力支持。

英特尔秉承“AI无处不在”的愿景,以用户的需求和业务场景为出发点,开发从云到端的全线产品组合和开放的生态,为业界提供全栈AI产品的组合和行业解决方案,加速从云基础设施到边缘,再到客户端的AI应用全场景落地。

在AI技术加速迈向全面应用之际,英特尔除了探索如何发挥自身产品技术优势外,也始终坚持以开放的生态系统促进产业的协作共赢,以与众多行业合作伙伴一起加速生成式AI解决方案在企业内的落地,带动AI时代企业业务的智能化升级。