最强AI加速CPU来了!英特尔推第三代至强,阿里云腾讯云同台首发

芯东西(ID:aichip001)
文 | 心缘

芯东西6月19日报道,刚刚,英特尔推出一系列面向AI和分析的战略及最新产品组合。

第三代至强可扩展处理器Cooper Lake、首款针对AI进行优化的FPGA英特尔Stratix 10 NX、新一代英特尔傲腾持久内存200系列、全新英特尔3D NAND固态盘D7-P5500和P5600纷纷首秀。

最强AI加速CPU来了!英特尔推第三代至强,阿里云腾讯云同台首发

阿里巴巴、腾讯、百度、Facebook等大型云服务提供商及浪潮等IT基础架构产品及方案提供商均已宣布采用英特尔新一代处理器。

除了云端新品频发,边缘AI产品也有新动向。第三代英特尔Movidius VPU(Keem Bay)正处于抢先体验阶段。

在去年年底收购Habana后,今天,英特尔已整合和强化AI产品路线图,调整了软件资源,并向大型CSP采样了Habana的第一个深度学习训练处理器。

而在对用户体验至为重要的软件上,英特尔oneAPI跨架构工具生态系统已取得重大进展。

英特尔还推出了其OpenVINO发行版工具包的新的长期支持(LTS)版本,提供了一致、稳定的版本,针对关键错误修复(为期一年)和安全补丁(为期两年)进行了更新。

此外,英特尔与13个合作伙伴宣布了针对AI和分析的3个新精选解决方案以及4个经过修订的精选解决方案。

为支持对远程工作和学习的需求,英特尔与VMware扩大合作伙伴关系,并在vSAN上提供适用于VMware Horizo​​n VDI的新的精选解决方案,该解决方案可以以更低的单台成本支持多达87%的远程桌面。

最强AI加速CPU来了!英特尔推第三代至强,阿里云腾讯云同台首发

一、英特尔AI和分析最新战略:围绕三大核心

人工智能(AI)和分析将是未来十年起决定性作用的工作负载,推动以数据为中心的领域从云到边缘的颠覆性创新。

IDC预测,2023年AI系统的支出将达到979亿美元,是2019年375亿美元支出的2.5倍多。

英特尔的目标是通过其产品组合为每个以数据为中心的工作负载提供支持,其中包括塑造技术的未来的几类转折性技术:

1)云架构:带给数据中心的效率和和扩展性现已扩展至网络和边缘;

25G从根本上改变对计算的看法,并要求所有网络转型,带来丰富的新体验和服务;

3AI能在所有应用中普及的基础,将数据从负担变为机遇,赋能千行百业;

4)边缘:要求更多计算能靠近创建和使用数据的地方,推动多功能的计算设备发展。

英特尔的AI和分析产品组合主要围绕3大核心来构建:硬件、软件、生态系统。

最强AI加速CPU来了!英特尔推第三代至强,阿里云腾讯云同台首发

1、硬件

(1)持续将AI训练和推理加速功能引入至强,确保至强是运行AI的最佳CPU;

(2)提供CPU、GPU、FPGA和专用加速器插槽中部署的标量、矢量、空间和矩阵架构的各种组合,使客户能在需要的时间和地点使用最合适的计算类型;

(3)通过处理、内存、I/O、封装、内部和外部IP、互连、安全性等前沿技术,将上述产品集成到一个通用平台中。

2、软件

(1)持续优化常用软件,包括流行的开源框架、定制拓扑结构等;

(2)通过应用程序工程和支持开源社区,使AI开发人员能在英特尔平台上进行编程;

(3)通过开源oneAPI建立一个统一的编程模型,为开发人员提供统一的体验,同时使英特尔所有AI产品的性能得以最大化。

3、生态系统

(1)从公有云提供商到OEM平台以及英特尔AI Builders社区(SI、ISV等),已用英特尔AI技术建立了蓬勃发展的合作伙伴生态系统;

(2)通过生态系统驱动的解决方案、客户用例POC和精选解决方案产品,使AI易采用部署。

以此为基础,今天,英特尔推出一系列面向AI和分析芯片&软件基础的新品。

二、第三代至强可扩展处理器支持bfloat16,秀三年路线图

英特尔至强可扩展处理器是业界唯一具有集成深度学习加速功能的主流数据中心CPU,随着近3500万颗芯片得到部署已成为全球以数据为中心基础设施的基石。

今日推出的第三代至强可扩展处理器Cooper Lake,专为深度学习、虚拟机(VM)密度、内存数据库、任务关键型应用及分析密集型工作负载而设计。

Cooper Lake支持4和8插槽设计,是当前唯一最多可提供8插槽可扩展性的x86平台。每个处理器最多28核,在8插槽配置中每个平台最多224核,英特尔在该平台上提供四路、八路的服务器。

相比拥有5年寿命的标准基础安装平台相比,企业、云服务提供商、通讯服务提供商平均可获得1.9倍的性能提升和1.98倍的数据库性能提升。

最强AI加速CPU来了!英特尔推第三代至强,阿里云腾讯云同台首发

第三代至强可扩展处理器内置AI加速功能,并引入了最新傲腾持久内存200系列,可在四路系统中提供多达18TB的内存数据,非常适合应对最大的数据分析挑战。

此前在第一代和第二代至强可扩展处理器,英特尔持续优化AI训练及AI推理功能:第一代至强加入AVX-512,并优化了FP32;第二代至强引入英特尔深度学习加速技术,显著提高基于INT8推理的性能,并将至强拓扑优化的数量从24个增加到44个。

如今第三代至强可扩展处理器是首款具有内置bfloat16(BF16)支持的主流服务器处理器,进一步增强其深度学习优化能力。

bfloat16是一个精简的数据格式,与32位浮点数(FP32)相比,bfloat16只通过一半的比特数且仅需对软件做出很小程度的修改,就可达到与FP32同等水平的模型精度。

最强AI加速CPU来了!英特尔推第三代至强,阿里云腾讯云同台首发

英特尔工程师已使用支持bfloat16的AI框架和工具为AI生态系统做好了准备。英特尔针对TensorFlowPyTorch等领先的深度学习框架优化过的版本将支持bfloat16,同时为OpenVINO工具包和ONNX Runtime环境提供bfloat16优化,以简化推理的部署工作。

在英特尔深度学习加速DL Boost技术支持下,相较上一代FP32,第三代至强可扩展处理器通过支持bfloat16将训练性能提升1.93倍,推理性能提升1.9倍。

例如基于该平台,阿里云NLP模型BERT推理性能提升1.83倍,蚂蚁金服视频分析训练性能提升1.72倍,海鑫科金生物识别吞吐量提升1.97倍,东软医学影像分析吞吐量提升1.91倍,腾讯云TTS模型Parallel WaveNet的推理性能提升1.89倍。

阿里云率先发布第七代高主频实例,搭载第三代英特尔至强可扩展处理器及阿里云自研的第三代神龙计算平台,可提供3.8Ghz的全核睿频和4.2GHz的单核最高睿频。新一代实例最大支持192个vCPU,整机算力是第六代高主频实例的2.5倍以上,AI训练和推理性能提升1.5-1.8倍。

腾讯云联手英特尔打造了星星海首款四路自研服务器,高密度提升116%,散热能力提升22%,风扇节能30%,容机率下降50%。

浪潮也宣布推出两款支持最新英特尔第三代至强可扩展处理器的M6系列四路服务器,其中面向云场景优化的2U4路服务器NF8260M6相比2U2路产品,可节省50%机房空间、降低40%运维成本、降低7%功耗,从而降低整体TCO。

最强AI加速CPU来了!英特尔推第三代至强,阿里云腾讯云同台首发

该通用平台支持跨处理器、内存、存储和I/O的更高资源利用率,可帮助企业提高配置的灵活性,优化空间、电源、冷却和维护成本,进而提高TCO。

与上一代相比,第三代至强可扩展处理器最多6个英特尔UPI通道增加了平台可伸缩性,并提高了I/O密集型工作负载的CPU间带宽,在提高吞吐量和能源效率之间提供了很好的平衡。

其DDR4内存速度及容量亦增强,包括最多支持6通道的DDR4-3200 MT/s和16Gb DIMM,每个插槽最多支持256GB DDR4 DIMM。

在安全方面,英特尔硬件增强的安全技术能阻止恶意利用,提供具有高度可用性和加密效果的可信服务交付,保持工作负载的完整性并降低性能开销。

最强AI加速CPU来了!英特尔推第三代至强,阿里云腾讯云同台首发

英特尔至强可扩展路线图也于现场公布,支持1-2路的第三代可扩展处理器Ice Lake将在今年晚些时候发布。

2021年代号为Sapphire rapids的至强可扩展处理器也已启动,将包含一项名为Advanced Matrix Extensions(AME)的全新AI功能,进一步进化深度学习加速指令集。

最强AI加速CPU来了!英特尔推第三代至强,阿里云腾讯云同台首发

此外,第三代英特尔Movidius(Keem Bay)正处于抢先体验阶段,它将计算机视觉、相机图像处理和深度学习推理结合到一个独立SoC中。

三、存储更多:新傲腾持久内存较主流NAND SSD读取数据快225倍以上

在存储产品线,英特尔推出下一代持久内存模块英特尔傲腾持久内存200系列和全新英特尔3D NAND固态盘D7-P5500和P5600。

英特尔傲腾技术是建立在独特架构上的全新技术,实现了在密集、无晶体管、可堆栈式设计中对每个内存单元进行独立编址。这一创新在内存与存储金字塔中建立了新的层级,可提供多种外形规格的持久内存、非易失性内存以及持久存储。

最强AI加速CPU来了!英特尔推第三代至强,阿里云腾讯云同台首发

傲腾持久内存200系列已搭载于英特尔第三代至强可扩展处理器Cooper Lake中,带宽较上一代提升25%,Cooper Lake搭配的内存容量可达到4.5TB

在意外断电的情况下,傲腾持久内存200系列提供的CPU对持久性数据的访问速度比主流NAND SSD读取数据快225倍以上。

与DRAM不同,英特尔傲腾持久内存技术可提供高性能智能,以更低的成本提供比DRAM高的容量,并且即使断电也可以保留其数据,重启后数据不必重新加载到内存中。

傲腾持久内存自去年交付以来,《财富》 500强公司中有200多个进行了傲腾持久内存的POC或部署,POC到销售的转化率超85%,有超过270项生产交易达成。

最强AI加速CPU来了!英特尔推第三代至强,阿里云腾讯云同台首发

英特尔傲腾SSD通过快速缓存和存储加速应用程序,提升了每个服务器的规模,并减少延迟敏感工作负载的交易成本。

今日新推出的英特尔3D NAND固态盘D7-P5500和P5600是英特尔3D PCIe系列的扩展,已被所有主流OEM所采用,基于英特尔最新三层单元(TLC)3D NAND技术而打造。

英特尔3D NAND技术在浮栅结构上进行设计,通过采用更小的单元尺寸和高效的存储阵列,实现了业内领先的96TLC面密度,在该面密度下具有领先的写入性能以及领先的数据保留能力,具有跟高容量、高可靠性、对于电荷损失有高保护性的特点。

与上一代NVMe NAND相比,这些驱动器具有全新的PCIe控制器、固件,可部署第3代和第4PCIe,可将延迟降低40%,并将性能提高33%。

四、首款针对AI进行优化的FPGAAI推理性能提升15

AI模型的大小和复杂性在不断增加,其复杂度每3.5个月翻倍或呈现一年10次翻倍的趋势。

为应对这一新兴趋势,英特尔在其FPGA架构上进行创新,以实现性能的指数级提升。

英特尔首款针对AI优化的FPGA英特尔Stratix 10 NX嵌入了一种新型的AI优化块(AI Tensor Block),包含AI模型算法常用的低精度乘法器密集阵列,可为自然语言处理和欺诈检测等应用提供高带宽、低延迟的AI加速。

最强AI加速CPU来了!英特尔推第三代至强,阿里云腾讯云同台首发

AI Tensor Block针对AI中常见的矩阵-矩阵或矩阵-矢量乘法进行了调整,旨在有效地处理小的和大的矩阵面积。

与当前用于AI推理工作负载的Stratix 10 MX FPGA DSP块相比,AI Tensor Block提供的INT8计算性能高出多达15

最强AI加速CPU来了!英特尔推第三代至强,阿里云腾讯云同台首发

Stratix 10 NX还有其他一些封装内功能支持高性能AI推理,包括高带宽存储(HBM)和57.8G的PAM4高速收发器,另外基于英特尔小芯片的架构策略,该设备得以快速开发。

相较NVIDIA V100,使用Stratix 10 NX进行加速,自然语言处理任务中BERT性能快2.3倍,欺诈检测任务中LSTM性能快9.5倍,计算机视觉任务中ResNet50性能快3.8倍。

除了AI之外,英特尔FPGA的应用范围还有一个重点是提高FPGA设计流程的整体生产力。

英特尔开发了一种方法,使开发人员能在包括FPGA在内的各种英特尔产品组合中快速部署AI解决方案。

例如,数据科学家可借助OpenVINO,在不了解FPGA的情况下用英特尔FPGA做推理,可在TensorFlow、Caffe或MXNet等标准AI框架中进行训练,并通过OpenVINO进行一些函数调用,从而在几秒钟内部署该解决方案。

英特尔也不断通过oneAPI跨架构工具组合,帮助开发者简化异构编程的流程、加速性能、提升生产力。

借助这些工具,开发者可在英特尔CPUGPUFPGA上实现AI工作负载的加速,并使代码可在现有及未来的英特尔处理器及加速器上得以兼容。

结语

第三代英特尔至强可扩展处理器及英特尔傲腾持久内存200系列目前已开始陆续交付,其通用OEM系统配置以及英特尔Stratix 10 NX FPGA都将在今年下半年交付。

从近三年的英特尔至强可扩展处理器路线图可以看到,英特尔计划今年推出的产品功能更为聚焦,拆分成了专注于4/8路服务器市场的Cooper Lake和专注于1/2路的Ice Lake。

另外无论是第三代至强还是新一代Stratix 10 NX FPGA,英特尔都特意针对AI性能做了相当程度的优化。

随着单一芯片越来越难以满足日趋丰富的算力需求,异构计算已成为业界公认的计算发展方向,而英特尔的远见体现于早早洞察到这一技术趋势,并通过一系列收购和技术研发形成了完整覆盖CPU、GPU、FPGA及专用处理器的组合阵容,并持续地降低一系列软硬件及前沿算法的应用门槛。

今天发布的重点是AI和数据中心,但英特尔的硬件、软件、生态布局已经延伸于远远超出AI的整个数据处理与计算范畴。