芯东西(公众号:aichip001)
作者 | 程茜
编辑 | 漠影
大模型带来的技术与产品革命正在颠覆生产力,日趋丰富的AI应用规模化部署带来全新计算需求,给用户带来新的机遇和挑战。
大模型的算力需求主要来自两个环节:训练和推理。训练阶段决定了大模型的智力水平,AI算力需求呈指数级增长。推理阶段是大模型应用落地时的计算过程,随着大量相关创新应用涌现,对推理侧算力需求的关注度同样水涨船高。
AMD联手国内头部服务器厂商新华三,将AMD EPYC处理器集成到新华三智能算力旗舰R5500 G6 AI服务器、新华三混合算力引擎R5350 G6 AI服务器中,成为当下用户能同时满足训练、推理算力需求,缓解算力焦虑的理想解决方案之一。
那么,在训练和推理对于算力需求的侧重点不尽相同的当下,大模型所需的算力需要怎样的芯片来承载?CPU和GPU将在其中扮演怎样的角色?AMD EPYC处理器加速AI训练、推理的杀手锏是什么?我们试图从这一处理器出发,找到这些问题的答案。
一、AI算力需求升级,直面训练、推理痛点
以聊天机器人ChatGPT为始,从大模型训练到推理引发的算力焦虑,正成为算力行业增长的动力之一。
对于用户而言,这背后的关键在于,AI训练和推理这两个关键环节对于算力的需求不同。AI训练过程是涉及数据量最大、处理最为密集的部分,需要具备更加大规模、高集中度、高性能的算力;AI推理主要涉及大量AI应用的落地部署,还需要考虑用户数量实现同时并发,侧重点更多体现在计算效率和规模上。
因此,在AI应用爆发的背景下,拥有一定计算能力的CPU支撑AI推理所需的算力,GPU+CPU的异构计算架构完成AI训练和推理的解决方案,成为连接AI训练到推理需求的一条可行路径。
正如AMD EPYC处理器,既针对AI推理任务进行了优化升级,同时还能在其与新华三推出的AI服务器R5350 G6、R5500 G6中提供满足训练、推理的计算能力。
AMD EPYC处理器针对于当下算力需求从训练向推理扩展的现状,也进行了相应优化。如帮助开发人员无缝从训练转向推理,并以更高性能运行这些操作。
同时,相比于训练,AI推理层面用户对芯片背后的成本和功耗会更为关注,AMD EPYC处理器可以在兼顾这些的同时,还能保证计算效率,降低时延。
综上,大模型时代算力需求正发生变化,CPU也焕发出新的生命力。
二、AMD EPYC为AI推理提供全栈支持
AMD为满足用户的推理需求提供了一大可行且性价比更高的方案。
第四代AMD EPYC 9004系列处理器代号Genoa,实现了核心架构升级,使每个时钟周期的指令总数增加了约14%。
此外,EPYC 9004系列做到了最多96核心192线程,而且都是完整大核心,同时提供84/64/48/32/24/16等不同核心数量可选。大量的核心再加上同步多线程技术,可以同时处理来自成千上万个源的数据推理请求,大大提高效率。
AI推理过程与企业业务紧密结合,需高速、频繁读取、处理相应数据,就需要芯片具备高频率的计算能力,借助PCIe Gen 5 I/O,处理器的I/O吞吐量实现翻番,能够实现更快的数据获取,加快AI推理速度。
再加上,AI推理落地到更多垂直行业时,因业务场景不同,其应用的表现形式会更加复杂,对于更快、更高效的内存需求更为迫切。AMD EPYC处理器搭载了DDR5内存,内存吞吐量总计达到了AMD上一代产品的2.25倍,使得数据传输速率提升,降低任务响应的时延。
AMD EPYC处理器还支持AI优化指令集,如AVX-512扩展、BF16数据类型等,这些专门用于AI计算的指令集,使得AI推理效率进一步提升。
▲AMD EPYC处理器(图源:AMD)
硬件升级外,该处理器还在软件层面进行了针对性优化,为CPU软件栈提供了机器学习图形编译器、针对Zen核心架构优化的数值库、AI原语库ZenDNN、ZenSoftwareStudio以及适用于Microsoft Windows和Linux的运行软件等工具。
并且,AMD EPYC处理器还具备更好的兼容性,可无缝切换目前主流的各种CPU AI的库,如OneDNN和OpenVINO等。
更为关键的一点在于,企业采用搭载AMD EPYC处理器的现有服务器,既能快速满足推理所需的算力,同时还能降低这之中的操作成本,无需选用新服务器用来推理可以为企业减负。
此外,第四代AMD EPYC处理器已经在承载大模型应用的场景中实现落地,如属于计算机视觉、自然语言处理和推荐系统范畴的客户支持、零售、汽车等行业的一系列数据中心和边缘应用。
可以看出,AMD EPYC处理器基于高主频、高核心数带来的高并发、低延迟,更优能效比以及I/O吞吐等诸多优势,能够契合用户业务场景的推理需求。
三、AMD携手H3C新华三共同打造智算训推集群
如今,除大语言模型外,文生图、文生视频等多模态大模型的能力升级,进一步激发了训练算力需求,再加上AI落地的推理需求,进一步拉大算力缺口。
因此,算力提供商需要打造具备更全面AI支撑能力的计算集群,才能满足目前的算力需求。
新华三打造的AI服务器H3C UniServer R5500 G6、R5350 G6,集成了AMD EPYC处理器,可同时满足用户搭建训练、推理集群的算力需求。
这两款服务器都支持2颗AMD EPYC 9004系列处理器,使其实现了90%性能提升和50%的内核数量提升,还能满足超大模型的并行训练需求,实现在AIGC、语音识别等多种AI业务场景的应用。
值得一提的是,根据新华三去年发出的新闻报道显示(39项世界第一!新华三再次登顶MLPerf国际权威AI基准性能竞赛),基于96核AMD EPYC 9654 CPU的R5350 G6 AI服务器,在国际权威AI基准评测组织MLPerf公布的最新AI 推理(Inference V3.0)榜单上,夺得了ResNet50(图像分类)、RetinaNet(目标检测)、3D-Unet(医学图像分割)、BERT(自然语言处理)等模型任务21项第一,可应对人工智能不同场景下对异构算力的需求。
R5500 G6可以根据用户需求灵活选择不同的计算节点,提升GPU的资源利用率,使得其可同时部署深度学习模型训练、深度学习推理、高性能计算、数据分析等多种应用。
在这之中,AMD EPYC处理器扮演了重要角色。AI服务器R5500 G6支持2颗AMD EPYC处理器,双处理器的内存容量达到12TB。
再加上PCIe 5.0及400GE网络的加持,使得客户可以用AI服务器部署更高性能的AI算力集群,加速AI的落地与应用。
▲新华三混合算力引擎H3C UniServer R5500 G6 AI服务器
R5350 G6的性能同样强劲,除上文提到的性能和内核数量提升外,还支持多达24块2.5/3.5英寸硬盘,可满足海量数据的存储需求。
在网络带宽方面,R5350 G6可支持12个PCIe5.0插槽、内置1个专用阵列卡槽位和1个OCP 3.0专用网卡插槽,支持400GE网卡。
基于AMD EPYC处理器,R5350 G6可支持多种类型AI加速卡,应对AI不同场景下对异构算力的需求。CPU和GPU挂载比可支持1:4、1:8,用户可基于应用模型按需配置。
▲新华三混合算力引擎H3C UniServer R5350 G6 AI服务器
具备高内核、高内存等上述优势的AMD EPYC处理器,正在与GPU相辅相成,打造出更适用于处理高性能计算的服务器,同时还能处理更复杂且多样的数据,弥补单一计算架构处理器在现有场景的不足。
可以看出,AMD EPYC第四代Genoa系列已经成为新华三打造智能训练、推理集群的动力源之一。
AMD EPYC处理器等诸多硬件的加持下,针对不同大小数据集、不同参数规模的大模型,新华三打造的智算集群还会根据其所需要的不同训练方式,提供相应的集群搭建方式。
这正是AMD基于对大模型产业快速发展背后算力需求的深刻理解的体现,其与服务器厂商新华三联手,强强联合打造出了更契合如今企业面临的复杂算力需求的服务器产品。
结语:弥补AI算力缺口,AMD、新华三聚力破局
在生成式AI风暴的催化下,大模型正发展成AI基础研究和产业化落地的一大趋势。如何以更低的系统成本、更少的能源消耗,支撑起大模型持续发展所带动的更高、更复杂的算力需求,成为算力提供商面临的更大技术挑战。
AMD EPYC处理器成为当下困境的解法之一,面对AI算力需求的持续升级,AMD不仅在加速升级产品解决AI推理面临的算力难题,同时与新华三等国内头部服务器厂商联手,将AMD EPYC处理器的价值进一步释放到AI训练+推理的全过程中,让更多企业能够迎接大模型带来的无限机遇。