智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 心缘

智东西8月19日银川报道,昨日,由工业和信息化部、宁夏回族自治区政府主办的2023中国算力大会在宁夏银川举办。

大会期间,作为头部算力基础设施提供商,联想推出两款全新AI服务器产品——联想问天WA7780 G3 AI大模型训练服务器、联想问天WA5480 G3 AI训推一体服务器,为大模型AI训练和推理提供新的基础设施。

联想推出AI大模型训练服务器!对话联想副总裁:全面打造AI导向的基础设施▲“算力中国”创新成果展上的联想两款AI服务器产品展示

同时,联想首次对外发布“普慧”AI算力战略,提出将100%算力基础设施产品支持AI,50%基础设施研发投入在AI领域等战略举措,并推出了联想智算中心解决方案和服务核心产品。

联想集团副总裁、中国区基础设施业务群服务器事业部总经理陈振宽说:“全新推出的两款联想问天AI服务器,秉承‘AI赋智,绿色赋能’的两大战略特征,通过领先的AI技术,覆盖全域应用,打造全面的AI导向基础设施。”

联想推出AI大模型训练服务器!对话联想副总裁:全面打造AI导向的基础设施▲联想集团副总裁、中国区基础设施业务群服务器事业部总经理陈振宽

会议期间,智东西与少数媒体对陈振宽,以及联想集团副总裁、中国区方案服务业务群总经理戴炜进行了深度采访。

AI服务器的交付时间是产业关注的一大焦点问题。对此,陈振宽告诉智东西,目前AI服务器呈现供不应求的态势。今天正式对外宣布两款的AI服务器,目前订单数量火爆,一些订单甚至要排到明年。

当下众多中国厂商发布了大模型,联想在此是否已有布局?

戴炜告诉智东西,联想目前没有自研通用超大规模模型,而是聚焦于智能基础设施服务方面,基于百行业的客户应用需求、围绕行业场景去布局。

联想推出AI大模型训练服务器!对话联想副总裁:全面打造AI导向的基础设施▲联想集团副总裁、中国区方案服务业务群总经理戴炜

当谈到大模型对东数西算工程的影响,戴炜认为,大模型的兴起或许能为以宁夏为代表的西部算力枢纽带来新机遇。离客户场景较近的大模型推理可以放在东部算力枢纽,离客户场景较远的大模型训练则可放在西部算力枢纽。

而带动“东数西算”工程的落地,需要智能计算技术、应用需求、人才生态等多方面因素共同作用。

一、联想副总裁陈振宽:50%基础设施研发投入在AI领域

随着算力成为各国科技战略布局重点,联想提出将“普慧算力”作为算力发展的战略方向。

陈振宽说,“普”代表普适,希望算力像水和电一样,人人可得、人人可用、人人适用;“慧”代表智慧,意味着自适应、自学习、自进化,用户可以随需使用。

陈振宽说,联想的“普慧”AI算力战略有两大特征:一是AI赋智,二是绿色赋能。

在AI赋智方面,联想提出将100%算力基础设施产品支持AI,50%基础设施研发投入在AI领域,全面AI技术覆盖全域AI应用。在绿色赋能方面,联想提出全面布局和引领液冷技术,打造液冷技术和液冷集群方案灯塔,持续创新引领未来技术。

联想推出AI大模型训练服务器!对话联想副总裁:全面打造AI导向的基础设施▲联想要提供全面的AI技术与服务

追溯联想AI算力战略的背后逻辑,联想“AI赋智,绿色赋能”如何促进“普慧”AI算力实现?

陈振宽告诉智东西,联想通过“全栈智能”的方式实现战略方向的落地,体现在三个方面:AI内嵌的智能终端、AI导向的基础设施、AI原生的方案服务。

在AI导向的基础设施方面,联想已推出了“联想ThinkSystem”和“联想问天”双品牌,目前在AI方面已有60多款产品。

其中联想ThinkSystem系列产品主打“全球智慧+本地交付”,新的联想问天品牌则主打“本地创新+敏捷高效”,基于本地的创新、生态位中国客户实现更加灵活定制的个性化方案。

联想推出AI大模型训练服务器!对话联想副总裁:全面打造AI导向的基础设施

▲联想智能算力基础设施采取双品牌战略

二、推出两大AI服务器产品,大模型训练提速近10

以AI为导向的基础设施要依据AI数据和算法的特性而设计和优化,包括AI数据的“向量、矩阵或多维数组的形式”、“数据噪音多”等特征,以及AI算法“巨大规模并行计算和矩阵计算”、“容忍低精度浮点或量化整数”等特征,都需要被考虑在内。

本次,联想推出的两大AI服务器产品联想问天WA7780 G3 AI大模型训练服务器、联想问天WA5480 G3 AI训推一体服务器,正是其全新AI算力战略理念的展现。

1、AI大模型训练服务器:算力达32P FLOPS,大模型AI训练速度提升9倍

今年年初,联想发布了联想服务器的首个本地化品牌“联想问天”,联想问天WA7780 G3是一款专为AI大模型训练所打造的服务器。

联想推出AI大模型训练服务器!对话联想副总裁:全面打造AI导向的基础设施

▲联想问天WA7780 G3 AI大模型训练服务器

(1)AI算力提升超3倍,AI推理速度提升达30倍

联想问天WA7780 G3 AI大模型训练服务器基于第四代英特尔至强可扩展处理器。NVIDIA HGX H800系统配备8颗H800 NVLink GPU,拥有高达640GB的HBM3高速显存,通过NVLink,GPU间互联带宽高达400GB/s。据称其将AI算力提升了3.44倍,至高可达32P FLOPS AI算力。

NVIDIA H800 GPU匹配第四代Tensor Core配合Transformer引擎(FP8精度),与上一代产品相比,可为大模型AI训练速度带来高达9倍提升,可将大模型AI推理速度提升高达30倍。

联想推出AI大模型训练服务器!对话联想副总裁:全面打造AI导向的基础设施▲联想问天WA7780 G3 AI大模型训练服务器的算力指标情况

(2)快速低延迟互联,支持按需配比和扩展不同算力

联想问天WA7780 G3 AI大模型训练服务器支持IB、RoCE等多种对外网络连接方案。其最高可以支持8张RDMA高速网卡,提供3.2Tb/s聚合带宽,充分满足了超大模型训练并行计算时,跨节点的通信需求。

同时,在本地存储的设计上,联想问天WA7780 G3采用GPU Direct Storage (GDS)技术。通过GDS技术,GPU与NVMe实现了快速低延迟互联,能够有效提高训练数据载入的速度,提升大模型训练的性能。

联想推出AI大模型训练服务器!对话联想副总裁:全面打造AI导向的基础设施▲联想问天WA7780 G3 AI大模型训练服务器的灵活架构

(3)创新散热设计:功耗降低约10%,PUE值有望低于1.1

联想问天WA7780 G3 AI大模型训练服务器,在产品设计中采用了三重独立风道设计,针对不同部件的散热特征,进行了系统性的优化,有效降低了由风扇带来的散热功耗。据称,相比同级别产品,联想问天WA7780 G3 AI大模型训练服务器功耗降低约10%。

同时,为了满足未来智算中心对PUE值更低的要求,本产品预留了液冷冷板设计,未来将支持液冷,这将大幅度节省在AI大模型训练过程中,因系统散热带来的额外能耗,PUE值有望低于1.1。

联想推出AI大模型训练服务器!对话联想副总裁:全面打造AI导向的基础设施▲联想问天WA7780 G3 AI大模型训练服务器能耗情况

2、AI训推一体服务器:支持多种场景、多元算力

再来看看联想问天WA5480 G3 AI训推一体服务器。这是联想问天品牌中的一款4U机架式AI服务器,支持多元的算力和丰富的生态。

联想推出AI大模型训练服务器!对话联想副总裁:全面打造AI导向的基础设施

▲联想问天WA5480 G3 AI训推一体服务器

(1)最多支持10张NVIDIA H800,支持多款AI加速卡

联想问天WA5480 G3 AI训推一体服务器采用2颗第四代英特尔至强可扩展处理器,支持最新PCIe 5.0。通过PCIe扩展,其最多可以支持10张包括最新NVIDIA H800 GPU在内的,多类型、多品牌AI加速卡。联想问天WA5480 G3可以灵活应用于AI通用模型训练、大模型推理、AI生成、云游戏、科学计算等多种应用场景。

联想推出AI大模型训练服务器!对话联想副总裁:全面打造AI导向的基础设施

▲联想问天WA5480 G3 AI训推一体服务器支持多元算力

(2)灵活拓扑,不同组合满足多种AI场景需求

联想问天WA5480 G3 AI训推一体服务器在CPU-GPU互联的硬件设计上采用灵活多变的设计理念。其基于不同AI工作负载,可以为客户提供包括直通、Balance、Common多种CPU-GPU互联方式,避免了因为CPU-GPU数据通信方式单一与工作负载不匹配,带来的潜在性能瓶颈和系统效率下降。结合不同种类,不同数量的加速卡选择,其可实现对AI各种复杂场景的完美匹配。

联想推出AI大模型训练服务器!对话联想副总裁:全面打造AI导向的基础设施▲联想问天WA5480 G3 AI训推一体服务器支持丰富生态

(3)充分考虑设计冗余,确保无间断运行

联想问天WA5480 G3 AI训推一体服务器充分考虑了设计冗余,支持电源N+N冗余,节点内电源间互为备份,对外可以连接双路市电,从而保障服务器24小时在线运行。该产品支持CPU、GPU、内存等关键部件的功耗监测,整机功耗封顶调控,动态保障服务器运行在合理的功耗区间,保证性能的稳定,以及风扇N+1冗余等多种安全设计保障高环温无间断运行。

联想推出AI大模型训练服务器!对话联想副总裁:全面打造AI导向的基础设施

▲联想问天WA5480 G3 AI训推一体服务器的稳定性

陈振宽告诉智东西,在AI算力、智算方面,这应该是一个变革式的推出,循序渐进式的不大可以满足智算的需求。所以在智算方面,联想这次推出的这两款产品还是比较偏向于大规模的推理和大规模的训练,就是大规模和超大规模。

三、推出智算中心方案,三种交付方式支持三类算力场景

当下,混合架构模式在智算中心的建设中已成为行业趋势。

戴炜认为,智能算力场景持续推动算力需求的不断升级,智算中心建设需要满足千行百业对混合算力的要求,包括公有云和私有云的混合,国产算力及通用算力的混合,以及普算、超算和智算,企业智算中心和区域智算中心都显现出复杂性。

智算中心的复杂性需要领先的技术框架和陪伴服务。为此,联想推出端到端的智算中心方案,以及全周期陪伴式服务能力。

联想推出AI大模型训练服务器!对话联想副总裁:全面打造AI导向的基础设施

▲戴炜讲解智算中心方案及陪伴服务

联想智算中心解决方案,是其AI原生的方案服务的重要部分。AI原生的方案服务包括联想智算中心解决方案、联想混合云解决方案、联想大脑嵌入的解决方案和端到端全周期的联想智算中心服务和臻算服务。

联想推出AI大模型训练服务器!对话联想副总裁:全面打造AI导向的基础设施

▲联想智算中心解决方案

戴炜说:“针联想方案服务将以三种交付方式(混合云、臻算服务2.0订阅式和一站式)支持三类算力场景(普算、智算、超算)的混合计算需求。”

结语:大模型落地行业,推动AI算力需求爆发

随着大模型向千行百业落地,AI算力已成为算力基础设施的重要发展方向。知名行研机构IDC报告显示,随着生成式人工智能应用的爆发,各行业对智算的需求首次超过通用算力,AI算力已成为算力发展的主要方向,也成为“东数西算”发展的新的强劲动力。

乘此东风,IDC的数据显示联想集团是2022增长最快的AI硬件基础设施(服务器和存储)提供商,同比增长139%,全球排名第三。本次,随着联想推出多款面向AI大模型时代的服务器,并加速推进AI赋智、绿色赋能的“普慧”战略,其有望为我国大模型的研发和落地提供新的动力。