新基建硬核基础设施,解读“5A”级智算中心

智东西(公众号:zhidxcom)
作者 |  杨畅
编辑 |  漠影

2021是“十四五”的开局之年,在大基建的浪潮下,人工智能(AI)基础设施也迎来了前所未有的发展和技术产品迭代。

随着AI更广泛地在千行百业中落地,区域和产业对于人工智能算力的需求也不断增加,面向AI的算力基础设施随之成为新基建的重点。

以智能计算中心为代表的智算基础设施(以下简称智算中心)是为AI应用提供所需算力服务、数据服务和算法服务的公共算力新型基础设施,由AI芯片和算力机组等设备组成,聚集海量数据,企业和研究机构可以依托智算中心提供的强大算力,驱动AI模型进行数据深度加工,实现AI应用创新。

智算中心建设目的是促进AI产业化和产业AI化。

智算中心和云数据中心不同,云数据中心是采用虚拟化等云计算技术,提供的仍旧是传统的数据中心业务和各种新型网络应用,而智算中心是对数据中心的虚拟化,可能是云数据中心中的部分机组组合提供算力,也可能是多个云数据中心协作提供算力。

但智算中心相比于传统的数据中心,建设历史较短,行业内标准较少。作为新型基础设施的智算中心需要向社会提供什么样的算力?双碳政策下,智算中心如何实现更绿色?面对庞大的AI智算产业链,如何协同上下游共同建设?花费巨额资金建成的智算中心如何更好的支撑地方经济社会发展?

针对这些智算中心建设、运营的关键、重要问题,中科曙光高级副总裁任京暘与智东西等媒体进行了深入交流,分享曙光方案。

一、智算中心成新基建热点,四大难题需解决

想要建成并建好一个智算基础设施并不容易,任京暘谈道,像智算中心等智算基础设施,其发展还处于初级阶段,建设上,会面临一些初期困难。

新基建硬核基础设施,解读“5A”级智算中心

▲中科曙光高级副总裁任京暘

智算中心的建设目的是服务当地经济发展,也就是说智算中心首先是一个公共算力平台,不止为一个企业或一个产业服务,而是需要尽可能多的服务当地各类企业或多类产业。

智算中心不能是一个“孤岛”,其适用性不能是有限的,不能建成一个使用率不高或者只能支撑少量应用的智算基础设施。

这是智算基础设施建设需要面临的第一个问题,如何满足地区和当地企业需要,甚至服务更大范围,让智算中心的建设更有意义。

智算中心建设的第二个问题是,随着“双碳(碳达峰和碳中和)”目标的提出,各地的双碳规划相继出炉,怎样减少碳排放成为热点话题,而智算中心这类耗能大户,如何降低其能耗、减少碳排放,是建设者必须考虑的一个问题。

第三个智算中心建设时需要解决的问题是如何协同AI产业链上下游的力量,共同建设好智算中心。

从最底层的芯片,到中层的框架、模型、算法,再到最顶层的应用,AI产业链相当长,每一层都有多个细分赛道和大量的玩家,如何在现阶段整合好各层力量,把智算中心建设好,是一个很现实有意义的课题。

智算中心建设需要面对的第四个问题是怎样做好产业赋能。

智算中心建设目的是推动当地产业经济发展,在AI赋能千行百业的现在,投资方在利用智算中心,实现加速AI的产业化和产业的AI化过程中,会面临各种挑战。

二、AI落地进行时,如何建好、管好、用好智算中心?

面对上述智算基础设施或者说智算中心建设运营中存在的各种难点,曙光通过自身的实践和总结,提出了建设“5A级”智算基础设施,希望借此推动产业生态开发和协同发展,激发产业活力和整体繁荣,为绿色经济和数字经济融合发展提供重要支撑载体和推动力。

新基建硬核基础设施,解读“5A”级智算中心

▲曙光“5A级”智算基础设施

曙光不断强调的“5A级”智算基础设施,具体包括开放、融合、绿色、普惠、服务五个方面的能力。

开放是以生态包容的模式,构建智算中心多元集成的基础架构;融合是以搭载多种类型的芯片,提供多元的算力;绿色是运用先进的相变式全浸没液冷技术,将能耗降低达30%;普惠是通过多种策略,将综合建设成本降到低于市场既有价格30%;服务是提供全生命周期的智算基础设施服务,从建到运营,持续服务。

1、开放:以多元协作为宗旨,追求产业链共建

目前,智算中心面临的首要问题就是开放性问题,AI应用的数量增加和迭代速度对智算中心的生命力提出挑战。

作为新型基础设施,智算中心不能只解决像材料或者基因等某一领域的问题。

同时,智算中心建设还要避免这种情况:花巨资建好智算中心后,比如说一两年之后,随着迭代,智算中心的功能就大幅衰减。

业界关于智算中心建设的思路有两种,一种是垂直一体化整合模式,每一层都是建设者独立实现的,这样的优点是避免了不同技术路线之间的适配过程。

第二种做法是多元协作模式,这种做法适配上就可能稍微难一点,但是对开发者来说会更加友好,对产业发展来讲更加有利。

曙光坚持的就是多元协作模式,任京暘谈道,曙光建设“5A级”智算基础设施,就是通过芯片、算法、框架、模型的全面开放、兼容,构建多元集成的基础架构,实现算力底座最大程度的易用性,降低迁移成本,给未来的开发者带来一个比较好的环境,进而通过建设智算中心带动整个产业链的健康发展。

2、融合:通过分布式异构并行体系结构,实现多样性算力供应

随着AI技术的不断发展和各行业对于智能化、数字化转型的认识和需要的提升,从产业横向角度上看,AI赋能的领域越来越多,从智慧城市,到工业制造,再到农业生产、科学计算等等;从产业纵向角度来看,AI应用正逐步在垂直领域进行纵深发展,解决行业内部的关键问题。

AI应用多样,对算力的需求同样多样,既有应用需要高精度的算力,也有应用需要低精度的算力,混合精度、多元算力成为智算基础设施发展的必然趋势。

曙光“5A级”智算基础设施通过分布式异构并行体系结构,搭载多种类型的芯片,可以覆盖全算力精度,进而实现多样化算力供应,满足不同AI应用场景和多种用户的需求。

3、绿色:采用相变式全浸没液冷技术,实测PUE值可达1.04

除了AI应用在增加,AI模型参数、智算中心的算力体量也都在逐年上升。

尤其是大模型越来越多的现在,以GTP-3为例,相关数据显示,如果将GPT-3的全部程序运行一遍,该模型产生的碳排放量相当于一辆汽车行驶70万公里,大概是从地球到月球的2倍距离。

在双碳目标下,智算中心的节能减排形式相当严峻。

曙光“5A级”智算基础设施采取多种方式降低智算中心的能耗,其中液冷技术是杀手锏。

PUE(电能使用效率值)值是评价智算中心、数据中心碳排放的重要指标。未来,1.5数值以上的数据中心或智算中心要被逐步淘汰。

曙光通过清洁能源以及芯片、设备、平台节能等多层次技术创新,构建绿色低碳的“5A级”智算基础设施。

并且,基于曙光创新的浸没式相变液冷技术,智算中心的PUE值实测可达1.04到1.05。

新基建硬核基础设施,解读“5A”级智算中心

曙光还在研究余热再利用等技术,希望将数据中心的PUE值降到更低。

4、普惠:优化算力成本,使综合建设成本低于市场既有价格30%

目前智算中心的价格存在两个特点,一个是贵,另一个是乱。

贵是因为智算中心作为新型的算力基础设施,如果按建设成本折合成算力单价来算,算力成本是很高的。乱是因为这是一个新兴市场,算力价格与智算中心所在地区等多方面因素有关。

从长远上看,一定要有非常普惠的算力提供给AI用户和开发者,这样AI产业才能持续发展,也能降低各地政府的投资建设压力。

曙光“5A级”智算基础设施通过多种策略,持续优化算力成本,实现综合建设成本低于市场既有价格30%。

5、服务:采取一体化服务模式,提供建成后运营服务

目前,智算中心多数采取建、运分离的模式,运营方面还没有较成熟的商业模式,运营主体普遍处于模糊地带,有可能出现运营缺乏的情况。

但是,对于要建设智算中心服务地区经济的各地政府而言,智算中心的运营是刚需,是必须要解决的问题。

曙光“5A级”智算基础设施采取了一体化的服务模式,实现从规划设计、中心建设、到平台运营的完整配套服务,贯穿智算基础设施的全生命周期。

三、可景观级交付,曙光的智算产品化落地之路

据我们了解,曙光“5A级”智算基础设施可以实现超高密度的快速交付和景观级交付,景观级交付是指与园区建设融为一体,成为城市的地标。

具体来看,超高密度方面,曙光“5A级”智算基础设施可以实现立体扩展,节省机房面积达90%,降低机房环境要求和造价;快速交付方面,曙光“5A级”智算基础设施可以在3-6个月实现基建、机房、设备一体化快速部署。

曙光“5A级”智算基础设施能力的构建离不开曙光在计算领域的技术沉淀、优势积累及经验预判。

今年7月,由曙光等中科院相关企业整合组成的中国科学院人工智能产学研创新联盟发布了新一代人工智能计算平台,从基础架构、建设路径、价格模型等维度,为智能计算中心建设提供了参考依据和建设标准。

为了更好的将智算平台框架落地、产品化,曙光进行了一些尝试。

曙光在今年9月宣布践行“与前进者同行”理念,构建了“5A级”智算能力。

近期,曙光将智算基础设施的“5A级”进行了再次凝练,用开放、融合、绿色、普惠、服务五项能力加速智算基础设施建设。

结语:智算中心建设还在初期阶段

曙光是国内核心基础设施领域的头部玩家,在计算、智算领域进行了诸多实践,提出更高层次的智算中心建设理念。

曙光认为智算中心的建设还处于比较初期的阶段,要从开放、融合、绿色、普惠、服务五个方面进行智算基础设施的建设,提高智算中心的运营效益。

随着AI产业和产业AI的不断发展,智算基础设施的建设热度持续升高。

相比于传统数据中心,智算中心对于当地产业经济的发展可能会带来更明显的作用,如何建好、管好、用好智算中心是一个持续迭代更新的命题。