智东西(公众号:zhidxcom)
作者 | 李水青
编辑 | 漠影

智东西8月30日消息,今日,阿里云宣布推出智能计算解决方案“飞天智算平台”,并启动位于张北和乌兰察布的两座超级智算中心,算力规模合计15 EFLOPS(每秒1500亿亿次浮点运算),成为全球最大规模智算平台。

简单来说,智算中心是指专门面向人工智能应用的数据中心。

飞天智算平台是阿里云推出的智算中心升级方案,向下支持“一云多芯”,提供大规模融合算力;向上兼容通用及智能算力场景,以公有云和专有云两种模式为产学政客户提供全栈AI开发和模型能力。

阿里云智能全球销售总裁蔡英华说,当下,中国企业采用人工智能比例达58%,居于全球首位,数据智能应用正驱动算力基础设施升级,智能算力成为数字经济新引擎。

让自动驾驶模型训练提速170倍,助靶向药研究数据集计算效率性能提升100倍十万亿参数AI大模型1分钟内训练完成……阿里云公布的一组组数据展现出智算技术带来的效率革命。

全球最大!阿里云推飞天智算平台,单集群算力超12EFLOPS

随着东数西算推进,我国智算中心建设已在京津冀、内蒙古、长三角等8地国家算力枢纽节点拉开序幕。据工信部统计,目前全国建成和在建的智算中心已有20多座。在产业界,云计算大厂、ICT企业、运营商都已入局。

与此同时,新的问题也在出现——行业究竟需要什么样的智算服务?海量智能算力如何真正被用起来?通过对话阿里云智算系统的负责人曹政,我们对智算中心的应用情况,以及背后的技术和产业真相有了深入了解。

一、让自动驾驶AI训练提速170倍,阿里云推全球最大智算平台

2022年7月,在北京中关村写字楼中,小鹏汽车的工程师仅用1个小时,训练出一个原本需要7天完成的自动驾驶核心模型。而在300多公里外的乌兰察布的草原上,一个算力规模达600PEFLOPS的智算中心正高速运转,这是让小鹏AI模型训练提速近170倍,成本降低62%的幕后“发动机”。

在取得这一标杆成绩之后,今日,阿里云宣布正式推出飞天智算平台。

这是一个阿里云为智算提供的全栈能力体系,也是助力小鹏自动驾驶智算中心中的核心平台。在客户视角,它相当于智算中心的操作系统,内部则涵盖一个智能计算系统、大数据和AI开发平台层,以及最上层的AI模型服务层。

全球最大!阿里云推飞天智算平台,单集群算力超12EFLOPS

近年来,汽车、生命科学、工业、元宇宙等各个领域数智化发展迅速,随之而来的是超大规模AI模型和海量数据,都对智能算力提出了更高要求。一般的数据中心也可以做AI,但算力在数据迁移、同步等环节损耗往往可能超一半,成本高昂,大大阻碍了产业发展。

作为国内第一大云计算公司,阿里云用飞天智算平台来助产业破解这一算力瓶颈。

向下,飞天智算平台会管理智算集群,适配多种类型芯片;向上,它搭载了全栈AI开发和模型能力。根据阿里云官方数据,飞天智算平台可将计算资源利用率提高3倍以上,AI训练效率提升11倍,推理效率提升6倍,并将PUE(电源使用效率,越靠近1表明效果越好)降低至1.09,远优于东数西算提出的1.25标准。

在正式推出之前,飞天智算平台在阿里云内经历了重重“历练”。

拿很多人熟悉的淘宝APP中的“拍立淘”来说,其拍照识商品模型的训练,就通过飞天智算提速200倍,10亿图片训练时间从2.5个月缩短到8小时;全球最大规模的十万亿参数AI模型M6也用到了飞天智算,仅使用512张GPU在10天内训练出,且能耗仅为GPT-3在同等参数规模下的1%。

目前,飞天智算平台已服务了深势科技、上汽集团、吉利集团、中国气象局、南方电网、北京大学等多个产学政机构,取得不错成果,比如助北大靶向药研究数据集计算效率预计性能提升100倍等。

飞天智算平台正在支撑建设两座超大规模智算中心——河北张北智算中心和内蒙古乌兰察布智算中心。

据称,这两大智算中心规划算力分别达12 EFLOPS和3 EFLOPS(FP16精度下),将超过谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS,成为全球最大的智算中心。粗略估算,如果15EFLOPS资源同时工作,一个万亿参数的AI大模型,大约需要10分钟就能完成全部训练。

全球最大!阿里云推飞天智算平台,单集群算力超12EFLOPS

可以看到,平台+智算中心,阿里云正在将其经过实践验证的智算能力开放出来,与行业伙伴们一同奔赴新的效率革命高地。

二、数智转型需求井喷,智算中心成数字经济发展“新引擎”

数字经济发展进入窗口期,“十四五”相关规划提出了多项指标:大数据产业测算规模突破3万亿元,在线政务服务超8亿人,建成500个以上智能制造示范工厂……“上云用数赋智”成为各个产业升级的迫切需求。调查机构IDC预测,2020-2023年,全球数字化转型的直接投资将超过6.8万亿美元。

算力需求随之井喷,智算中心成为解决这些需求的有力抓手。

那么智算中心和一般数据中心到底有什么本质性差别?又是如何提高算力效率的呢?

阿里云智算系统负责人曹政说,助推人工智能跨入效率时代,需要超大规模弹性智能算力池、超高计算效率,以及释放多元芯片算力。本次,阿里云本次推出的飞天智算平台及智算中心,相比于一般数据中心的主要特点如下:

1、融合算力峰值达12EFLOPS,千卡并行效率达90%

飞天智算单集群采用通用计算、异构计算等多种计算形态融合,算力峰值高达12EFLOPS,千卡并行效率达90%。针对数据密集型场景,飞天智算对大规模集群存储IO性能可提升10倍,可使万卡规模的AI集群通讯无拥塞,将时延显著降低90%。

2、全链路AI开发工具与大数据服务,提供高效智能服务

飞天智算平台内置大数据+AI一体化产品体系,集合了机器学习平台PAI、大数据开发与治理平台DataWorks、MaxCompute、Hologres、Flink等计算引擎,适用于多种AI场景的计算和开发需求,包括科学研究、精准医学、气象预报、数字孪生、自动驾驶等。官方数据显示,其最多可提升AI训练效率11倍,推理效率6倍。

3、一云多芯,支持国产芯片自主创新

值得一提的是,随着智算中心上升到新基建战略地位,对自主创新也提出更高的要求。飞天智算适配多种芯片架构,支持X86、ARM、GPU、NPU等多种处理器混合部署和统一调度,可以适配多种国内自研芯片,并进行应用优化。

4、绿色低碳,PUE最低降至1.09

在绿色低碳低碳方面,飞天智算中心采用浸没式液冷、风冷、AI调温、模块化设计等绿色技术建设,PUE最低降至1.09,建设占地面积节省90%。

全球最大!阿里云推飞天智算平台,单集群算力超12EFLOPS

可以看到,智算中心相较于一般数据中心的优势,远不止于算力。除了对算力规模和效率要求大大提高,智算中心还需要为客户提供软件平台层的产品和服务,这是算力真正落地产业“最后一公里”的关键。同时,自主创新和绿色低碳也是数字经济发展对智算中心的诉求。

高质量智算中心,将成为政企把握数字经济发展“窗口期”的新引擎。

三、三路玩家“抢滩”智算产业,阿里云13年底层技术创新大爆发

近年来,各地智算中心如雨后春笋般涌现,据工信部统计,目前全国建成和在建的智算中心已有20多座。纵观产业界,阿里云、腾讯云这样的云计算大厂,华为、浪潮、曙光等ICT厂商,还有三大运营商及各地的大中小集成商都已经入局了,可谓摩拳擦掌。

值得一提的是,智算中心建设很重要,在建设完后能“用起来”更加重要。

产业究竟需要什么样的智算服务?

正如前文提到,智算中心要具备高效算力、AI赋能、自主创新、绿色节能等多种特征。阿里云智能全球销售总裁蔡英华认为,智算不仅在于规模大,更是需要绿色、高效并且具备产业实践。计算是一个庞大的复杂系统,没有体系化的核心技术能力,堆硬件是堆不出算力的,更无法带来实际的产业价值。

自2015年起,阿里云在河北张北、内蒙古枢纽乌兰察布、江苏南通、浙江杭州、广东河源等地布局数据中心。在本次推出的飞天智算平台中,阿里云也对13年研发的云网技术进行了集大成总结,以“灵骏”智能算力系统的形式打包赋能给产业。

全球最大!阿里云推飞天智算平台,单集群算力超12EFLOPS

灵骏拥有业界领先的异构计算弹性能力,以低通信延时、高并行计算效率为特征。这是如何实现的?

曹政谈道,这主要源于以下几大自研技术点:

1、自研RDMA高速网络架构,AI集群的“高速路”

阿里自2016年起投入研究RDMA(远程直接内存访问),目前已建成全球最大规模数据中心内的“高速网”。基于端网协同的Solar-RDMA高性能网络协议和HPCC流控算法,灵骏能有效规避和弱化了网络故障、网络黑洞等灾害损失。

2、高性能集合通信库ACCL,“防堵车”的调度系统

通过自研高性能ACCL(集合通信库)+自研硬件(如自研网络交换机),灵骏可实现GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法,对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力。

3、加速软件KSpeed,对特定需求“加Buff”

计算存储分离架构的“存储墙”问题显著,为此,阿里云通过自研高性能数据主动加载加速软件KSpeed。基于KSpeed,在部分场景中数据加载耗时可占据训练整体时长60%以上,能够将数据加载时长缩减到10%以内,相当于将单位时间内的计算性能提升了1倍。

当解决了云网问题,AI是智算中心更高层面的要求,同时是核心诉求。

阿里云飞天智算平台的一大特色,就是支持一套大数据+AI一体化产品体系。以机器学习平台PAI为例,它提供了模型训练部署、推理优化等AI工程化工具,比开源框架训练性能提升30%以上。PAI可为万亿级别参数的超大模型训练提效超过7倍,整体能耗降低80%;PAI-blade以较低门槛,可将大规模预训练模型压缩100倍以上,减少端到端模型部署成本10倍以上,支撑大量复杂模型在对话机器人、自动驾驶、智能制造、金融量化等场景的应用。

飞天智算平台还开放海量阿里达摩院研发的AI模型,覆盖多模态大模型、视觉模型、NLP模型和语音模型等。达摩院是中国最早投入预训练语言模型研究的团队之一,多模态大模型M6的参数规模居全球之首,深度语言大模型AliceMind曾以81.26%准确率刷新国际权威机器视觉榜单VQA记录。

值得一提的是,从“中国算力一张网”战略布局来看,智算中心网建设需要有全局系统化意识。

2022年2月启动的”东数西算”工程明确要求数据中心建设“集约化”,划定京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏8地为国家算力枢纽节点。阿里云两大智算中心等算力节点选址在枢纽节点,有望为“中国算力一张网”大战略提供助力。同时,阿里云在上海的华东智算中心也已在建设中,并有海外项目正在接洽。

结语:智能算力网建设加快,提速智能产业发展

数字经济发展“窗口期”,人工智能正融入生活、生产的方方面面,智算中心成为背后的发展新引擎。阿里云本次推出的飞天智算平台,在向智算产业打造一个高效算力、AI赋能、自主创新、绿色节能的范式,为政企带来数智化转型带来新工具。

阿里云智能总裁张建锋此前谈道,阿里云最重要策略是“Back to Basic”,回到云计算的本质。自2009年创立以来,阿里云从研发国内唯一的云计算操作系统飞天,到推出神龙云服务器、PolarDB云数据库、大数据计算平台MaxCompute等云计算产品,走过13年已将其云计算技术更全面地开放出来。

当下,东数西算和全国一体化大数据中心体系建设步伐加快,科技公司也正在将多年技术融入到新基建加速中。智算中心在全国范围内连成网络,也将标志我国智能产业产生质的飞跃。

全球最大!阿里云推飞天智算平台,单集群算力超12EFLOPS