胡厚崑:华为很好,云淡风轻,还发布了全球最快AI训练集群Atlas 900

智东西(公众号:zhidxcom)
文 | 季瑜生

导语:用十秒,Atlas 900就能从20万颗星星中找到你的那一颗。

智东西9月18日上海消息,今日早晨,华为在上海世博中心举行了2019华为全联接大会,智东西带来现场一手干货报道。

会上,华为轮值董事长胡厚崑发表了《共创智能新高度》的演讲,同时还发布了由数千颗昇腾910组成,只需60秒就可以完成典型网络的训练的全球最快AI集群Atlas 900

此外,胡厚崑还首次从架构创新、产品布局、商业策略、开放生态四个角度全面对外公开了华为的整体计算战略

最后,胡厚崑还透露出几个数据,2023年,全球计算产业市场空间将达两万亿美元,到2025年,AI计算将占算力总量80%以上。

一、华为很好,就像上海的天气,秋高气爽、云淡风轻

上场伊始,华为轮值董事长胡厚崑先向在场的所有朋友们亲切的打了招呼。

胡厚崑:华为很好,云淡风轻,还发布了全球最快AI训练集群Atlas 900

他表示,今年的全联接大会上比去年的人来的更多,而且也有很多老朋友的出席,这说明大家对于华为都是非常关心。

紧接着他表示,“今天一早,很多朋友问我你们还好吗?你们还不错吧?”

对此,胡厚崑回应:过去半年顶着巨大的压力走过来,不过华为现在过的还不错,就像今天上海的天气,秋高气爽、云淡风轻。而且华为一定不会让所有人失望的!

胡厚崑:华为很好,云淡风轻,还发布了全球最快AI训练集群Atlas 900

二、华为整体计算战略首次公开:将5年投入15亿美元构建开放生态

刚一上场,胡厚崑就向我们强调了两个词语“计算”与“联接”。基于华为两年前发布的新愿景——构建万物互联的智能世界,计算与联接是其中最重要的两个孪生兄弟。长期以来,哪里有联接,哪里就有计算。

胡厚崑:华为很好,云淡风轻,还发布了全球最快AI训练集群Atlas 900

此外,胡厚崑也表示,向来以通信行业巨头形象出现在我们面前的华为,其实对计算的投入已经超过十年的时间。

长期以来,计算模式一直在发生着变化,从基于规则的计算到基于统计的计算,再到如今计算进入智能时代。

而在智能时代,有几个因素不可忽略,此外,胡厚崑还提出一个趋势预判——智能时代,具备三大特征:

胡厚崑:华为很好,云淡风轻,还发布了全球最快AI训练集群Atlas 900

(1)端边云高效联动的协同计算将成为未来的最大趋势。

(2)计算将无处不在,在终端侧、边缘侧、中心侧都将存在,甚至在智能手机、智能眼镜、智能耳机都应该有计算能力。

(3)基于中心节点对通用模型进行训练量、计算量极大的暴力计算将无处不在。

紧接着胡厚崑公布了几个数字:2023年,全球计算产业市场空间将达两万亿美元,到2025年,AI计算将占算力总量80%以上。

胡厚崑:华为很好,云淡风轻,还发布了全球最快AI训练集群Atlas 900

基于这一认知,华为也首次公布了其在智能计算领域的整体战略,借此来让所有人了解华为的想法与战略,共同将市场做大。

华为智能计算的战略整体分为四部分:架构创新、产品布局、商业策略、开放生态

1、架构创新。华为这些年一直在长期投资基础研究,打造出了达芬奇架构,重点解决全场景智能的架构问题。达芬奇架构是全行业唯一一个覆盖端边云全场景的架构。

胡厚崑:华为很好,云淡风轻,还发布了全球最快AI训练集群Atlas 900

2、投资全场景处理器族。包括面向通用计算的鲲鹏系列,面向AI的昇腾系列,面向智能终端的麒麟系列,以及面向智慧屏的鸿鹄系列,将来还有一系列处理器,面向更多的场景。

胡厚崑:华为很好,云淡风轻,还发布了全球最快AI训练集群Atlas 900

3、商业策略-有所为有所不为。胡厚崑重点强调,华为处理器不直接对外销售,而是会以云服务和部件为主面向客户,并开放硬件框架、数据库、AI计算框架部件给合作伙伴,优先支持合作伙伴发展整机。在这一过程中,华为有三个坚持:坚持硬件开放、坚持软件开源、坚持使能应用开发和迁移。在这一过程中,华为不做应用,而是帮助合作伙伴做应用。

4、构建开放生态。未来5年,继续投入15亿美元,汇聚500万开发者,使能全球合作伙伴开发应用及解决方案。

胡厚崑:华为很好,云淡风轻,还发布了全球最快AI训练集群Atlas 900

关于华为的生态构建以及选择,在会后的媒体专访中,华为方面向包括智东西在内的媒体进一步阐释了为什么鲲鹏处理器选择ARM架构的原因:

鲲鹏之所以兼容ARM架构,是因为客户有多样性的需求与选择。ARM架构在新的时代有它的优势所在,华为选择ARM是为了客户需求考虑,而不是为了不同而不同。

此外,一个计算产业的成功不只是靠一个好的架构,很多企业有了好的架构还是走了弯路最后失败。架构只是基础,要成功还需要开放生态、务实的商业策略。

比如华为刚刚在会上宣布的新的开放生态构建计划,以及不做应用等策略,这都是华为紧紧围绕上面两点所做出的探索。

另外需要补充的一点是,此前,ARM处理器一直被认为具有非常好的终端以及应用但是不适合在中心侧进行计算,但是到了今天,边缘侧的优势将会向中心侧延伸,性能问题也已经能够很好的解决。比如华为鲲鹏920在SPEC benchmark测试成绩超过930分,位居第一,超越业界主流CPU25%。

此外,胡厚崑也宣布了华为面向通用计算领域的最新业务策略。依旧是从产品创新、产品生态、开放生态、商业策略四个方面进行解读。

1、打造有竞争力的通用计算处理器。长期以来,华为一直持续投入鲲鹏生态,借此来打造最有竞争力的产品。

2、投资板卡、服务器、操作系统、数据库、编译器等关键技术和产品,打通生态全链条,完成系统级验证,帮助合作伙伴更好地销售整机

3、目前鲲鹏生态已落地北京、上海、重庆、深圳、成都等城市,在平台搭建、人才培养、应用示范等领域全面开展合作。华为将持续与伙伴合作共同打造鲲鹏产业生态基地,与各地的政府、合作伙伴一起,结合当地的优势,打造鲲鹏计算产业的创新基地和孵化平台。以平台为载体,聚合生态伙伴,开展应用示范,培养产业人才,孵化产业标准。

4、上市节奏,基于鲲鹏处理器的系列产品、解决方案和服务,将面向全球市场;当前先聚焦中国市场,后续将基于客户需求、生态建设等有节奏在其他不同区域、国家/地区逐步上市。

关于AI计算,胡厚崑也向我们宣布了华为的最新进展。他表示,华为的全栈全场景AI解决方案已经全面落地。

胡厚崑:华为很好,云淡风轻,还发布了全球最快AI训练集群Atlas 900

去年全联接大会上,华为发布了全栈全场景的AI解决方案。不过胡厚崑也坦言,“当时我们只交付了用于推理的昇腾310处理器和ModelArts应用开发平台。”

但是今年,华为用于训练的昇腾处理器和AI计算框架MindSpore都已经发布了。至此,华为的全栈全场景AI解决方案全面落地。

最后,胡厚崑表示:“大家可以放心地和我们来开展合作!”

三、最快AI训练集群Atlas 900发布:60秒完成典型网络训练

在大型数据集上进行训练的神经网络架构涵盖从图像识别、自然语言处理、视频实时分析和智能推荐系统等各个方面,训练这些神经网络模型需要大量浮点计算能力。

近年来单个AI处理器算力和训练方法上均取得了重大进步,但是在单一机器上,AI训练所需要的时间仍然长得不切实际,因此需要借助大规模分布式AI集群环境来提升神经网络训练系统的浮点计算能力

基于这一认知,作为本场大会最大的惊喜——胡厚崑发布了全球最快AI训练集群Atlas 900。

胡厚崑:华为很好,云淡风轻,还发布了全球最快AI训练集群Atlas 900

根据现场解读,Atlas 900由数千颗昇腾910组成,总算力达256-1024PFLOPS@FP16,相当于50万台PC的计算力。

胡厚崑:华为很好,云淡风轻,还发布了全球最快AI训练集群Atlas 900

昇腾910 AI有多强?每颗昇腾910 AI处理器内置32个达芬奇AI Core,单芯片就可以提供比业界高一倍的算力(256TFLOPS@FP16)。而AI训练集群Atlas 900,则直接将数千颗昇腾910 AI处理器互联,打造出了业界第一的算力集群。

值得关注的是,昇腾910 AI处理器采用的是SoC设计,集成了“AI算力、通用算力、高速大带宽I/O”,可以大幅度卸载Host CPU的数据预处理任务,充分提升训练效率。

那么它到底有多快?只需59.8秒就可以完成基于ImageNet数据集训练ResNet-50模型,在同等精度下比第2名(70.2秒)快15%。

胡厚崑:华为很好,云淡风轻,还发布了全球最快AI训练集群Atlas 900

这是什么概念,基于这种测试,就像顶尖的短跑选手测试,区别在于第一名冲线还喝了瓶水,第二名才姗姗来迟。

除了超快之外,Atlas 900还具备最佳集群网络、系统级调优、优秀散热系统两大特性。

1、最佳集群网络。Atlas 900整合了“HCCS、PCle4.0、100G以太”三类高速互联方式。通过百TB全互联无阻塞专属参数同步网络,降低网络时延,梯度同步时延缩短10~70%

通过华为自研HCCS片间互联240Gbps单端口速率业界领先;最新的PCIE4.0接口则在速率上达到了当前业界的2倍;100G RoCE高速集群互联网络进一步让传输速率一快再快。

在AI服务器内部,昇腾910 AI处理器之间通过HCCS高速总线互联;昇腾910 AI处理器和CPU之间以最新的PCIe 4.0(速率16Gb/s)技术互联,其速率是业界主流采用的PCIe 3.0(8.0Gb/s)技术的两倍,使得数据传输更加快速和高效。

在集群层面,采用面向数据中心的CloudEngine 8800系列交换机,提供单端口100Gbps的交换速率,将集群内的所有AI服务器接入高速交换网络。

此外,华为还独创了iLossless 智能无损交换算法,对集群内的网络流量进行实时的学习训练,实现网络0丢包与E2E μs级时延。

2、Atlas 900系统级调优。通过HCCL通信库+网络拓扑+训练算法级调优,可实现线性度大于80%

3、散热。华为方面表示,Atlas 900还具备业界顶尖的散热系统。Atlas 900采用的是大于95%的液冷占比,可以大幅减少对外散热。高效节能也是Atlas 900的一大特性,单液冷柜支持50KW超高散热,实现PUE小于1.1。

那么通过Atlas 900的强大算力究竟能做什么?

胡厚崑表示,Atlas 900可广泛应用于科学研究与商业创新。比如天文探索、气象预测、自动驾驶、石油勘探等领域,这些领域都需要进行庞大的数据计算和处理,原来可能花费好几个月的工作,现在交给Atlas 900,就是几秒钟的事情。

紧接着,胡厚崑分享了一个天文探索的案例,这是华为联合上海天文台与SKA共同打造的。天文研究高度依赖于海量的数据分析和计算,离不开超强的算力支持。

以下是一张南半球的星空图,这张图上有20万颗星星,用人眼是看不见这么多星星的,这些画面来自于SKA射电望远镜的数据。

胡厚崑:华为很好,云淡风轻,还发布了全球最快AI训练集群Atlas 900

当前条件下,天文学家要从这20万颗星星中,找出某种特征的星体,相当困难,需要169天的工作量。现在用上Atlas 900,只用10秒,就从20万颗星星中检索出了相应特征的星体。

胡厚崑:华为很好,云淡风轻,还发布了全球最快AI训练集群Atlas 900

最后,胡厚崑表示,为了让所有人能够尽快用上Atlas 900的超强算力,华为已经把它部署到华为云上,并以极优惠的价格向全球科研机构和大学开放。

结语:华为的管道与水库,左手5G,右手云边端计算

如果说长期以来,我们对于华为的定义还只是一个能做手机的通信设备巨头,那么这十年多来华为在计算领域的发力逐渐浮出水面,则让我们重新定义了这个全行业的商业巨无霸。

左手是风头无两的5G与领先的6G,建立起了数据传输的最大管道。

右手是联接到管道两端的水库与毛细血管。在云端,华为是Atlas 900集群与鲲鹏生态,在边缘侧昇腾生态则构建起了毛细血管层面的计算。

随着AI与5G的双重催化,计算与联接已经成为全行业所共通必须的基础设施。不过如何共同推进整个产业的发展,华为在做好黑土地之后,还需要更多的产业应用角色参与其中。或许正如胡厚崑所言“这是计算产业新的大航海时代,我们期待的是千帆竞发,而不是独舟奋进。