英伟达最新超算平台来了!还要和谷歌、Arm联手建立5G生态

智东西(公众号:zhidxcom)
作者 |  
高歌
编辑 |  
心缘

智东西6月28日报道,今天,英伟达发布了NVIDIA HGX AI超级计算平台,并宣布将与谷歌云打造行业内首个AI-on-5G实验室。

英伟达电信业务高级副总裁Ronnie Vasishta和网络高级副总裁Gilad Shainer与芯东西等媒体进行了深度交流,并分享了有关HGX超算平台和AI-on-5G的应用、技术细节等内容。

一、 三大技术助力HGX平台,已落地英国超算

据Dion Harris分享,HGX平台目前已在英国爱丁堡大学托管的DiRAC超级计算机中落地。

DiRAC是英国在天文学、宇宙学、粒子物理学和核物理学方面进行理论建模的综合超级计算机。DiRAC超级计算机共有4台,都将采用一种或多种HGX关键技术。

英伟达网络高级副总裁Gilad Shainer说:“DiRAC正在帮助研究人员揭开宇宙的奥秘。我们将利用英伟达GPU、DPU和InfiniBand网络内计算加速DiRAC的性能,以支持各种工作负载,并加速前沿科学探索的进程。”

NVIDIA HGX AI超级计算平台中有3项关键技术,分别是NVIDIA A100 80GB PCIe GPU、NVIDIA NDR 400G InfiniBand网络和NVIDIA Magnum IO GPUDirect Storage软件。

1、A100 80GB PCIe:内存带宽提升25%

A100 80GB PCIe采用NVIDIA Ampere架构。该架构内置Multi-Instance GPU(MIG),可为AI推理等小型工作负载提供加速。

NVIDIA A100 80GB PCIe相比此前40GB的版本,增加了25%的GPU内存带宽,达到了2TB/s。此外,A100 80GB PCIe还提供了80GB的HBM2e高带宽内存。

Dion Harris提到,因为A100 80GB PCIe拥有较大的内存容量和高内存带宽,可以将更多的数据和更大的神经网络保存在在内存中,从而减少了节点间通信和能耗。

英伟达最新超算平台来了!还要和谷歌、Arm联手建立5G生态▲A100 80GB PCIe实物图

2、NVIDIA InfiniBand:最多提供4096个NDR200端口,可扩展性提高6.5倍

Gilad Shainer称,NVIDIA InfiniBand是全球唯一具有完全负载转移功能的网络内计算互连系统。英伟达为此系统配备了NVIDIA Quantum-2固定配置交换机和模块化交换机。

NVIDIA Quantum-2固定配置交换机每个端口提供64个NDR 400Gb/s InfiniBand端口,最多可提供128个NDR200端口,其端口密度比上一代HDR InfiniBand产品高出3倍。

NVIDIA Quantum-2模块化交换机最高可提供2048个NDR 400Gb/s InfiniBand端口,最多可提供128个或4096个NDR200可扩展端口配置,双向总吞吐量达到每秒1.64PB,是上一代HDR InfiniBand模块化交换机系列的5倍。

相比上一代,NVIDIA Quantum-2模块化交换机的可扩展性增加了6.5倍,由于采用了DragonFly+网络拓扑结构,只需三个跳数就能连接超过一百万个节点。

英伟达最新超算平台来了!还要和谷歌、Arm联手建立5G生态▲NVIDIA InfiniBand网络互连系统

3、Magnum IO GPUDirect Storage:减少CPU负载增加影响,提供直接内存访问

Magnum IO GPUDirect Storage软件提供了GPU内存和存储之间的直接内存访问。借助该软件,应用程序可以通过直接路径从低I/O延迟中受益,并使用网络适配器的全部带宽。同时,这也减少了CPU的利用负载和管理数据消耗增加所产生的影响。

目前支持Magnum IO GPUDirect Storage的企业有DDN、戴尔科技(Dell Technologies)、Excelero、慧与(HPE)、IBM Storage、Micron等上市公司。

英伟达最新超算平台来了!还要和谷歌、Arm联手建立5G生态▲Magnum IO GPUDirect Storage软件工作流程图

二、联手Arm、谷歌,建设5G、AI生态

在移动领域,英伟达则宣布和谷歌云一起成立AI-on-5G实验室。

英伟达电信业务高级副总裁Ronnie Vasishta谈到,因为5G的速率和低延迟,全球电信行业正在经历全面变革。

英伟达和谷歌云创建的AI-on-5G实验室将帮助网络运营商和基础设施开发商使用5G vRAN平台开发,以及测试EdgeAI应用。

今年4月,英伟达宣布与谷歌云等厂商合作开发NVIDIA Aerial A100 AI-on-5G平台。该平台采用了NVIDIA Aerial软件开发套件和NVIDIA BlueField-2 A100。BlueField-2 A100是一种融合式板卡,集成了GPU和DPU,能够应用于制造机器人、自动导向车、无人机、无线摄像头等领域。

Ronnie Vasishta也分享了英伟达面向网络基础设施开发商和软件合作伙伴的Aerial硬件路线图。

英伟达最新超算平台来了!还要和谷歌、Arm联手建立5G生态▲AI-on-5G平台硬件路线图

此外,英伟达也将加深和Arm在5G生态上的合作。英伟达的最新一代BlueField-3 A100将采用16颗Arm A78内核。

Ronnie Vasishta称,英伟达和Arm合作的Aerial平台正在加速建设AI-on-5G。

英伟达最新超算平台来了!还要和谷歌、Arm联手建立5G生态▲BlueField-3 A100板卡GPU、DPU

结语:Arm、英伟达联手将加速高性能计算发展

随着加速计算和深度学习出现,高性能计算领域正在发生改变。航空航天、医疗健康等各个领域开始越来越多地采用高性能计算,以解决行业中的问题。

在英伟达宣布收购Arm后,两者的合作也变得更加频繁。两者业务的结合,也符合当前高性能计算中“CPU+GPU”的主流趋势。作为CPU和GPU领域的行业巨头,两者合作很大程度上将使高性能计算领域快速发展。