智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 心缘
智东西美国圣何塞3月18日现场报道,时隔5年,全球顶尖AI计算技术盛会、年度NVIDIA GTC大会重磅回归线下,就在刚刚,英伟达创始人兼CEO黄仁勋发表长达123分钟的主题演讲,发布AI芯片最新震圈之作——Blackwell GPU,智东西受邀参会并从现场发来完整的干货报道。
在这场大会上,英伟达展现出堪称恐怖的行业号召力,将AI圈的顶尖技术大牛和行业精英汇聚在一起。现场盛况空前,线下参会者逾万人。智东西此行遇到许多来自国内的参展商或观众,明显感受到国内企业和开发者对这场AI盛会的热情。
当地时间3月18日13点,北京19日凌晨4点,GTC最重磅的主题演讲正式开始,在播放一段AI主题短片后,黄仁勋穿着标志性的黑色皮衣从圣何塞SAP中心场馆主舞台登场,与观众寒暄。
他首先回顾了英伟达30年来追求加速计算旅程的开端,历数研发革命性计算模式CUDA、将首台AI超级计算机DGX交给OpenAI等一系列里程碑事件,然后将话题自然地聚焦到生成式AI上。
在宣布与多家EDA龙头的重要合作伙伴关系后,他谈到快速演进的AI模型带动训练算力需求暴涨,需要更大的GPU,“加速计算已达到临界点,通用计算已失去动力”,“在每一个行业,加速计算都比通用计算有了巨大的提升”。
紧接着,大屏幕上过电影般快速闪现从GPU、超级芯片到超级计算机、集群系统的一系列关键组件,然后黄仁勋重磅宣布:全新旗舰AI芯片Blackwell GPU,来了!
这是GPGPU领域最新的震圈之作,从配置到性能都将前辈Hopper GPU拍倒在沙滩上。他举起双手展示了Blackwell和Hopper GPU的对比,Blackwell GPU明显大了一圈。
毕竟手心手背都是肉,对比完后,黄仁勋马上开始安慰:“It’s OK, Hopper. You’re very good, good boy, or good girl.”
但也不能怪老黄喜新厌旧,因为Blackwell的性能,实在是太强了!无论是FP8,还是全新的FP6、FP4精度,以及HBM能塞下的模型规模和HBM带宽,都做到“倍杀”前代Hopper。
8年,从Pascal架构到Blackwell架构,英伟达将AI计算性能提升了1000倍!
这还只是开胃小菜,黄仁勋真正的“胃口”,是打造足以优化万亿参数级GPU计算的最强AI基础设施。
总体来看,英伟达在本届GTC大会上连发6个大招:
1、发布Blackwell GPU:训练性能提升至2.5倍,FP4精度推理性能提升至前代FP8的5倍;升级第五代NVLink,互连速度是Hopper的2倍,可扩展到576个GPU,能够解决万亿参数混合专家模型通信瓶颈。
2、Blackwell平台“全家桶”登场:既面向万亿参数级GPU计算优化,推出全新网络交换机X800系列,吞吐量高达800Gb/s;又发布GB200超级芯片、GB200 NVL72系统、DGX B200系统、新一代DGX SuperPOD AI超级计算机。
3、推出数十个企业级生成式AI微服务,提供一种封装和交付软件的新方式,方便企业和开发者用GPU部署各种定制AI模型。
4、宣布台积电、新思科技将突破性的光刻计算平台cuLitho投入生产:cuLitho将计算光刻加速40-60倍,并采用了增强的生成式AI算法,将为2nm及更先进制程开发提供“神助攻”。
5、发布人形机器人基础模型Project GR00T、新款人形机器人计算机Jetson Thor,对Isaac机器人平台进行重大升级,推动具身智能突破。黄仁勋还将一对来自迪士尼研究公司的小型英伟达机器人带上台互动。
6、与苹果强强联手,将Omniverse平台引入苹果Vision Pro,并宣布为工业数字孪生软件工具提供Omniverse Cloud API。
不过或许是被预期到的内容太多,市场情绪并没有被刺激到疯长。截至美股收盘,英伟达最新股价为884.55美元/股,涨幅0.70%,最新市值为22114亿美元。
一、AI芯片新皇登场:2080亿颗晶体管,2.5倍训练性能、5倍推理性能
进入生成式AI新纪元,AI计算需求爆发式增长,而一路演进的英伟达GPU凭借傲视群雄的实战算力,令全球AI行业患上“英伟达GPU饥渴症”,一众AI巨头重金难买黄仁勋点头。
当Hopper GPU还是AI竞赛争抢的重点资源,超越它的继任者——Blackwell GPU正式发布!
每一代英伟达GPU架构都会以一位科学家的名字来命名。新架构取名Blackwell是为了致敬美国科学院首位黑人院士、杰出统计学家兼数学家David Blackwell。Blackwell擅长将复杂的问题简单化,他独立发明的“动态规划”、“更新定理”被广泛多个科学及工程学领域。
▲David Blackwell旧照
黄仁勋说,生成式AI是这个时代的决定性技术,Blackwell是推动这场新工业革命的引擎。
Blackwell GPU有6大核心技术:
1、号称是“世界最强大的芯片”:集成2080亿颗晶体管,采用定制台积电4NP工艺,承袭“拼装芯片”的思路,采用统一内存架构+双芯配置,将2个受光刻模板(reticle)限制的GPU die通过10TB/s芯片间NVHyperfuse接口连一个统一GPU,共有192GB HBM3e内存、8TB/s显存带宽,单卡AI训练算力可达20PFLOPS。
跟上一代Hopper相比,Blackwell因为集成了两个die,面积变大,比Hopper GPU足足多了1280亿个晶体管。对比之下,前代H100只有80GB HBM3内存、3.35TB/s带宽,H200有141GB HBM3e内存、4.8TB/s带宽。
2、第二代Transformer引擎:将新的微张量缩放支持和先进的动态范围管理算法与TensorRT-LLM和NeMo Megatron框架结合,使Blackwell具备在FP4精度的AI推理能力,可支持2倍的计算和模型规模,能在将性能和效率翻倍的同时保持混合专家模型的高精度。
在全新FP4精度下,Blackwell GPU的AI性能达到Hopper的5倍。英伟达并未透露其CUDA核心的性能,有关架构的更多细节还有待揭晓。
3、第五代NVLink:为了加速万亿参数和混合专家模型的性能,新一代NVLink为每个GPU提供1.8TB/s双向带宽,支持多达576个GPU间的无缝高速通信,适用于复杂大语言模型。
单颗NVLink Switch芯片有500亿颗晶体管,采用台积电4NP工艺,以1.8TB/s连接4个NVLink。
4、RAS引擎:Blackwell GPU包括一个确保可靠性、可用性、可维护性的专用引擎,还增加了芯片级功能,可利用基于AI的预防性维护来进行诊断和预测可靠性问题,最大限度延长系统的正常运行时间,提高大规模AI部署的弹性,一次可不间断地运行数周甚至数月,并降低运营成本。
5、安全AI:先进的机密计算功能可保护AI模型和客户数据,而不会影响性能,支持新的本地接口加密协议。
6、解压缩引擎:支持最新格式,加速数据库查询,以提供数据分析和数据科学的最高性能。
AWS、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI都将采用Blackwell产品。特斯拉和xAI共同的CEO马斯克直言:“目前在AI领域,没有比英伟达硬件更好的。”
值得注意的是,相比以往强调单芯片的性能表现,此次Blackwell系列发布更侧重在整体系统性能,并对GPU代号称谓模糊,大部分都统称为“Blackwell GPU”。
按此前市场传言,B100价格可能大约是3万美元,B200售价约为3.5万美元,这样来算,价格只比前代提升不到50%,训练性能却提高2.5倍,性价比明显更高。
如果定价涨幅不大,Blackwell系列GPU的市场竞争力将强到可怕,性能提升足够凶猛,性价比相较上一代Hopper变更高,这让同行怎么打?
二、面向万亿参数级GPU计算优化,推出全新网络交换机、AI超级计算机
Blackwell平台除了基础的HGX B100外,还包括NVLink Switch、GB200超级芯片计算节点、X800系列网络交换机。
其中,X800系列是专为大规模AI量身订制的全新网络交换机,以支持新型AI基础设施轻松运行万亿参数级生成式AI业务。
英伟达Quantum-X800 InfiniBand网络和Spectrum-X800以太网络是全球首批端到端吞吐量高达800Gb/s的网络平台,交换带宽容量较前代产品提高5倍,网络计算能力通过英伟达第四代SHARP技术提高了9倍,网络计算性能达到14.4TFLOPS。早期用户有微软Azure、甲骨文云基础设施、Coreweave等。
Spectrum-X800平台专为多租户环境打造,可实现每个租户的AI工作负载的性能隔离,为生成式AI云和大型企业级用户带来优化的网络性能。
同时,英伟达提供网络加速通信库、软件开发套件和管理软件等全套软件方案。
英伟达称GB200 Grace Blackwell超级芯片是为万亿参数规模生成式AI设计的处理器。该芯片通过900GB/s第五代NVLink-C2C互连技术将2个Blackwell GPU连接到1个英伟达Grace CPU。但英伟达并没有明确Blackwell GPU的具体型号。
一个GB200超级芯片计算节点可内置2个GB200超级芯片。一个NVLink交换机节点可支持2个NVLink交换机,总带宽达到14.4TB/s。
一个Blackwell计算节点包含2个Grace CPU和4个Blackwell GPU,AI性能达到80PFLOPS。
有了更强的GPU和网络性能,黄仁勋宣布推出一款全新计算单元——多节点、液冷、机架级系统英伟达GB200 NVL72。
GB200 NVL72像一个“巨型GPU”,能像单卡GPU一样运作,AI训练性能达到720PFLOPS,AI推理性能高达1.44EFLOPS,拥有30TB快速显存,可处理高达27万亿个参数的大语言模型,是最新DGX SuperPOD的构建模块。
GB200 NVL72可组合36个GB200超级芯片(共有72个B200 GPU和36个Grace CPU),通过第五代NVLink互连,还包括BlueField-3 DPU。
黄仁勋说,目前全球只有几台EFLOPS级的机器,这台机器由60万个零件组成,重达3000磅,是一个“在单个机架上的EFLOPS AI系统”。
在跑万亿参数模型时,GB200经过多维度的优化,单个GPU每秒Tokens吞吐量能多达H200 FP8精度的30倍。
对于大语言模型推理,与相同数量的H100相比,GB200 NVL72可提供30倍的性能提升,并将成本和能耗降低为前代的1/25。
AWS、谷歌云、微软Azure、甲骨文云基础设施等主流云均支持访问GB200 NVL72。
此外,英伟达推出用于AI模型训练、微调和推理的统一AI超级计算平台DGX B200系统。
DGX B200系统是DGX系列的第六代产品,采用风冷传统机架式设计,包括8个B200 GPU、2个第五代英特尔至强处理器,在FP4精度下可提供144PFLOPS的AI性能、1.4TB超大容量GPU显存、64TB/s显存带宽,能使万亿参数模型的实时推理速度快至上一代的15倍。
该系统包含带有8个ConnectX-7网卡和2个BlueField-3 DPU的先进网络,每个连接带宽高达400Gb/s,可通过Quantum-2 InfiniBand和Spectrum-X以太网网络平台提供更高AI性能。
英伟达还推出了采用DGX GB200系统的下一代数据中心级AI超级计算机DGX SuperDOD,可满足处理万亿参数模型,确保超大规模生成式AI训练和推理工作负载的持续运行。
新一代DGX SuperPOD由8个或更多DGX GB200系统构建而生,具有全新高效液冷机架级扩展架构,在FP4精度下可提供11.5EFLOPS的AI算力和240TB快速显存,并能通过机架来扩展性能。
每个DGX GB200系统有36个GB200超级芯片。与H100相比,GB200超级芯片在跑大语言模型推理的性能可提升高达45倍。
黄仁勋说,未来数据中心将被认为是AI工厂,整个行业都在为Blackwell做准备。
三、推出数十个企业级生成式AI微服务,方便企业定制和部署Copilots
硬件是杀手锏,软件则是护城河。
今天,英伟达继续扩大凭借CUDA和生成式AI生态积累的优势,推出数十个企业级生成式AI微服务,以便开发者在英伟达CUDA GPU安装基础上创建和部署生成式AI Copilots。
黄仁勋说,生成式AI改变了应用程序编程方式,企业不再编写软件,而是组装AI模型,指定任务,给出工作产品示例,审查计划和中间结果。
英伟达NIM是英伟达推理微服务的参考,是由英伟达的加速计算库和生成式AI模型构建的。微服务支持行业标准的API,在英伟达大型CUDA安装基础上工作,并针对新的GPU进行优化。
企业可使用这些微服务在自己的平台上创建和部署自定义应用程序,同时保留对其知识产权的完全所有权和控制权。NIM微服务提供由英伟达推理软件支持的预构建生产AI容器,使开发人员能够将部署时间从几周缩短到几分钟。
NIM微服务可用于部署来自英伟达、AI21、Adept、Cohere、Getty Images、Shutterstock的模型,以及来自谷歌、Hugging Face、Meta、微软、Mistral AI、Stability AI的开放模型。
用户将能够访问来自亚马逊SageMaker、谷歌Kubernetes引擎和微软Azure AI的NIM微服务,并与Deepset、LangChain和LlamaIndex等流行AI框架集成。
为加速AI应用,企业可使用CUDA-X微服务,包括定制语音和翻译AI的英伟达Riva、用于路径优化的英伟达cuOpt、用于高分辨率气候和天气模拟的英伟达Earth-2等。一系列用于定制模型开发的英伟达NeMo微服务即将推出。
开发者可在ai.nvidia.com免费试用英伟达微服务。企业可使用英伟达AI Enterprise 5.0部署生产级NIM微服务。
四、推生成式AI算法,联手两大芯片界顶流,英伟达要掀起光刻计算新革命!
在去年的GTC大会上,英伟达面向芯片制造行业甩出一项秘密研发4年的大招:通过突破性的光刻计算库cuLitho,将计算光刻加速40-60倍,加速突破生产2nm及更先进芯片的物理极限。(黄仁勋向台积电放核弹!干掉40000台CPU服务器,计算光刻提速40倍)
这个项目的合作者,都是芯片产业链最鼎盛的存在——全球最大AI芯片巨头英伟达、全球最大晶圆代工商台积电、全球最大EDA巨头新思科技。
计算光刻技术是芯片制造的基石。今天,在cuLitho加速流程的基础上,通过生成式AI算法将工作流的速度又提升了2倍。
具体来说,晶圆厂工艺的许多变化需修正OPC(光学邻近校正),会增加计算量,造成开发瓶颈。cuLitho提供的加速计算和生成式AI则能缓解这些问题。应用生成式AI可创建近乎完美的反掩模或向解决方案来解决光衍射问题,然后再通过传统的物理严格方法推导出最终的光掩模,从而将整个OPC过程加快2倍。
在芯片制造过程中,计算光刻是计算最密集的工作负载,每年在CPU上消耗数百亿小时。相比基于CPU的方法,基于GPU加速计算光刻的库cuLitho能够大大改进了芯片制造工艺。
通过加速计算,350个英伟达H100系统可取代40000个CPU系统,大幅提高了吞吐量,加快生产,降低成本、空间和功耗。
“我们正在将英伟达cuLitho在台积电投入生产。”台积电总裁魏哲家说,双方合作将GPU加速计算整合到台积电的工作流程中,实现了性能的巨大飞跃。在共享工作流程上测试cuLitho时,两家公司共同实现了曲线流程45倍的加速以及传统曼哈顿流程近60倍的改进。
五、全新人形机器人基础模型、计算机来了! Isaac机器人平台重大更新
除了生成式AI,英伟达还相当看好具身智能,并发布了人形机器人通用基础模型Project GR00T、基于Thor SoC的新型人形机器人计算机Jetson Thor。
黄仁勋说:“开发通用人形机器人基础模型是当今AI领域中最令人兴奋的课题之一。”
GR00T驱动的机器人能理解自然语言,并通过观察人类行为来模仿快速学习协调、灵活性和其它技能,以适应现实世界并与之互动。黄仁勋展示了多台这样的机器人是如何完成各种任务的。
Jetson Thor具有针对性能、功耗和尺寸优化的模块化架构。该SoC包括一个带有Transformer引擎的下一代Blackwell GPU,以运行GR00T等多模态生成式AI模型。
英伟达正为领先的人形机器人公司开发一个综合的AI平台,如1X、Agility Robotics、Apptronik、波士顿动力、Figure AI、傅利叶智能、Sanctuary AI、宇树科技和小鹏鹏行等。
此外,英伟达对Isaac机器人平台进行了重大升级,包括生成式AI基础模型和仿真工具、AI工作流基础设施。新功能将在下个季度推出。
英伟达还发布了一系列机器人预训练模型、库和参考硬件。比如Isaac Manipulator,为机械臂提供了灵活性和模块化AI功能,以及一系列基础模型和GPU加速库;Isaac Perceptor,提供了先进的多摄像头、3D重建、深度感知等功能。
六、Omniverse平台新进展:挺进苹果Vision Pro,发布云API
英伟达宣布将Omniverse平台引入苹果Vision Pro。
面向工业数字孪生应用,英伟达将以API形式提供Omniverse Cloud。开发人员可借助该API将交互式工业数字孪生流传输到VR头显中。
通过使用API,开发者能轻松地将Omniverse的核心技术直接集成到现有的数字孪生设计与自动化软件应用中,或是集成到用于测试和验证机器人或自动驾驶汽车等自主机器的仿真工作流中。
黄仁勋相信所有制造出来的产品都将拥有数字孪生,Omniverse是一个可以构建并操作物理真实的数字孪生的操作系统。他认为:“Omniverse和生成式AI都是将价值高达50万亿美元的重工业市场进行数字化所需的基础技术。”
5款全新Omniverse Cloud API既可单独使用,又可组合使用:USD Render(生成OpenUSD数据的全光线追踪RTX渲染),USD Write(让用户能够修改OpenUSD数据并与之交互),USD Query(支持场景查询和交互式场景),USD Notify(追踪USD变化并提供更新信息),Omniverse Channel(连接用户、工具和世界,实现跨场景协作)。
Omniverse Cloud API将于今年晚些时候在微软Azure上以英伟达A10 GPU上的自托管API,或是部署在英伟达OVX上的托管服务的形式提供。
结语:重头戏结束了,但好戏才刚刚开始
除了上述重要发布外,黄仁勋还在演讲中分享了这些进展:
在电信领域,英伟达推出6G研究云平台,这是一个生成式AI和Omniverse驱动的平台,旨在推进无线通信技术开发。
英伟达的地球气候数字孪生云平台Earth-2现已可用,可实现交互式高分辨率模拟,以加速气候和天气预测。
黄仁勋认为,AI的最大影响将是在医疗健康领域,英伟达已经在成像系统、基因测序仪器和与领先的手术机器人公司合作,并正在推出一种新型生物软件。
在汽车行业,全球最大的自动驾驶汽车公司比亚迪未来电动汽车将搭载英伟达采用Blackwell架构新一代自动驾驶汽车(AV)处理器DRIVE Thor。DRIVE Thor预计最早将于明年开始量产,性能高达1000TFLOPS。
黄仁勋说:“英伟达的灵魂是计算机图形学、物理学和人工智能的交集。”在演讲结束时,他划了5个重点:新工业、Blackwell平台、NIM微服务、NEMO和AI代工厂、Omniverse和Isaac机器人。
今天,英伟达再度刷新AI硬件和软件天花板,并带来了一场围绕AI、大模型、元宇宙、机器人、智能驾驶、医疗健康、量子计算等前沿科技的饕餮盛宴。
黄仁勋的主题演讲无疑是GTC大会的重头戏,但对于现场和远程的参会者来说,精彩才刚刚拉开序幕!接下来,超1000场围绕英伟达最新进展以及热门前沿技术的演讲、对话、培训和圆桌讨论将展开。多位参会观众表达了对“分身乏术”的无奈,他们不得不在有限的时间里精挑细选,忍痛割爱,没法一口气参与所有感兴趣的内容。
作为AI产业的重要风向标,GTC 2024为技术交流搭建了一个空前盛大的平台,期间的新品发布和技术分享有望给学术研究和相关产业链带来积极影响。新一代Blackwell架构的更多技术细节还有待进一步挖掘。智东西和芯东西将从现场持续发来一手报道,敬请关注。