芯东西(公众号:aichip001)
作者 | ZeR0 程茜
编辑 | 漠影
芯东西3月22日报道,全球AI计算技术盛会、一年一度的英伟达GTC大会如期而至!
英伟达CEO黄仁勋(昵称“老黄”)一如既往穿着标志性的皮衣进行了78分钟演讲,满面笑容地分享英伟达又闷声干了哪些大事。
总体来看,此次演讲可总结成一大「亮点」和一大「重点」。
「亮点」是英伟达秘密研发四年,向芯片制造业甩出一枚技术“核弹”——通过突破性的光刻计算库cuLitho,将计算光刻加速40倍以上,使得2nm及更先进芯片的生产成为可能。全球最大晶圆厂台积电、全球光刻机霸主阿斯麦、全球最大EDA巨头新思科技均参与合作并引入这项技术。
老黄还直接上了一堂光刻机小课堂,配合动画讲解芯片制造的最关键设备光刻机是如何运作的。
「重点」毫无疑问是生成式AI。
老黄对OpenAI的ChatGPT赞不绝口,夸它“震惊世界”,代表着“崭新的计算平台已经诞生,AI的「iPhone时刻」已经到来”。
据英伟达透露,OpenAI将在微软Azure超级计算机上使用英伟达H100 GPU,AI文生图明星创企Stability.ai是H100 GPU的早期访问客户。
为了加速生成式AI开发及部署,老黄宣布推出3款全新推理GPU,分别擅长AI视频、图像生成、ChatGPT等大型语言模型的推理加速。
此外,英伟达还发布了AI超级计算服务DGX Cloud、加速企业创建大模型和生成式AI的云服务NVIDIA AI Foundations等,并宣布与日本三菱联合打造了日本第一台用于加速药研的生成式AI超级计算机。
英伟达也发布了一系列面向元宇宙、汽车、量子计算领域的新进展,包括PaaS服务NVIDIA Omniverse Cloud现已向特定企业开放、与宝马集团扩大合作建设虚拟工厂、比亚迪更多车型将采用NVIDIA DRIVE Orin平台,以及与Quantum Machines合作推出了全球首个GPU加速量子计算系统。
老黄宣布,英伟达已经更新了100个加速库,目前英伟达全球生态系统已覆盖400万开发人员、4万家公司和1.4万家初创公司。
一、芯片制造炸场!将计算光刻提速40倍,三大半导体巨头站台
我们先来看看今天的“惊喜弹”:英伟达发布了一个造福先进芯片制造的突破性技术——NVIDIA cuLitho计算光刻库。
光刻是芯片制造过程中最复杂、最昂贵、最关键的环节,其成本约占整个硅片加工成本的1/3甚至更多。计算光刻模拟了光通过光学元件并与光刻胶相互作用时的行为,应用逆物理算法来预测掩膜板上的图案,以便在晶圆上生成最终图案。
简而言之,计算光刻是提高光刻分辨率、推动芯片制造达到2nm及更先进节点的关键手段。
“计算光刻是芯片设计和制造领域中最大的计算工作负载,每年消耗数百亿CPU小时。”黄仁勋讲解道,“大型数据中心24×7全天候运行,以便创建用于光刻系统的掩膜板。这些数据中心是芯片制造商每年投资近2000亿美元的资本支出的一部分。”
而cuLitho能够将计算光刻的速度提高到原来的40倍。老黄说,英伟达H100 GPU需要89块掩膜板,在CPU上运行时,处理单个掩膜板需要两周时间,而在GPU上运行cuLitho只需8小时。
此外,台积电可通过在500个DGX H100系统上使用cuLitho加速,将功率从35MW降至5MW,替代此前用于计算光刻的40000台CPU服务器。 使用cuLitho的晶圆厂,每天可以生产3-5倍多的光掩膜,仅使用当前配置电力的1/9。
全球最大晶圆厂台积电、全球最大光刻机制造商阿斯麦(ASML)、全球最大EDA公司新思科技(Synopsys)都为这项新技术站台。老黄透露道,cuLitho历时四年研发,与这三家芯片大厂进行了密切合作。台积电将于6月开始对cuLitho进行生产资格认证。
台积电CEO魏哲家夸赞它为台积电在芯片制造中广泛地部署光刻解决方案开辟了新的可能性,为半导体规模化做出重要贡献。阿斯麦CEO Peter Wennink说阿斯麦计划将对GPU的支持集成到其所有的计算光刻软件产品中。
新思科技董事长兼CEO Aart de Geus称,在英伟达的cuLitho平台上运行新思科技的光学邻近校正(OPC)软件,将性能从几周加速到几天。
cuLitho将有助于晶圆厂缩短原型周期时间、提高产量、减少碳排放,为2nm及更先进的工艺奠定基础,并使得曲线掩模、high NA EUV、亚原子级光刻胶模型等新技术节点所需的新型解决方案和创新技术成为可能。
二、发布ChatGPT专用推理GPU,登浏览器即可访问AI超级计算机
围绕生成式AI,英伟达发布了一系列加速模型训练和推理的软硬件新品及服务。
老黄首先讲述了英伟达在生成式AI革命之初是如何进入AI领域的。
“英伟达加速计算始于DGX(AI超级计算机),这是大型语言模型实现突破背后的引擎。”他谈道,“(2016年)我亲手将全球首款DGX交给了OpenAI,自此以后,《财富》100强企业中有一半安装了DGX AI超级计算机。DGX已成为AI领域的必备工具。”
“生成式AI将重塑几乎所有行业。”老黄说,ChatGPT、Stable Diffusion、DALL-E和Midjourney唤醒了世界对生成式AI的认知。
在他看来,生成式AI是一种新型计算机、一种可以用人类语言进行编程的计算机,与个人电脑(PC)、互联网、移动设备和云类似,这种能力影响深远,每个人都可以命令计算机来解决问题,现在每个人都可以是程序员。
1、训练:生成式AI明星企业都在用,AI超级计算机已全面投产
训练方面,英伟达H100 GPU基于Hopper架构及其内置Transformer Engine,针对生成式AI、大型语言模型和推荐系统的开发、训练和部署进行了优化,利用FP8精度在大型语言模型上比上一代A100提供了快9倍的AI训练和快30倍的AI推理。
DGX H100拥有8个H100 GPU模组,在FP8精度下可提供32PetaFLOPS的算力,并提供完整的英伟达AI软件堆栈,助力简化AI开发。黄仁勋宣布,NVIDIA DGX H100 AI超级计算机已全面投入生产,很快将面向全球企业。微软宣布Azure将向其H100 AI超级计算机开放私人预览版。
黄仁勋说,云计算巨头现在正在提供英伟达H100 GPU,生成式AI领域的多家明星企业都在用H100加速工作。
比如,OpenAI用H100的上一代A100训练和运行AI聊天机器人ChatGPT,并将在微软Azure超级计算机上使用H100;AI文生图明星创企Stability.ai是AWS上的H100早期访问客户。
最近刚推出开源大模型的社交软件巨头Meta开发了基于Hopper架构的AI超级计算机Grand Teton系统。相比其前代Zion,该系统的算力大幅提升,可同时支持推荐模型和内容理解的训练和推理。
英伟达与其主要合作伙伴宣布推出强大的GPU NVIDIA H100 Tensor Core GPU新产品和服务,以满足生成式AI训练和推理需求。
AWS宣布即将推出的EC2超级集群(EC2 P5实例)可扩展至20000个互连的H100。Oracle Cloud Infrastructure(OCI)宣布限量推出采用H100的全新OCI Compute裸金属GPU实例。
为企业和开发者提供多模态视频理解的平台Twelve Labs计划在OCI Supercluster上使用H100实例来即时、智能和容易搜索视频。
2、推理:发布3款GPU、3类云服务
推理方面,英伟达推出全新GPU推理平台:4种配置(L4 Tensor Core GPU、L40 GPU、H100 NVL GPU、Grace Hopper超级芯片)、一个体系架构、一个软件栈,分别用于加速AI视频、图像生成、大型语言模型部署和推荐系统。
(1)L4:针对AI视频设计的通用GPU,可提供比CPU高120倍的AI视频性能,能效提高99%;优化了视频解码与转码、视频内容审核、视频通话等功能,如背景替换、重新打光、眼神交流、转录和实时翻译等。一台8-GPU L4服务器将取代100多台用于处理AI视频的双插槽CPU服务器。
(2)L40:用于图像生成,针对图形和AI支持的2D、视频和3D图像生成进行了优化,推理性能是英伟达最受欢迎的云推理GPU T4的10倍。
(3)H100 NVL:针对ChatGPT等大型语言模型的大规模部署,配备双GPU NVLink,将两张拥有94GB HBM3显存的PCIe H100 GPU拼接在一起,可处理拥有1750亿参数的GPT-3大模型,同时支持商用PCIe服务器轻松扩展。
老黄说,目前在云上唯一可以实际处理ChatGPT的GPU是HGX A100。与适用于GPT-3处理的HGX A100相比,一台搭载4对H100及双GPU NVLink的标准服务器的速度要快10倍,H100可将大型语言模型的处理成本降低一个数量级。
(4)Grace Hopper超级芯片:适用于推荐系统和大型语言模型的AI数据库,图推荐模型、向量数据库和图神经网络的理想选择,通过900GB/s的高速一致性芯片到芯片接口连接英伟达Grace CPU和Hopper GPU。
谷歌云是第一个向客户提供英伟达L4推理GPU的云服务提供商。谷歌还将L4集成到其Vertex AI模型商店中。
3、云服务:登浏览器即可访问AI超级计算机
英伟达推出了一项名为DGX Cloud的AI超级计算服务,与微软Azure、谷歌OCP、Oracle OCI合作,通过一个Web浏览器就能访问,以便企业为生成式AI和其他开创性应用训练先进的模型。
DGX Cloud实例的起价为每个实例每月36999美元。其每个实例都具有8个NVIDIA H100或A100 80GB Tensor Core GPU,每个节点共有640GB的GPU内存。DGX Cloud提供了专用的NVIDIA DGX AI超级计算集群,并配备了NVIDIA AI软件。
英伟达还推出了全新云服务及代工厂NVIDIA AI Foundations,使企业能够构建、改进、运营使用其专有数据训练的、用于特定领域任务的定制大模型和生成式AI模型:
(1)NeMo:文本生成模型构建服务,提供从80亿到5300亿个参数的模型,会定期更新额外的训练数据,帮助企业为客服、企业搜索、聊天机器人、市场情报等生成式AI应用进行模型定制。
(2)Picasso:视觉语言模型构建服务,具有先进的文生图、文本转视频、文本转3D功能,可为产品设计、数字孪生、角色创建等使用自然文本提示的应用快速创建和定制视觉内容。
(3)BioNeMo:生命科学服务,提供AI模型训练和推理,加速药物研发中最耗时和成本最高的阶段,可加速新蛋白质和治疗方法的创建以及基因组学、化学、生物学和分子动力学研究。
直接在浏览器上或通过API,均可访问这些运行在NVIDIA DGX Cloud上的云服务。NeMo、BioNeMo云服务已开放早期访问,Picasso云服务正在私人预览中。
英伟达也宣布了一系列跟生成式AI相关的合作进展,包括与Adobe合作开发新一代先进的生成式AI模型;与Getty Images合作训练负责任的文生图、文本转视频基础模型;与Shutterstock合作,训练从简单文本提示中创建生成式3D模型,将创作时间从几小时减少到几分钟。
此外,英伟达与三菱联合发布了将用于加速药物研发的日本第一台生成式AI超级计算机Tokyo-1。通过在Tokyo-1上使用NVIDIA BioNeMo软件,研究人员能运行高达数十亿参数的先进AI模型,包括蛋白质结构预测、小分子生成、姿态估计等。
三、BlueField-3 DPU已投产,打造全球首个GPU加速量子计算系统
数据处理单元(DPU)方面,黄仁勋宣布英伟达BlueField-3 DPU已投入生产,并被百度、CoreWeave、京东、微软Azure、Oracle OCI、腾讯游戏等领先的云服务提供商所采用,以加速其云计算平台。
面向量子计算,要从量子噪声和退相干中恢复数据,需要对大量量子比特进行纠错。对此,英伟达与Quantum Machines合作推出了一个量子控制链路,它可将英伟达GPU连接到量子计算机,以极快的速度进行纠错。
双方合作研发的全球首个GPU加速量子计算系统NVIDIA DGX Quantum,将强大的加速计算平台(由NVIDIA Grace Hopper超级芯片和CUDA量子开源编程模型支持)与全球最先进的量子控制平台OPX结合在一起,使研究人员能够构建强大的应用,将量子计算与最先进的经典计算结合起来,实现校准、控制、量子纠错和混合算法。
NVIDIA DGX Quantum的核心是NVIDIA Grace Hopper系统,通过PCIe连接到通用量子控制系统Quantum Machines OPX+,实现QPU和量子之间的亚微秒延迟处理单元(QPU)。
DGX Quantum还为开发人员配备了一款强大的混合GPU-Quantum编程模型NVIDIA CUDA Quantum,可以在一个系统中集成QPU、GPU、CPU并进行编程。多家量子硬件公司将CUDA Quantum集成到他们的平台中。
美国通信巨头AT&T宣布与英伟达合作,使用英伟达全套AI平台改进运营并提高可持续性。AT&T将使用英伟达AI平台进行数据处理、优化服务排队、创建员工支持和培训的对话式AI数字化形象。
四、推出新一代元宇宙服务器,引入生成式AI和模拟仿真更新
面向元宇宙领域,英伟达推出了第三代OVX计算系统和新一代工作站,为基于NVIDIA Omniverse Enterprise的大规模数字孪生提供动力。
第三代OVX服务器通过组合双CPU平台、BlueField-3 DPU、L40 GPU、两个ConnectX-7 SmartNIC和NVIDIA Spectrum以太网平台,提供了突破性的图形和AI性能,可加速大规模数字孪生模拟等应用,进而提高运营效率和预测性规划功能。
企业可以利用OVX性能在可视化、虚拟工作站和数据中心处理工作流程等方面进行协作。
此外,新一代NVIDIA RTX工作站RTX 4000 SFF Ada Generation采用英伟达Ada Lovelace GPU、ConnectX-6 Dx SmartNIC和英特尔至强处理器。最新发布的RTX 5000 Ada一代笔记本电脑GPU使专业人士能随时随地访问Omniverse和工业元宇宙工作负载。
黄仁勋还宣布了英伟达用于构建和操作元宇宙应用的平台NVIDIA Omniverse的相关更新,增加了一系列生成式AI、模拟仿真相关功能,让开发者能够更轻松地部署工业元宇宙应用。
平台即服务(PaaS)NVIDIA Omniverse Cloud现已面向特定企业开放,使企业能够在其核心产品和业务流程中统一数字化。
“从大型物理设施到手持消费品,每一个人造物体都有一天会拥有一个数字孪生,用来建造、操作和优化物体。”黄仁勋说,“Omniverse Cloud是用于工业数字化的从数字到物理的操作系统,它的出现正好赶上了正在建设的价值数万亿美元的新电动汽车、电池和芯片工厂。”
英伟达选择微软Azure作为Omniverse Cloud的首个云服务提供商。由NVIDIA OVX计算系统提供支持的Omniverse Cloud将于今年下半年与微软Azure一起推出。企业可访问Omniverse软件应用程序的全堆栈套件和NVIDIA OVX基础设施,并享有Azure云服务的规模和安全性。
Azure上Omniverse Cloud的新订阅服务使汽车团队可轻松实现工作流程的数字化,无论是连接3D设计工具以加速汽车开发,还是构建汽车的数字孪生工厂或运行闭环模拟来测试车辆性能。
老黄在演讲期间分享了一个视频,展示亚马逊如何用英伟达Omniverse平台构建完全逼真的数字孪生机器人仓库,以节省时间和金钱。
英伟达与宝马集团宣布扩大合作,为汽车制造商开设了第一个完全虚拟工厂。宝马集团将英伟达Omniverse平台用在其全球生产网络中构建和运行工业元宇宙应用。
此外,英伟达与其合作伙伴发布了全新的Omniverse Connections,通过通用场景描述(USD)框架连接更多世界更多先进应用。
结语:生成式AI引发了全球企业紧迫感
“生成式AI正在推动AI的快速应用,并重塑无数行业。”老黄说,“我们正处于AI的「iPhone时刻」,初创公司竞相构建具有颠覆性的产品和商业模式,老牌公司则在寻求应对之策,生成式AI引发了全球企业制定AI战略的紧迫感。”
从今日英伟达的一系列软硬件发布,可以看到英伟达对先进AI计算的支撑已经覆盖到从GPU、DPU等硬件到帮助企业加速构建定制生成式AI模型的云服务,进而推动释放人类的创造力。
这已经不是老黄第一次“跳预言家”了。英伟达的加速计算产品可以说是与AI产业的发展共生共荣。英伟达不断为更大规模的AI模型训练提供更强大的算力基座,对AI训练和推理的前沿发展起到了重要推动力,蓬勃而生的AI热潮又为英伟达带来了更广阔的市场和机遇。
如今,生成式AI所展现出的商用前景几乎激励着每个行业重新设想其商业战略和实现这些战略所需的技术。英伟达正与其合作伙伴迅速行动,为AI应用提供更强大的计算平台,让更多人从生成式AI等前沿应用的变革性力量中受益。