芯东西(公众号:aichip001)
编译 | 高远瞩
编辑 | 漠影

芯东西4月16日报道,4月15日,顶尖的AI播客主持人Dwarkesh Patel与英伟达创始人兼CEO黄仁勋进行了一场近两小时的深度对话。黄仁勋系统拆解了英伟达面临的五大关键问题:是否依赖稀缺供应链构建护城河、TPU等ASIC芯片能否打破其垄断、为何不自己做超大规模云厂商、是否应向中国出售AI芯片,以及公司为何不采用多种不同芯片架构。内容同时涉及竞争壁垒、AI算力市场格局、公司战略边界及中美芯片政策等核心维度。

黄仁勋在访谈中明确阐述了英伟达的原则是“做必要的事,同时尽可能少做”。他强调,英伟达只投入那些“如果我不做,就没人会做”的事情,例如CUDA生态、加速计算和特定领域计算库(如cuLitho),而不会轻易进入云服务领域与客户竞争,因为“世界上有很多云服务商,如果我不做,别人会做”。

对于公司的未来,他展现出极强的自信与长期主义承诺:“你可以信赖英伟达的一件事是,今年的Vera Rubin会令人难以置信,明年的Vera Rubin Ultra会来,后年Feynman会来。每一年你都可以信赖我们。”他认为,英伟达正成为世界AI工业的基石,这种稳定性和一致性是任何ASIC团队都无法提供的。

在谈及中国AI芯片出口与竞争时,黄仁勋明确反对将AI芯片出口管制极端化,直言“将AI比作浓缩铀是一个糟糕的、不合逻辑的类比”,并批评“那种失败者的心态,对我来说毫无意义”。他谈到,中国拥有全球50%的AI研究人员,是开源软件和开放模型的最大贡献者之一;华为刚刚度过了公司历史上最好的一年,已出货数百万颗AI芯片,而且中国有大量闲置的数据中心和充足的能源,即使使用7nm工艺,也能通过数量堆叠和算法创新弥补制程差距。

他认为,放弃中国市场不会阻止中国AI发展,反而会迫使中国建立独立于美国技术栈的完整生态系统,重蹈美国电信行业被政策排挤出世界市场的覆辙,并提醒:“AI是一个五层的技术蛋糕。我们在所有五层都部署了生态系统。放弃芯片层,就等于让美国输掉整个技术栈的竞争。”

以下是这篇播客的核心内容:

1、下游需求即护城河:英伟达能锁定上游产能,根本原因是巨大的下游需求让供应链愿意投资。

2、真正瓶颈是能源和“水管工”:任何供应链瓶颈都不会超过两三年,CoWoS、EUV都能快速扩产,真正瓶颈是能源和“水管工”。

3、可编程架构才是关键:AI不仅是矩阵乘法,新算法需要可编程架构,专用TPU无法打破英伟达的垄断。

4、CUDA的“飞轮效应”:数亿GPU的安装基础、覆盖所有云平台、支持无数框架,这是任何ASIC无法比拟的护城河。

5、性价比世界第一:英伟达每瓦token数和每美元性能都是全球最高,黄仁勋欢迎对手用MLPerf、InferenceMAX来证明。

6、Anthropic是特例:转投TPU是因为当时英伟达无力进行数十亿美元的投资,而非技术劣势。

7、不做云,只投资:英伟达不自己做超大规模云厂商,而是投资CoreWeave等neocloud,避免与客户竞争。

8、先到先得,从不涨价:GPU分配不是价高者得,而是先下采购订单先得;英伟达保持价格稳定,做行业基石。

9、DeepSeek是“可怕的结果”:DeepSeek若在华为芯片上首发,意味着AI模型可能在美国技术栈之外运行得最好,对美国是重大损失。

10、放弃市场会催生对手:放弃中国这个全球第二大科技市场,只会推动中国建立独立于美国的技术栈。

以下是播客内容的完整编译:

一、Token转化之路远未结束,Agent将使软件公司业绩飙升

主持人:我们看到很多软件公司的估值暴跌,因为人们认为有了AI之后,软件就会变得像普通商品一样,不再稀缺。有人会天真地想:英伟达把GDS2文件发给台积电。台积电制造逻辑芯片die,制造开关,然后用SK海力士、美光和三星生产的HBM封装起来。然后把它送到台湾的ODM那里,他们组装机架。英伟达本质上是在做软件,由别人来制造。如果软件变得像普通商品一样不再稀缺,那英伟达也会变得不再稀缺吗?

黄仁勋:归根结底,总得有人把电子转化为token。把电子转化为token,并随着时间的推移让这些token更有价值——这个过程很难完全商品化。从电子到token的转化是一段令人难以置信的旅程。让一个token比另一个token更有价值,就像让一个分子比另一个分子更有价值一样。其中涉及的艺术、工程、科学和发明,显然我们正在实时目睹这一切。这种转化、制造以及其中的所有科学,远未被深刻理解,这段旅程也远未结束。

你描述问题的方式,其实就是我对我们公司的思维模型。输入是电子,输出是token,中间是英伟达。我们的工作是:做必要的事情,同时尽可能少做,以实现这种转化,达到惊人的能力。我所说的“尽可能少做”是指,凡是我无需亲力亲为的,我就与人合作,让它成为我生态系统的一部分。

看看今天的英伟达,我们可能拥有最大的合作伙伴生态系统,包括上游和下游的供应链、所有的计算机公司、应用开发者以及模型构建者。AI就像一块五层的蛋糕,我们在全部五层都有生态系统。我们试图尽可能少做,但我们必须做的那部分,事实证明,极其困难,我不认为那部分会变得像普通商品一样不再稀缺。

事实上,我也不认为企业软件公司、工具制造商……今天的大多数软件公司都是工具制造商。有些不是,有些是工作流编码系统。但对很多公司来说,它们是工具制造商。例如,Excel、PowerPoint是工具,Cadence、Synopsys制造工具。我看到的与大家看到的恰恰相反。我认为Agent的数量将呈指数级增长,工具用户的数量也将呈指数级增长,所有这些工具的实例数量很可能会飙升。

Synopsys Design Compiler的实例数量很可能会飙升,同时使用floor planners、我们的布局工具和设计规则检查器的Agent数量也会飙升。今天,我们受限于工程师的数量。明天,这些工程师将得到一群Agent的支持。我们将以前所未有的方式探索设计空间,我们将使用我们今天使用的工具。

我认为工具的使用将导致软件公司业绩飙升,之所以还没发生,是因为Agent使用工具的能力还不够好。这些公司要么自己构建Agent,要么Agent会变得足够好,才能够使用这些工具,我认为两者会同时发生。

二、英伟达如何构建供应链护城河:上游大额采购承诺和生态协同

主持人:我记得在你们最新的财报文件中,你们与代工厂、内存和封装供应商有近1000亿美元的采购承诺。SemiAnalysis报道说,你们这类采购承诺将达到2500亿美元。一种解读是,英伟达的护城河在于你们锁定了未来多年的稀缺组件。别人可能有加速器,但他们真的能拿到制造它所需的内存吗?真的能拿到制造它所需的逻辑芯片吗?这是否是英伟达未来几年的主要护城河?

黄仁勋:这是我们可以做到、而别人很难做到的事情之一。我们在上游做出了巨大的承诺,其中一些是显性的,就是你提到的这些承诺。有些是隐性的,例如,上游的很多投资是由我们的供应链做出的,因为我对那些CEO们说:“让我告诉你们这个行业会有多大,让我解释为什么,让我和你们一起推理,让我展示我所看到的。”

通过这个告知、启发并与上游不同行业CEO们对齐的过程,他们愿意进行投资。他们为什么愿意为我而不是为别人投资?原因在于,他们知道我有能力购买他们的产品,并通过我的下游销售出去。事实是,英伟达的下游供应链和下游需求如此之大,他们愿意在上游进行投资。

你看看GTC大会,人们对其规模和参会人数感到惊叹。那是全方位的,整个AI宇宙汇聚一堂。他们聚在一起是因为需要互相了解,我把他们聚集起来,让下游看到上游,上游看到下游,所有人都能看到AI的进步。非常重要的是,他们都能见到AI原住民、所有正在建设的AI初创公司以及所有正在发生的奇妙事情,这样他们就能亲眼看到我告诉他们的一切。我花大量时间,直接或间接地,告知我们的供应链、合作伙伴和生态系统,我们面前的机会。

一些人总是说:“在大多数主题演讲中,都是一个接一个的公告。”而我们的主题演讲,总有一部分有点“折磨人”,因为它几乎像是在做教育。事实上,这正是我的想法,我需要确保整个供应链、上下游、生态系统,理解即将发生什么、为什么会发生、何时发生、规模会有多大,并能像我一样系统地推理。

关于你描述的护城河,我们能够为未来而建设。如果未来几年我们的规模达到万亿美元级别,我们有供应链来支撑。没有我们的影响力,没有我们业务的速度……就像有现金流一样,还有供应链流、有周转。如果一个架构的业务周转率低,没人会为其建立供应链。我们维持规模的能力,完全是因为我们的下游需求如此巨大。他们看到了,听说了,看到了这一切的到来,这使我们能够以现有的规模做我们能做的事情。

三、AI行业的瞬时需求大于总供应,但每个瓶颈两三年内都能解决

主持人:我想更具体地了解上游能否跟得上,你们每年向全球提供的FLOPs数量,已经是原来的三倍以上。

黄仁勋:在这种规模下还能翻倍,确实令人难以置信。

主持人:确实,但再看看逻辑芯片。你们是台积电N3节点的最大客户,也是N2节点最大的客户之一,今年整个AI将占N3产能的60%,根据SemiAnalysis的数据,明年将达到86%。如果你已经是最大头,你怎么翻倍?你如何年复一年地做到这一点?我们现在是否处于一个因为上游限制而不得不放缓AI计算增长率的阶段?你觉得有办法绕过这个限制吗?我们最终如何年复一年地建设两倍多的晶圆厂?

黄仁勋:在某种程度上,瞬时需求大于世界上游和下游的总供应。在任何时刻,我们甚至可能受限于水管工的数量,这确实发生过。

主持人:水管工也应该被邀请参加明年的GTC。

黄仁勋:好主意,但这是个好现象。你希望一个行业的瞬时需求大于该行业的总供应,反之显然不太好。如果差距太大,某个特定组件供应差得太远,整个行业会蜂拥而上解决它。例如,人们现在不太谈论CoWoS了。

原因是,我们花了两年时间拼命攻克它。我们翻倍、翻倍、再翻倍,翻了好几番,现在我认为我们的状况相当不错。台积电现在明白,CoWoS的供应必须与逻辑和内存需求的其余部分保持同步,他们正在以与扩展逻辑相同的水平来扩展CoWoS和未来的封装技术。这太棒了,因为在很长一段时间里,CoWoS和HBM内存都相当特殊,但它们不再是特殊技术了,人们现在意识到它们是主流的计算技术。

当然,我们现在更有能力影响更广泛范围的供应链。在AI革命之初,我现在说的这些话,五年前我就说了。有些人相信并投入了,例如,Sanjay和美光团队。我仍然清楚地记得那次会议,我清楚地说明了将要发生什么,为什么会发生,以及今天的预测。他们真的加大了投入,我们在LPDDR和HBM内存方面与他们合作,他们确实投入了。这对公司来说显然是非常好的,有些人来得晚一些,但现在他们都来了。

每一个瓶颈都会得到大量关注,我们现在提前数年预判瓶颈。例如,过去几年我们对Lumentum、Coherent以及硅光子生态系统的投资,真的重塑了供应链,我们在台积电周围建立了完整的供应链。我们与他们合作COUPE,发明了大量技术,并将这些专利授权给供应链,以保持其良好和开放。

我们正在通过发明新技术、新工作流程、双面探测等新型测试设备,以及通过投资公司、帮助它们扩大产能,来为供应链做好准备。你可以看到,我们正在努力塑造生态系统,以便供应链准备好支持这样的规模。

主持人:有些瓶颈好解决,有些就没那么容易,像扩展CoWoS跟扩展。

黄仁勋:我选了最难的一个——水管工,一些末日论者总在描述“岗位消失”,水管工和电工的短缺引起了我的担忧。如果我们劝阻人们成为软件工程师,我们就会耗尽软件工程师。同样的预言十年前就发生过,末日论者当时告诉人们:“无论如何,别当放射科医生。”你可能还在网上看到过一些视频,说放射科将是第一个消失的职业,世界不再需要更多的放射科医生,但我们现在很缺放射科医生。

四、芯片产能瓶颈可在两三年内解决,真正的限制是能源政策

主持人:回到关于某些东西可以规模化,而另一些则不能……你如何每年实际制造出两倍数量的逻辑芯片?归根结底,内存和逻辑都受限于EUV。你如何年复一年地获得两倍数量的EUV机器?

黄仁勋:这些都不是不可能快速规模化的,所有这些在两三年内都容易做到。你只需要一个需求信号,一旦你能造出一个,你就能造出十个;一旦你能造出十个,你就能造出一百万个,这些东西复制起来并不难。

主持人:你会深入到供应链的哪一层?你会去找ASML说:“如果我展望三年后,英伟达要达到每年两万亿美元的收入,我们需要多得多的EUV机器”吗?

黄仁勋:有些我需要直接去谈,有些是间接的。如果我能说服台积电,ASML自然就会被说服。我们必须考虑关键的瓶颈点,但如果台积电被说服了,几年内你就会有大量的EUV机器。

我的观点是,没有任何一个瓶颈会持续超过两三年,没有。与此同时,我们正在将计算效率提高10倍、20倍,从Hopper到Blackwell甚至提高30到50倍。因为CUDA非常灵活,我们不断推出新算法,我们开发各种新技术,在增加容量的同时提高效率,这些都不让我担心。我担心的是我们下游的东西,那些阻碍能源供应的能源政策……没有能源,你就无法创建工业,没有能源,你就无法创建一个全新的制造业。

我们想在美国再工业化,我们希望将芯片制造、计算机制造和封装带回美国,我们希望制造电动汽车和机器人等新东西。我们希望建AI工厂。没有能源,你无法建造任何这些东西,而这些事情需要很长时间。更多的芯片产能,是两三年能解决的问题,更多的CoWoS产能,也是两三年能解决的问题。

五、英伟达构建的是多样化的加速计算平台,而不仅是AI TPU

主持人:我想问问关于你们竞争对手的情况。看看TPU,可以说世界上排名前三的模型中有两个,Claude和Gemini,是在TPU上训练的。这对英伟达的未来意味着什么?

黄仁勋:我们构建的东西非常不同,英伟达构建的是加速计算,而不仅仅是TPU。加速计算用于各种领域:分子动力学、量子色动力学、数据处理、数据帧、结构化数据、非结构化数据,它还用于流体动力学和粒子物理。此外,我们也把它用于AI。

加速计算要多样化得多,尽管AI是当下的热门话题,显然非常重要且有影响力,但计算远不止于此。英伟达重新发明了计算的方式,从通用计算转向加速计算,我们的市场覆盖范围远远超过任何TPU或ASIC可能达到的范围。看看我们的位置,我们是唯一一家加速各种应用程序的公司,我们拥有庞大的生态系统。所以,各种框架和算法都在英伟达上运行。

因为我们的计算机设计成可供他人操作,任何操作员都可以购买我们的系统。而对于大多数自建系统,你必须自己当操作员,因为它们的设计灵活性不足以让其他人操作。因为任何人都可以操作我们的系统,我们存在于每一个云平台中,包括Google、Amazon、Azure和OCI。

如果你想运营它以供出租,你最好拥有一个庞大的、来自各行各业的客户生态系统来作为承购方。如果你想为自己运营,我们显然有能力帮助你自己运营,就像我们为xAI的Elon做的那样。而且,因为我们能让任何公司、任何行业的操作员都能使用,你可以用它来为Lilly公司建造用于科学研究和药物发现的超级计算机。我们可以帮助他们运营自己的超级计算机,并将其用于我们加速的整个药物发现和生物科学领域。

有一大堆应用是我们能够处理而TPU无法处理的,英伟达构建的CUDA也是一个出色的张量处理单元,但它也处理数据处理的每一个生命周期、计算、AI等等。我们的市场机会大得多,我们的覆盖范围也广得多。因为我们现在支持世界上每一个应用,你可以在任何地方构建英伟达系统,并且知道会有客户使用它。这是一个非常不同的情况。

六、英伟达实现代际性能飞跃的根本原因:可编程架构和算法创新

主持人:你们一季度收入600亿美元,但这并不来自于制药和量子计算,而是因为AI是一项前所未有的技术,并且以前所未有的速度增长。那么问题来了,对于AI本身来说,什么是最好的?我不了解细节,但我与我的AI研究员朋友交流时,他们说:“你看,当我使用TPU时,它是一个巨大的脉动阵列,非常适合做矩阵乘法,而GPU非常灵活,当有很多分支或非规则内存访问时,它很棒。”

但AI是什么呢?它就是一次又一次、非常可预测的矩阵乘法。你不需要为warp调度器或线程与内存库之间的切换牺牲任何die面积。而TPU真正优化的,正是当前即将到来的收入增长和计算用例中的绝大部分,我想知道你对此有何回应。

黄仁勋:矩阵乘法是AI的重要组成部分,但不是唯一的部分。如果你想提出一种新的注意力机制,以不同的方式解耦,或者发明一种全新的架构——比如混合SSM——你需要一个普遍可编程的架构。如果你想创建一个融合了扩散模型和自回归技术的模型,你需要一个普遍可编程的架构,我们运行你能想象到的一切,这就是优势所在。它允许更容易地发明新算法,因为它是一个可编程系统。

发明新算法的能力才是AI进步如此之快的真正原因。TPU和其他任何东西一样,都受到摩尔定律的影响,我们知道摩尔定律每年大约提升25%。真正实现10倍或100倍飞跃的唯一方法是,每年从根本上改变算法及其计算方式。

这就是英伟达的根本优势,我们之所以能让Blackwell比Hopper快50倍……我第一次宣布Blackwell能效将比Hopper高35倍时,没人相信。后来Dylan写了篇文章说我“藏着掖着”,实际上是50倍,仅靠摩尔定律你无法合理做到这一点。我们解决这个问题的方法是采用新模型,比如MoE,这些模型被并行化、解耦,并分布在一个计算系统中。如果没有能力真正深入并用CUDA提出新的kernel,这真的很难做到。

这是可编程架构与英伟达是一家极端协同设计公司这两个事实的结合。我们甚至可以将部分计算卸载到fabric本身,比如NVLink,或者卸载到网络,比如Spectrum-X。我们可以同时影响处理器、系统、fabric、库和算法的变革。没有CUDA来做这件事,我甚至不知道从何开始。

七、CUDA的宝贵价值:生态系统、安装基础和普遍存在性

主持人:这引出了一个关于英伟达客户群的有趣问题。你们60%的收入来自五大超大规模云厂商。在另一个时代,面对不同的客户——比如说运行实验的教授——他们需要CUDA。他们不能使用别的加速器。他们只需要用带CUDA的PyTorch,一切就都优化好了。

但这些超大规模云厂商有资源编写自己的kernel。事实上,为了获得针对他们特定架构所需的那最后5%性能,他们必须这样做。Anthropic和Google主要运行它们自己的加速器,或者使用TPU和Trainium。但即使是使用GPU的OpenAI,也有Triton,因为他们需要自己的kernel。深入到CUDA C++,他们没有使用cuBLAS和NCCL,而是有自己的软件栈,这个软件栈也可以编译到其他加速器上。如果你大多数客户能够并且确实在制作CUDA的替代品,那么CUDA在多大程度上真的是前沿AI发生在英伟达上的原因呢?

黄仁勋:CUDA是一个丰富的生态系统,如果你想在任何计算机上优先构建,首先基于CUDA构建是极其明智的。因为生态系统如此丰富,我们支持每一个框架。如果你想创建自定义kernel……例如,我们为Triton做出了巨大贡献,所以Triton的后端包含了大量的英伟达技术。

我们乐于帮助每一个框架变得尽可能好,框架非常多。有Triton、vLLM、SGLang等等。现在又涌现出一大批新的强化学习框架,比如verl和NeMo RL。随着后训练和强化学习的发展,整个领域正在爆炸式增长。所以,如果你想基于某个架构构建,基于CUDA构建是最有意义的,因为你知道生态系统很强大。

如果出了问题,问题更可能出在你的代码里,而不是下面那堆积如山的代码中,别忘了构建这些系统时你要处理多少代码。当某些东西不工作时,是你错了还是计算机错了?你希望总是你自己错了,并且能够信任计算机。显然,我们自己还有很多bug,但我们的系统经过了如此充分的检验,你至少可以在这个基础上构建。这是第一点:生态系统的丰富性、可编程性和能力。

第二点是,如果你是一个开发者,无论你在构建什么,你最想要的是一个安装基础,你希望自己写的软件能在大量其他计算机上运行,你不是只为自己构建软件。你是为你的集群或所有人的集群构建,因为你是一个框架构建者,英伟达的CUDA生态系统最终是它最宝贵的财富。

我们现在有数亿个GPU在使用中,每个云平台都有。这可以追溯到A10、A100、H100、H200、L系列、P系列,各种尺寸和形状的都有。如果你是一家机器人公司,你希望那个CUDA栈能真正在机器人内部运行,我们几乎无处不在。这个安装基础意味着,一旦你开发了软件或模型,它将在任何地方都有用,这价值连城。

最后,我们存在于每一个云平台中,这使我们真正独一无二。如果你是一家AI公司或开发者,你不完全确定你会与哪个云服务商合作,或者你想在哪里运行它。我们无处不在,包括如果你愿意,也可以在你本地运行。生态系统丰富性、安装基础广泛性以及我们所在位置的通用性,这些结合在一起,使得CUDA价值连城。

八、英伟达的每瓦性能和每美元性能均为世界最高,形成了客户依赖的飞轮

主持人:这些优势对你的主要客户来说是否真的很重要?对于很多人来说,这些优势可能很重要。但那种能够自己构建软件栈的人,占据了你们收入的大部分。特别是,如果我们进入一个AI在那些具有严格验证循环(你可以进行强化学习)的事情上变得特别擅长的世界……关于如何最有效地编写执行attention或MLP的kernel以进行扩展的问题,这是一个非常可验证的反馈循环。

所有超大规模云厂商都能为自己编写这些自定义kernel吗?英伟达仍然有很好的性价比,所以他们可能还是更愿意用英伟达。但问题是,这是否就变成了一个简单的问题:谁能在给定成本下提供最好的规格、最好的FLOPs和内存带宽。而历史上,由于CUDA这个护城河,英伟达在AI硬件和软件方面一直拥有、并且现在仍然拥有最高的利润率,超过70%。问题在于,如果你的大多数客户实际上能够负担得起构建替代品,而不是被CUDA护城河困住,你还能维持这些利润率吗?

黄仁勋:我们分配给这些AI实验室的工程师数量是惊人的,我们与他们一起工作,优化他们的软件栈。原因在于,没有人比我们更了解我们的架构。这些架构不像CPU那样通用,CPU有点像凯迪拉克,不错的巡航车,从来不会开太快,每个人都能开得挺好,有巡航控制,一切都很简单。但在很多方面,英伟达的GPU、加速器,就像F1赛车。我想象每个人都能以100英里的时速驾驶它,但要想把它推向极限,需要相当多的专业知识,我们使用大量AI来创建我们拥有的kernel。

我很确定在相当长的一段时间内,我们仍然会被需要。我们的专业知识常常能帮助我们的AI实验室合作伙伴轻松地将其软件栈性能再提升2倍。我们优化完他们的软件栈或某个特定kernel后,他们的模型速度提升了3倍、2倍、50%,这并不罕见。这是一个巨大的数字,尤其是考虑到他们拥有的集群规模,所有那些Hoppers和Blackwells。当你将其提升一倍时,这直接转化为收入。

英伟达的计算栈是世界上性价比最高的,毫无疑问。没有人能向我证明,当今世界上有任何单一平台拥有更好的性能-总体拥有成本比,一家都没有。事实上,现有的基准测试已经证明了这一点。Dylan的InferenceMAX就摆在那里,任何人都可以使用,但没有一个……TPU不来,Trainium也不来。

我鼓励他们使用InferenceMAX来展示他们令人难以置信的推理成本,这真的很难,没人愿意站出来。MLPerf也是。我欢迎Trainium来展示他们一直声称的40%优势。我很乐意听到他们展示TPU的成本优势,在我看来,这毫无意义,从基本原理上讲,这毫无意义。

所以我认为我们如此成功的原因很简单,因为我们的总体拥有成本如此之好。其次,你说我们60%的客户是前五大云厂商,但大部分业务是外部的。例如,AWS上的大部分英伟达算力是供外部客户使用的,而不是内部使用。Azure上的大部分客户,显然都是外部客户。OCI上的所有客户都是外部客户,不是内部使用。他们青睐我们的原因是因为我们的覆盖范围如此之广,我们可以为他们带来世界上所有伟大的客户。这些客户都构建在英伟达之上,而所有这些公司之所以构建在英伟达之上,是因为我们的覆盖范围和通用性如此之广。

所以我认为这个飞轮确实是:安装基础、我们架构的可编程性、生态系统的丰富性,以及世界上有这么多AI公司。现在有数万家了。如果你是那些AI初创公司之一,你会选择哪种架构?你会选择最充裕的架构,我们是世界上最充裕的。你会选择安装基础最大的,我们是最大的安装基础,你会选择拥有丰富生态系统的。

这就是飞轮,这就是为什么结合了以下几点:第一,我们的每美元性能如此出色,以至于他们拥有成本最低的token。第二,我们的每瓦性能是世界上最高的。所以,如果我们的合作伙伴中有一家建造了一个吉瓦级的数据中心,那个吉瓦级数据中心最好能产生最多的收入和token数量,这直接转化为收入。你希望它产生尽可能多的token,最大化该数据中心的收入,我们是世界上每瓦token数最高的架构。最后,如果你的目标是出租基础设施,我们拥有世界上最多的客户,这就是飞轮运作的原因。

九、Anthropic使用TPU是特殊案例,源于英伟达当时缺乏投资能力

主持人:有意思,我想问题归结为,实际的市场结构是怎样的?因为即使有其他公司……可能存在一个世界,有数万家AI公司大致平等地分享算力。但即使通过这五大超大规模云厂商,真正在亚马逊上使用算力的是Anthropic、OpenAI以及那些大型基础模型实验室,他们自己能够负担并且有能力让不同的加速器工作起来。

黄仁勋:不,我认为你的前提是错的,我务必要纠正,因为这对AI来说太重要了。这对科学的未来太重要了。对这个行业的未来太重要了。

主持人:让我把问题说完,然后我们可以一起讨论。如果你说的关于价格、性能、每瓦性能等等这些都是真的,那你认为,为什么像Anthropic这样的公司,就在几天前宣布与博通和谷歌达成一项multi-gigawatt(数吉瓦级)的TPU交易,并且他们的大部分算力将来自TPU?

显然对谷歌来说,TPU占其大部分算力。所以,如果我看这些大型AI公司,似乎他们的很多算力……曾经一度全是英伟达,现在不是了。所以我很好奇,如果这些在纸面上都是真的,为什么他们转而使用其他加速器?

黄仁勋:Anthropic是一个特例,不是趋势。没有Anthropic,TPU的增长从何而来?百分之百是Anthropic。没有Anthropic,Trainium的增长从何而来?百分之百是Anthropic,我认为这是众所周知、广为人知的。并不是说ASIC的机会很多,只有一个Anthropic。

主持人:但OpenAI与AMD的交易……他们正在构建自己的Titan加速器。

黄仁勋:是的,但我认为我们都承认,他们绝大部分算力还是来自英伟达。我们仍将一起做很多工作,我不介意别人使用其他东西并尝试。如果他们不尝试这些东西,怎么会知道我们的有多好呢?有时候你需要被提醒一下,我们必须不断赢得我们目前的地位。

总是有夸大的说法,看看有多少ASIC项目被取消了。仅仅因为你打算建造一个ASIC……你仍然需要建造比英伟达更好的东西。建造比英伟达更好的东西并不容易,事实上,这不合理。英伟达肯定在某些方面有缺失,严重缺失。因为凭借我们的规模、我们的速度,我们是世界上唯一一家每年都在推出新产品的公司。每年都有巨大飞跃。

主持人:我想他们的逻辑是:“它不需要更好。它只需要不比70%差太多,”因为他们付给你70%的利润率。

黄仁勋:不,别忘了,即使是ASIC,利润率也相当高。比方说英伟达的利润率是70%,但ASIC的利润率是65%,你真正能省下多少?

主持人:你是说来自博通之类的公司?

黄仁勋:是的,当然。你得付钱给某人。据我所知,ASIC的利润率非常高,他们也相信这一点,他们为自己令人难以置信的ASIC利润率感到相当自豪。

所以,你问为什么。很久以前,我们没有能力去做(投资)。当时,我没有深刻内化建立一个像OpenAI和Anthropic这样的基础AI实验室有多么困难,以及他们需要来自供应商本身的大量投资。我们当时没有能力向Anthropic进行数十亿美元的投资,以便他们使用我们的算力。但谷歌和AWS有,他们一开始就投入了巨额投资,作为回报,Anthropic使用他们的算力,我们当时没有能力做到这一点。

我想说的是,我的错误在于我没有深刻内化他们真的别无选择,风险投资家绝不会向一个AI实验室投入50到100亿美元,期望它能成为Anthropic,这是我的失误。但即使我当时明白了,我也不认为我们当时有能力做到,但我不会再犯同样的错误了。

我很高兴投资OpenAI,也很高兴帮助他们扩展,我相信这样做是必要的。然后,当Anthropic来找我们时,我也很高兴成为投资者,很高兴帮助他们扩展,我们当时就是做不到。如果我能让时光倒流——如果英伟达当时能像现在这么强大——我会非常乐意这样做。

十、英伟达遵循“做必要之事、尽可能少做”的原则,通过投资支持云生态而非自营

主持人:多年来,英伟达一直是AI领域赚钱的公司,赚得盆满钵满。现在你在进行投资,据报道,你已经向OpenAI投资了高达300亿美元,向Anthropic投资了100亿美元,现在他们的估值还在涨,我相信会继续涨。

所以,如果这么多年来,你一直在给他们提供算力,你看到了它的发展方向,而一两年前——或者在某些情况下甚至一年前——他们的价值只有现在的十分之一,你手头又有这么多现金……那么,存在着一个世界,要么英伟达自己成为一个基础模型实验室,进行大规模投资来实现这一点,要么以现在的估值更早地做成你现在做的这些交易,而且你当时有现金做这些。所以我很好奇,为什么不早点做呢?

黄仁勋:我们一有能力就做了,如果我能,我会更早做。在Anthropic需要我们做的时候,我们就是没能力做,当时我们还没有这种意识。

主持人:怎么会?是现金问题吗?

黄仁勋:是的,投资规模的问题。当时我们从未在公司外部进行过投资,更没有那么大额的,我们没意识到我们需要这样做。我一直以为他们可以去找风险投资家融资,看在上帝的份上,所有公司不都这样吗?但他们试图做的事情,通过风险投资是做不到的。OpenAI想做的事情,通过风险投资是做不到的,我现在认识到这点了,我当时不知道。

但这就是他们的天才之处,这就是他们聪明的地方,他们当时就意识到必须做那样的事情,我很高兴他们做了。尽管我们导致Anthropic不得不去找别人,我仍然很高兴事情发生了,Anthropic的存在对世界是件好事。我为此感到高兴。

主持人:我想你仍然在赚很多钱,而且每个季度赚的钱都多得多。

黄仁勋:有点遗憾还是可以的。

主持人:所以问题仍然存在,好吧,你一直在赚这么多钱,英伟达应该用这些钱做什么呢?有一个答案是,围绕如何将这些实验室的资本支出转换为运营支出以便他们能租用算力,已经出现了一个完整的中介生态系统。因为芯片非常昂贵,但AI模型在不断进步,所以它们在生命周期内能创造很多价值。它们产生的token价值在增加,但前期设置成本很高,英伟达有钱做资本支出。事实上,据报道,你们正在支持CoreWeave,金额高达63亿美元,并且已经投资了20亿美元。

为什么英伟达不自己成为一家云服务商?为什么不自己成为一家超大规模云厂商,把这些算力租出去?你们有这么多现金来做这件事。

黄仁勋:这是我们公司的理念,我认为这是明智的。我们应该做必要的事情,同时尽可能少做。这意味着,在我们构建计算平台的工作中,如果我们不做,我真心相信就没人会做了。如果我们不承担我们所承担的风险——如果我们不像那样构建NVLink,如果我们不构建整个软件栈,如果我们不像那样创建生态系统,如果我们不致力于CUDA20年并且在大部分时间里亏损——如果我们不做,别人也不会做。

如果我们不创建所有的CUDA-X库,让它们都针对特定领域……十五年前,我们进军特定领域库,因为我们意识到,如果我们不创建这些特定领域库,无论是用于光线追踪、图像生成还是AI的早期工作,这些模型,如果我们不创建它们,用于数据处理、结构化数据处理或向量数据处理,如果我们不创建它们,没人会做。我对此完全确定。我们创建了一个名为cuLitho的计算光刻库。如果我们不创建,没人会做。所以,如果我们不做我们所做的事情,加速计算就不会像现在这样进步。

所以我们应该做那些事,我们应该将我们公司、我们所有的力量、全心全意地投入到那些事情上。然而,世界上有很多云服务商。如果我不做,别人会做。所以,遵循这个“做必要的事,但尽可能少做”——尽可能少做——这个理念今天仍存在于我们公司。我所做的每一件事,都带着这个视角。

就云服务而言,如果我们不支持CoreWeave的存在,这些neocloud、这些AI云就不会存在。如果我们不帮助CoreWeave存在,它们就不会存在。如果我们不支持Nscale,他们就不会有今天的成就,如果我们不支持Nebius,他们也不会有今天的成就,现在他们做得非常好。

这是一个商业模式吗?我们应该做必要的事,尽可能少做。所以我们投资于我们的生态系统,因为我希望我们的生态系统蓬勃发展。我希望这种架构和AI能够连接尽可能多的行业、尽可能多的国家,并使得地球能够建立在AI之上,建立在美国技术栈之上。这个愿景正是我们正在追求的。

现在,你提到的其中一件事……有很多伟大的、了不起的基础模型公司,我们试图投资于所有公司。这是我们要做的另一件事。我们不挑选赢家。我们需要支持每个人。这是我们乐于做的事情的一部分。这对我们的业务至关重要。但我们也刻意不去挑选赢家。所以当我投资其中一家时,我会投资所有。

主持人:你们为什么刻意不挑选赢家?

黄仁勋:第一点,因为这不是我们的工作。第二点,英伟达刚起步时,有60家3D图形公司,我们是唯一幸存下来的。如果你从这60家图形公司里猜哪家能成功,英伟达最有可能被排在“不会成功”的名单首位。

这远在你之前,但英伟达的图形架构是完全错误的。不是有点错。我们创建了一个完全错误的架构,开发者不可能支持它。它永远不会成功。我们基于良好的第一原理推理,但最终得到了错误的解决方案。所有人都会把我们排除在外。而我们今天在这里。

所以我有足够的谦逊认识到这一点:不要挑选赢家。要么让它们自己照顾自己,要么照顾所有。

十一、英伟达的GPU分配遵循采购订单顺序,从不价高者得

主持人:有一点我不明白,你说:“你看,我们并不是仅仅因为它们是neocloud就优先考虑它们,想扶持它们。”但你也列举了一堆neocloud,并说没有英伟达它们就不会存在。这两者如何兼容?

黄仁勋:首先,他们需要有存在的意愿,并且来寻求我们的帮助。当他们想存在,并且有商业计划、专业知识和热情……他们显然必须自己有一些能力。但是,如果归根结底,他们需要一些投资来启动,我们会支持他们。

你的问题是:“我们想不想做融资业务?”答案是不想。有人在做融资业务,我们宁愿与所有从事融资业务的人合作,而不是自己成为融资方。我们的目标是专注于我们所做的,保持我们的商业模式尽可能简单,并支持我们的生态系统。

当像OpenAI这样的公司需要300亿美元规模的投资,因为它还在IPO之前,而我们深信他们,我深信他们会成为……嗯,他们已经是一家非凡的公司了,他们会成为一家令人难以置信的公司,世界需要他们存在,世界希望他们存在,我希望他们存在,他们顺风顺水,让我们支持他们,让他们发展。我们会做这些投资,因为他们需要我们这样做。但我们不是想做得尽可能多,我们是想做得尽可能少。

主持人:这可能是一个显而易见的问题,但我们已经生活在GPU短缺的情况下很多年了,而且因为模型越来越好,这种情况还在加剧。

黄仁勋:我们的GPU是短缺的。

主持人:是的,众所周知,英伟达分配稀缺的配额,不仅仅是基于最高出价者,而是基于:“嘿,我们希望确保这些neocloud存在。我们给CoreWeave一些,给Crusoe一些,给Lambda一些。”这对英伟达有什么好处?首先,你同意这种“碎片化市场”的描述吗?

黄仁勋:不,你的前提是错误的。我们对这些事情足够用心,我们对这些事情非常用心。首先,如果你不下采购订单,再多的口头沟通也没用。在我们拿到采购订单之前,我们能做什么?所以第一件事,我们非常努力地与每个人合作,完成预测,因为这些系统需要很长时间来构建,数据中心也需要很长时间来构建。我们通过预测等方式使供需对齐。明白吗?这是第一要务。

第二,我们试图与尽可能多的人进行预测,但最终,你还是得下订单。也许,无论出于什么原因,你没有下订单。我能怎么办?在某个节点,先到先得。但除此之外,如果你还没准备好,因为你的数据中心还没准备好,或者某些组件还没准备好让你能够建立数据中心,我们可能会决定先服务其他客户,这只是为了最大化我们自身工厂的吞吐量。我们可能会在那里做一些调整。

除此之外,优先级是先到先得,你必须下采购订单。如果你不下……当然,关于这一点有一些故事。例如,这一切都始于一篇关于Larry和Elon与我共进晚餐时恳求GPU的文章,那从未发生过,我们确实共进了晚餐,那是一顿美好的晚餐,他们从未恳求GPU,他们只需要下订单就行,一旦他们下了订单,我们会尽力把产能分配给他们,我们并不复杂。

主持人:好的,所以听起来有一个队列,然后根据你的数据中心是否准备好以及你何时下采购订单,你在特定时间拿到货。但这听起来仍然不是最高出价者就能拿到,有什么理由不这样做?

黄仁勋:我们从不那样做。

主持人:为什么不直接给出价最高的人?

黄仁勋:因为那是不好的商业实践,你设定你的价格,然后人们决定买或不买。我知道芯片行业的其他公司会在需求高时改变价格,但我们就是不这么做,这从来不是我们的做法。你可以信赖我们,我宁愿成为一个可靠的人,成为行业的基石,你不需要猜疑。如果我给你报了价,那就是报价,如果需求飙升,那就随它去。

主持人:另一方面,这就是你们与台积电保持富有成效关系的原因,对吧?

黄仁勋:是的,英伟达和他们做生意,我想快30年了。英伟达和台积电没有法律合同,总是有一些粗略的公平。有时候我对,有时候我错,有时候我得到更好的交易,有时候我得到更差的,但总的来说,这种关系是不可思议的,我可以完全信任他们。

你可以信赖英伟达的一件事是,今年的Vera Rubin会令人难以置信,明年的Vera Rubin Ultra会来,后年,Feynman会来,再后一年,我还没介绍名字,每一年你都可以信赖我们。你得去世界上找另一个ASIC团队——随便选一个你的ASIC团队——看看你能不能对他们说:“我可以把我的全部家当、我的整个生意押在你们每年都会为我服务上,你们的token成本每年会下降一个数量级,我可以像信赖时钟一样信赖你。”

我刚才对台积电说了类似的话,对于历史上任何其他代工厂,你都不可能说出这样的话。但今天你可以对英伟达这么说,你可以每年都信赖我们。如果你想购买价值10亿美元的AI工厂算力,没问题。如果你想购买1亿美元,没问题。你想购买1000万美元,或者只是一个机架,没问题。或者只是一块显卡,没问题。如果你想下价值1000亿美元的AI工厂订单,没问题。今天,我们是世界上唯一一家你能说出这样的话的公司。

我对台积电也能这么说,我想买一个,或者买十亿个,都没问题。我们只需要经过规划流程,以及所有成熟公司会做的事情。所以,我认为英伟达成为世界AI工业基石的能力,这是我们花了几十年才达到的位置。巨大的承诺,巨大的奉献,我们公司的稳定性和一致性非常重要。

十二、向中国销售芯片有助于保持美国技术栈的全球主导地位,出口管制适得其反

主持人:好的,我想问问关于中国的问题。实际上,关于向中国出售芯片是好是坏,我不知道自己怎么想,但我喜欢对嘉宾唱反调。所以当Dario来的时候(他支持出口管制),我问他,为什么不能美国和中国都在数据中心里拥有一批天才呢?但因为你站在对立面,我会用相反的方式来问你。

一种思考方式是,Anthropic实际上几天前宣布了Mythos Preview。这个模型Mythos,他们甚至不会公开发布,因为他们说它具有如此强的网络攻击能力,以至于世界还没有准备好,直到我们确保这些零日漏洞被修补好。但他们说它发现了所有主流操作系统、所有浏览器中的数千个高危漏洞。它在OpenBSD中发现了一个漏洞,这个操作系统是专门为没有零日漏洞而设计的。它发现了一个存在了27年的漏洞。

所以,如果中国公司、中国实验室和中国政府能够获得AI芯片,来训练像Claude Mythos这样具有网络攻击能力的模型,并用更多的算力运行数百万个它的实例,那么问题来了,这是否对美国公司、美国的国家安全构成威胁?

黄仁勋:首先,Mythos是在相当普通的算力水平上训练的,而且算力规模也相当普通,是由一家非凡的公司训练的。训练它所使用的算力规模和类型在中国是大量存在的,所以你首先得认识到,中国是有芯片的。

他们制造了全球60%的主流芯片,也许更多,这对他们来说是一个非常大的产业,他们拥有一些世界上最伟大的计算机科学家。如你所知,所有这些AI实验室中的大多数AI研究人员都是中国人,他们拥有全球50%的AI研究人员。那么问题是,考虑到他们已经拥有的所有资产——他们拥有充足的能源,他们有很多芯片,他们拥有大多数AI研究人员——如果你担心他们,创造一个安全世界的最佳方式是什么?

将他们视为受害者,把他们变成敌人,很可能不是最佳答案,他们是竞争对手,我们希望美国赢。但我认为,进行对话和研究方面的对话可能是最安全的做法。由于我们目前视中国为对手的态度,这个领域是明显缺失的。我们的AI研究人员和他们的AI研究人员进行交流至关重要,我们必须尝试就“不将AI用于什么”达成一致。

关于在软件中寻找漏洞,当然,这正是AI应该做的。它会在很多软件中找到漏洞吗?当然。有非常非常多的漏洞,AI软件本身也有很多漏洞。这正是AI应该做的,我很高兴AI已经达到了这样一个水平,可以帮助我们提高如此多的生产力。

有一点被低估了,那就是围绕网络安全、AI网络安全、AI安全、AI隐私和AI安全的生态系统的丰富性。有一整个AI初创公司的生态系统正在努力为我们创造这个未来,你拥有一个令人难以置信的AI Agent,周围有成千上万的AI Agent在保护它、确保它的安全,这个未来肯定会到来。

让一个AI Agent到处乱跑而没人看管的想法,有点疯狂。我们很清楚,这个生态系统需要蓬勃发展。事实证明,这个生态系统需要开源,这个生态系统需要开放模型,他们需要开放的软件栈,以便所有这些AI研究人员和所有这些伟大的计算机科学家能够构建同样强大的AI系统,并确保AI的安全。所以,我们需要确保做的一件事是保持开源生态系统的活力。这一点不容忽视。其中很大一部分来自中国,我们不应该扼杀它。

关于中国,当然我们希望美国拥有尽可能多的算力。我们受限于能源,但我们有很多人在努力解决这个问题,我们绝不能让能源成为我们国家的瓶颈。但我们同样希望的是,确保世界上所有的AI开发者都在美国技术栈上进行开发,并将AI的进步(特别是开源的进步)贡献给美国生态系统。如果创造两个生态系统:一个是只运行在外国技术栈上的开源生态系统,另一个是运行在美国技术栈上的封闭生态系统,那将是非常愚蠢的,我认为这对美国来说将是一个可怕的结果。

十三、中国拥有充足的能源、芯片产能和AI研究人员,出口管制反而加速其自主生态

主持人:回到黑客攻击所需的FLOPs差异上的担忧是:是的,他们有算力,但有一些估计认为,由于他们停留在7nm——他们没有EUV因为芯片制造出口管制——他们实际能生产的FLOPs数量,只有美国的十分之一。

那么,他们最终能否训练出像Mythos这样的模型?能,但问题是,因为我们有更多的FLOPs,美国的实验室能够首先达到这些能力水平。因为Anthropic先达到了,他们说,“好吧,我们会把它保留一个月,同时我们会让所有这些美国公司使用它。他们会修补所有漏洞,然后我们再发布。”

此外,即使他们训练出这样的模型,大规模部署它的能力……如果你有一个网络黑客,拥有100万个实例比拥有1000个实例危险得多。所以推理算力真的很重要。事实上,他们有这么多如此优秀的AI研究人员,这才是可怕的地方,因为是什么让这些工程师研究人员更有效率?是算力。

如果你和美国任何一个AI实验室交谈,他们会说限制他们的是算力。有DeepSeek创始人或通义千问领导层的引述,他们说他们受限制的是算力。那么问题是,让美国公司因为拥有更多算力而先达到Mythos级别的能力,让我们的社会为此做好准备,在中国达到之前(因为他们算力较少),这样做不是更好吗?

黄仁勋:我们应该总是第一,我们应该总是拥有更多。但为了让你描述的结果成立,你必须把它推向极端,他们必须没有算力,如果他们有一些算力,问题是多少是需要的?

他们在中国的算力总量是巨大的,你说的是世界第二大计算市场。如果他们想汇聚他们的算力,他们有大量的算力可以汇聚。

主持人:但这是真的吗?有人做估算,说“中芯国际在工艺节点上实际上是落后的。”

黄仁勋:他们拥有的能量是惊人的,对不对?AI是一个并行计算问题,不是吗?为什么他们不能因为能源几乎是免费的,就把4倍、10倍的芯片放在一起?他们有那么多能源,他们有完全空置、已通电的数据中心,他们有如此多的基础设施容量,如果他们想,他们只需把更多的芯片组合起来,即使是7nm的。

他们制造芯片的能力是世界上最大的之一,半导体行业知道他们在垄断主流芯片。他们产能过剩,产能太多,所以,认为中国将无法拥有AI芯片的想法完全是胡说八道。

当然,如果你问我,如果全世界根本没有算力,美国会不会更领先?但这不是一个结果,这不是一个真实的场景,他们已经拥有大量的算力。你所担心的那个门槛,他们已经达到了,甚至超过了。

所以我认为你误解了,AI是一个五层蛋糕,最底层是能源。当你拥有充足的能源时,它可以弥补芯片的不足。如果你拥有充足的芯片,它可以弥补能源的不足。例如,美国能源稀缺,这就是为什么英伟达必须不断推进我们的架构,进行这种极端协同设计,以便用我们运出的少量芯片——因为能源非常有限——我们的每瓦吞吐量高得离谱。

但是,如果你的瓦特数量完全充足,是免费的,你还会在乎每瓦性能吗?你会有很多。你可以用旧芯片来做。所以7nm芯片本质上就是Hopper,Hopper的能力……我得告诉你,今天的模型大部分是在Hopper、Hopper这一代上训练的,所以7nm芯片完全够用,能源的充足是他们的优势。

主持人:但问题在于他们是否能实际制造出足够的芯片。

黄仁勋:但他们能,证据是什么?华为刚刚经历了公司历史上最好的一年。

主持人:他们运出了多少芯片?

黄仁勋:很多,数百万,数百万比Anthropic拥有的多得多。

主持人:问题在于中芯国际能生产多少逻辑芯片,以及能生产多少内存。

黄仁勋:我告诉你实际情况。他们有充足的逻辑芯片,也有充足的HBM2内存。

主持人:对。但如你所知,训练和推理这些模型的瓶颈通常是带宽,所以如果你用的是HBM2……我不记得具体数字,但与你最新的产品相比,内存带宽可能存在几乎一个数量级的差异,这影响巨大。

黄仁勋:华为是一家网络公司。

主持人:但这并不能改变你需要EUV来制造最先进HBM的事实。

黄仁勋:不对,完全不对。他们可以把它们组合在一起,就像我们用NVL72做的那样,他们已经展示了硅光子技术,可以将所有这些算力连接成一个巨大的超级计算机,你的前提是错误的。

事实是,他们的AI发展进展顺利,世界上最优秀的AI研究人员,因为算力有限,他们也提出了极其聪明的算法。记住,我刚才说摩尔定律每年大约进步25%。然而,通过伟大的计算机科学,我们仍然可以将算法性能提高10倍。我的意思是,伟大的计算机科学才是杠杆所在。

毫无疑问,MoE是一个伟大的发明,毫无疑问,所有令人难以置信的注意力机制都减少了计算量。我们必须承认,AI的大部分进步来自算法进步,而不仅仅是原始硬件。现在,如果大多数进步来自算法、计算机科学和编程,那么告诉我,他们那支AI研究人员大军难道不是他们的根本优势吗?我们看到了,DeepSeek不是一个无足轻重的进步,DeepSeek首先在华为上发布的那一天,对我们国家来说是一个可怕的结果。

主持人:为什么?因为现在你可以有一个像DeepSeek这样的模型,如果它是开源的,可以在任何加速器上运行,为什么未来这种情况会改变?

黄仁勋:假设它不会改变,假设它是为华为优化的,是为他们的架构优化的,那将使我们的架构处于劣势。你描述了一个我认为是好消息的情况。一家公司开发了软件,开发了一个AI模型,并且它在美国技术栈上运行得最好,我认为那是好消息,你把它设定为坏消息的前提。我来告诉你坏消息:如果世界各地的AI模型都是在非美国硬件上开发并运行得最好,那对我们来说才是坏消息。

主持人:我想我只是没看到证据表明存在巨大的差异会阻止你切换加速器,美国的实验室正在所有云平台上、所有不同的加速器上运行他们的模型。

黄仁勋:我就是证据,你拿一个为英伟达优化的模型,然后尝试在别的上面运行。

主持人:但美国的实验室确实这么做。

黄仁勋:但它们运行得并不更好,英伟达的成功就是完美的证据,AI模型是在我们的技术栈上创建的,在我们的技术栈上运行得最好,这难道不合逻辑吗?

主持人:Anthropic的模型在GPU上运行,也在Trainium上运行,在TPU上运行。

黄仁勋:需要做很多工作才能改变,但看看全球南方,看看中东,开箱即用,如果所有的AI模型都在别人的技术栈上运行得最好,你此刻必须是在主张一个荒谬的说法,说这对美国是好事。

主持人:假设中国公司先达到下一个Mythos,他们首先在美国软件中发现所有安全漏洞,但他们可以在英伟达硬件上做到这一点,并将其输出到全球南方,他们在英伟达硬件上做,那怎么是好事?

黄仁勋:那不是好事,所以我们不要让这种事发生。

主持人:你为什么认为它是完全可以替代的,如果你不向他们运送算力,它就会被华为完全替代?他们是落后的,对吧?他们的芯片比你的差。

黄仁勋:现在就有证据,他们的芯片产业巨大。

主持人:你可以直接比较H200和华为910C之间的FLOPs、带宽或内存,大概是二分之一到三分之一。

黄仁勋:他们用更多数量,他们用两倍的数量。

主持人:你的论点似乎是,他们有这么多随时可用的能源,对吧?他们需要芯片来填充它。

黄仁勋:而且他们擅长制造。

主持人:我相信最终他们将能够超越所有人进行制造,但在这关键的几年里。

黄仁勋:你说的关键几年是什么?

主持人:未来几年,我们将拥有能够进行所有网络攻击的模型。

黄仁勋:既然如此,如果未来几年是关键,那么我们必须确保在这关键的几年里,世界上所有的AI模型都建立在美国技术栈上。

主持人:如果它们建立在美国技术栈上,那怎么能阻止它们,如果它们拥有更先进的能力,发动相当于Mythos的网络攻击呢?

黄仁勋:无论哪种方式都无法保证。

主持人:但如果你早点拥有它,我们可以做好准备。

黄仁勋:为什么让AI行业的一层失去整个市场,以便另一层受益?有五层,每一层都必须成功。最需要成功的一层实际上是AI应用层,你为什么如此执着于那个AI模型?那一家公司?出于什么原因?

主持人:因为这些模型使得这些极其强大的攻击能力成为可能,并且你需要算力来运行它们。

黄仁勋:是能源、芯片和AI研究人员的生态系统使之成为可能。

主持人:好吧,退一步说,中国必须能够建立足够的7nm产能,记住,他们仍然停留在7nm,而你将推进到3nm,然后是2nm或1.6nm,通过Feynman。所以当你在1.6nm时,他们仍将在7nm,他们必须生产足够的芯片来弥补差距。他们有如此多的能源,你给他们的芯片越多,他们拥有的算力就越多。所以问题归结为,最终他们获得了更多的算力,算力是训练和推理的输入——

黄仁勋:我只是觉得你在说绝对的话,我认为美国应该领先,美国的算力是世界其他地区总和的100倍。

英伟达制造最先进的技术,我们确保美国实验室最先听到消息,并有最先购买的机会,如果他们钱不够,我们甚至投资他们。美国应该领先,我们想做一切可能的事来确保美国领先,我们正在竭尽所能做到这一点。

主持人:但如果他们受限于算力,向中国运送芯片怎么能让美国保持领先?

黄仁勋:不,我们有给美国的Vera Rubin,现在,我算不算在美国?你认为我是美国的一部分吗?

主持人:是的。

黄仁勋:你认为英伟达是一家美国公司吗?第一,为什么我们不想出一个更平衡的法规,让英伟达能够在全球获胜,而不是放弃全球市场?你为什么想让美国放弃全球市场?

芯片产业是美国生态系统的一部分,它是美国技术领先地位的一部分,它是AI生态系统的一部分,它是AI领先地位的一部分,为什么你的政策、你的理念会导致美国放弃世界市场的巨大份额?

主持人:我想这里的主张是……Dario有一句引言,他说这就像波音吹嘘我们向朝鲜出售核弹,但导弹外壳是波音制造的。这在某种程度上是在支持美国的技术栈,本质上,你在给他们这种能力。

黄仁勋:将AI与你刚才提到的任何东西相比,都是疯狂的。

主持人:但AI类似于浓缩铀,对吧?它可以有正面用途,也可以有负面用途,我们仍然不想把浓缩铀送到其他国家。

黄仁勋:谁在发送浓缩铀?

主持人:这个类比是,浓缩铀就像算力。

黄仁勋:这是一个糟糕的类比。这是一个不合逻辑的类比。

主持人:但如果这些算力可以运行一个能够对美国所有软件进行零日漏洞利用的模型,那怎么不是一种武器?

黄仁勋:首先,解决这个问题的方法是,与研究人员对话,与中国对话,与所有国家对话,确保人们不以那种方式使用技术。

第二点,我们还需要确保美国领先,Vera Rubin、Blackwell在美国大量供应,堆积如山。显然,我们的结果会证明这一点。大量供应,巨量供应。我们拥有的算力很棒。我们这里有很棒的AI研究人员,这很好,我们应该保持领先。

然而,我们也必须认识到,AI不仅仅是一个模型,AI是一个五层蛋糕,AI行业的每一层都很重要,我们希望美国在每一层都获胜,包括芯片层。放弃整个市场不会让美国长期在技术竞赛中赢得芯片层、赢得计算栈,这是一个事实。

主持人:我想问题的关键在于,现在向他们出售芯片如何帮助我们在长期获胜?特斯拉长期以来向中国销售极好的电动汽车。iPhone在中国销售,极好。它们并没有导致他们被锁定,中国仍然会制造他们自己的电动车版本,并且他们正在主导市场,他们的智能手机正在主导市场。

黄仁勋:我们今天开始对话时,你承认英伟达的地位非常不同。你用了“护城河”这样的词,对我们公司来说,最重要的事情是我们生态系统的丰富性,这关乎开发者,50%的AI开发者在中国,美国不应该放弃这一点。

主持人:但我们在美国有很多英伟达开发者,这并不妨碍美国实验室未来也能够使用其他加速器。事实上,他们现在也在使用其他加速器,这没问题,很好。我不明白为什么在中国情况会不同,如果你向他们出售英伟达芯片,就像谷歌可以使用TPU和英伟达一样。

黄仁勋:我们必须不断创新,而且你可能知道,我们的份额在增长,而不是在减少。即使我们在中国竞争,我们也会失去那个市场的这个前提……你不是在和一个醒来就是输家的人说话,这种失败者的态度,失败者的前提,对我来说毫无意义。

我们不是汽车,我今天可以买这个品牌的车,明天用另一个品牌的车,很容易。计算不是这样的,x86交易的存在是有原因的,Arm如此粘性是有原因的。这些生态系统难以替代,需要花费大量的时间和精力,大多数人不想这样做。所以我们的工作是继续培育这个生态系统,不断推进技术,以便我们能够在市场竞争。

基于你描述的前提放弃一个市场,我根本无法认同,这毫无意义。因为我不认为美国是输家,我们的行业不是输家,那种失败的主张,那种失败者的心态,对我来说毫无意义。

主持人:我的想法在于不是存在某个算力的关键阈值,而是任何边际算力都是有帮助的,所以如果你有更多算力,你就可以训练更好的模型。

黄仁勋:而我只是想让你承认,对美国技术产业来说,任何边际销售都是有益的。

主持人:如果运行在这些芯片上的AI模型具备网络攻击能力,或者这些芯片正在训练具有网络能力的模型并运行更多这些模型的实例,它不是核武器,但它促成了一种武器。

黄仁勋:你使用的逻辑,你大可以对微处理器和DRAM说同样的话,你大可以对电力说同样的话。

主持人:但事实上,我们确实对制造最先进DRAM的相关技术实行出口管制。我们对所有种类的芯片制造材料都有针对中国的出口管制。

黄仁勋:我们向中国出售大量的DRAM和CPU,我认为这是正确的。

主持人:我想这又回到了根本问题:AI是否不同?如果你拥有那种能在软件中找到零日漏洞的技术,这是否是我们希望尽量减少中国率先达到、广泛部署的能力?

黄仁勋:我们希望美国领先。我们可以控制这一点。

主持人:如果芯片已经在那里,他们正在用它们训练那个模型,我们如何控制?

黄仁勋:我们有大量的算力,我们有大量的AI研究人员,我们正在尽可能快地竞赛。

主持人:再说一次,我们拥有的核武器比任何人都多,但我们不想把浓缩铀送到任何地方。

黄仁勋:我们不是浓缩铀,我们是一个芯片,而且是一个他们自己能制造的芯片。

主持人:但他们向你购买是有原因的。我们有中国公司创始人的引述,说他们受限于算力。

黄仁勋:因为我们的芯片更好,总体而言,我们的芯片更好,这是毫无疑问的。如果没有我们的芯片……你能承认华为度过了创纪录的一年吗?你能承认一大批芯片公司已经上市了吗?你能承认吗?

你能否也承认,我们曾经在那个市场占有非常大的份额,而现在我们不再拥有那么大的份额?我们还可以承认,中国大约占世界科技产业的40%。为美国科技产业放弃那个市场,是对我们国家的伤害,这是对我们国家安全的伤害,这是对我们技术领先地位的伤害,这一切只为了一个公司的利益,这对我来说毫无意义。

主持人:我想我有点困惑,感觉你在做两种不同的陈述,一是,如果我们被允许竞争,我们将在与华为的竞争中获胜,因为我们的芯片会好得多。二是,无论如何,没有我们,他们也会做同样的事情。这两者怎么能同时为真呢?

黄仁勋:这显然是真的,在没有更好选择的情况下,你会接受你唯一的选择,这怎么不合逻辑了?这太合逻辑了。

主持人:他们想要英伟达芯片的原因是它们更好,更好意味着更多算力,更多算力意味着你可以训练更好的模型。

黄仁勋:不,只是更好。更好是因为它更容易编程,我们有更好的生态系统,但无论更好是什么……当然我们会给他们算力,那又怎样?事实是,我们得到了好处。别忘了,我们得到了美国技术领先地位的好处。我们得到了开发者在美国技术栈上工作的好处。我们得到了好处,随着那些AI模型扩散到世界其他地方,美国技术栈因此成为最佳选择,我们可以继续推进和扩散美国技术,我相信这是积极的,这是美国技术领先地位非常重要的一部分。

现在,你所倡导的政策导致了美国电信行业基本上被政策排挤出世界,以至于我们不再控制自己的电信,我不认为那是明智的,这有点狭隘,并导致了意想不到的后果,我此刻正在向你描述的这些后果,你似乎很难理解。

主持人:好吧,似乎关键是有一个潜在的收益和一个潜在的成本。我们想弄清楚的是,收益是否值得成本,我想让你承认这个潜在的成本。算力是训练强大模型的输入,强大的模型确实具有强大的攻击能力,比如网络攻击。美国公司先达到Mythos级别的能力是件好事,然后他们现在会暂时保留这些能力,以便美国公司和美国政府能够在那样的能力被宣布之前,让他们的软件得到更好的保护。

如果中国拥有更多算力或更多汇聚的算力,如果他们能够更早地制造出Mythos级别的模型并广泛部署,那将是非常糟糕的。这之所以没有发生,原因之一是我们有更多的算力,这要感谢像英伟达这样的美国公司。这是将其运送到中国的成本。那么,让我们暂时把收益放在一边。你承认这是一个潜在的成本吗?

黄仁勋:我也会告诉你,潜在的成本是,我们让AI栈中最重要的层之一,芯片层,放弃了整个市场——世界第二大市场——以便他们能够发展规模,发展自己的生态系统,以便未来的AI模型以与美国技术栈截然不同的方式得到优化。随着AI扩散到世界其他地方,他们的标准、他们的技术栈将变得比我们的优越,因为他们的模型是开放的。

主持人:我想我只是足够相信英伟达的内核工程师和CUDA工程师,认为他们可以优化——

黄仁勋:AI不仅仅是内核优化,你知道的。

主持人:当然,但你可以做很多事情,从蒸馏到一个非常适合你芯片的模型。

黄仁勋:我们会尽最大努力。

主持人:你们拥有完整的软件生态,即便中国暂时有更好的开源模型,行业也不会长期锁定在中国生态上。

黄仁勋:事实上中国是世界上开源软件的最大贡献者、中国是世界上开放模型的最大贡献者,今天它建立在美国技术栈上,英伟达的技术栈上。

AI技术栈的所有五层都很重要,美国应该去赢得全部五层。它们都很重要,当然,最重要的一层是AI应用层,那个扩散到社会中、使用最多的层将从这场工业革命中受益最多。但我的观点是,每一层都必须成功。

如果我们吓唬这个国家,让人民认为AI是某种核弹,以至于每个人都讨厌AI,每个人都害怕AI,我不知道你如何帮助美国,你在帮倒忙。如果我们因为AI会扼杀所有软件工程工作而吓跑所有人不去做软件工程——结果我们没有软件工程师——我们在帮美国的倒忙。

如果我们因为计算机视觉完全免费,没有AI会比放射科医生做得更差,而吓跑所有人不去做放射科,以至于没人想当放射科医生,我们就是从根本上混淆了工作和任务的区别。放射科医生的工作是患者护理,任务是读片。如果我们如此深刻地误解这一点,吓跑所有人不去上放射科学校,我们就会没有足够的放射科医生,也就没有足够好的医疗保健。

所以我在论证,当你提出一个如此极端的前提时,一切从零变成无穷大,我们最终以一种不真实的方式吓到了人们。生活不是那样的。我们希望美国是第一吗?当然,我们需要在那个技术栈的每一层都成为领导者吗?当然需要。今天你在谈论Mythos,因为Mythos很重要,当然,那很棒。

但几年后,我向你做出预测,当我们希望美国技术栈,希望美国技术扩散到世界各地——到印度、到中东、到非洲、到东南亚——当我们的国家希望出口,因为我们希望出口我们的技术,我们希望出口我们的标准时,在那一天,我希望你和我能再次进行同样的对话。我会准确地告诉你今天对话的内容,你的政策和你的想象如何毫无充分理由地导致美国放弃了世界第二大市场。

我们不应该放弃它,如果我们输了,那就输了,但我们为什么要放弃?现在没有人主张全有或全无,没有人主张全有或全无,意味着我们随时向中国运送一切,没有人主张那样。我们应该始终把最好的技术留在这里,我们应该始终把最多的技术留在这里,并且最先得到。但我们也应该努力在全球竞争和取胜,这两件事可以同时发生。这需要一些细微差别,一些成熟度,而不是绝对化。世界不是绝对化的。

主持人:好的,论点取决于这一点。他们构建了针对他们几年后能制造的最好芯片进行优化的模型,这些芯片被出口到世界各地,这就设定了标准。由于EUV出口管制,如我们所说,你将推进到1.6nm。几年后,他们仍将停留在7nm。

从国内来看,他们可能会倾向于,“我们有这么多能源,可以大规模制造。我们仍将使用7nm。”但在出口方面,他们的7nm芯片必须与你们的1.6nm芯片竞争。他们的模型必须对7nm进行如此深入的优化,以至于在他们的7nm上运行他们的模型比在你们的1.6nm上运行他们的模型更好。

黄仁勋:那我们看看事实好吗?Blackwell的光刻技术比Hopper先进50倍吗?是50倍吗?差远了,我一遍又一遍地说,摩尔定律已死,从Hopper到Blackwell,仅就晶体管本身而言,姑且说是75%,相差三年,75%,Blackwell是Hopper的50倍。

我的观点是,架构很重要,计算机科学很重要,半导体物理也很重要,但计算机科学很重要。AI的影响主要来自计算栈,这就是为什么CUDA如此有效,为什么CUDA如此受喜爱。它是一个生态系统,一个计算架构,允许如此大的灵活性,以至于如果你想完全改变一个架构——创造出像MoE这样的东西,像扩散模型这样的东西,解耦的东西——你都可以做到,很容易做到。

所以,事实是,AI关乎上层的软件栈,正如它关乎底层的架构一样。就我们拥有针对我们技术栈、我们生态系统进行优化的架构和软件栈而言,这显然是有利的,因为我们今天开始对话时就谈到了英伟达的生态系统有多么丰富。为什么人们总是喜欢首先为CUDA编程?他们确实如此,他们确实如此,中国的研究人员也是如此。

但是,如果我们被迫离开中国,首先,这是一个政策错误,显然它会产生反作用,它对美国产生了不利影响,推动并加速了他们的芯片产业,它迫使他们所有的AI生态系统专注于他们内部的架构。现在还不算太晚,但无论如何,这已经发生了。

你将看到,在未来,他们显然不会停留在7nm。他们擅长制造。他们将从7nm继续前进。那么,5nm和7nm之间有10倍的差距吗?答案是否定的,架构很重要,网络很重要。这就是为什么英伟达收购了Mellanox。网络很重要,能源很重要,所有这些都很重要,不像你试图简化的那样简单。

十四、英伟达不会轻易回到旧工艺节点,但极端情况下会考虑

主持人:我们之前讨论了台积电、内存等方面的瓶颈。那么,如果我们处于这样一个世界,你已经占据了N3节点的大部分产能——在某个时候你会进入N2节点,并成为那里的产能主力——你是否认为你可以回到N7,利用较旧工艺节点的闲置产能,并说:“AI的需求如此之大,而我们扩展前沿节点的能力无法满足它,所以我们要制造一个Hopper或Ampere,但用上我们今天所知道的关于数值格式的一切以及你描述的所有其他改进”?你认为这种情况会在2030年之前发生吗?

黄仁勋:没有必要,原因是,每一代架构不仅仅是晶体管尺寸,你做了大量的工程、封装和堆叠,还有数值格式和系统架构。

当你产能耗尽时,想轻易回到另一个节点……那种研发水平没人负担得起。我们能够负担得起向前迈进,我不认为我们能负担得起回头,现在,如果世界只是说……如果有一天,我们做个思想实验,那天我们意识到,“听着,我们再也不会有更多产能了。” 我会回头使用7nm吗?毫不犹豫,我当然会。

主持人:我交谈过的一个人有一个问题:为什么英伟达不同时运行多个不同架构的芯片项目?你可以做类似Cerebras那样的晶圆级集成,你可以做类似Dojo那样的巨大封装,你可以做一个没有CUDA的。你有资源和工程人才并行做所有这些,那么,考虑到AI和架构可能走向何方,为什么把所有的鸡蛋放在一个篮子里?

黄仁勋:哦,我们可以。只是我们没有更好的主意,我们可以做所有那些事情,只是它们不是更好的选择。我们在模拟器里模拟了所有,结果证明更差,所以我们不会做,我们正在做的正是我们想做的项目。如果工作负载发生巨大变化——我不是指算法,我指的是实际的工作负载,这取决于市场的形态——我们可能会决定增加其他加速器。

例如,最近我们增加了Groq,我们将把Groq整合到我们的CUDA生态系统中。我们现在这样做,是因为token的价值已经变得如此之高,以至于可以对token进行不同的定价。在过去,就在几年前,token要么免费,要么几乎不贵。但现在你可以有不同的客户,这些客户想要不同的答案,因为客户赚了这么多钱——例如,我们的软件工程师——如果我能给他们响应更快的token,让他们比现在更高效,我愿意为此付费。

但这个市场只是最近才出现,所以我认为我们现在有能力根据响应时间对同一个模型进行不同的细分。这就是为什么我们决定扩展帕累托前沿,创建一个响应时间更快的推理细分市场,即使其吞吐量较低。直到现在,更高的吞吐量总是更好的。我们认为可能存在一个世界,其中有非常高ASP的token,即使工厂的吞吐量较低,ASP也能弥补。

这就是我们这样做的原因,否则,从架构的角度来看,如果我有更多的钱,我会把更多的钱投在英伟达的架构后面。

主持人:我认为这种极其昂贵的token以及推理市场的解耦想法非常有趣。

黄仁勋:它的细分市场。

十五、即使没有深度学习革命,英伟达的加速计算使命依然能使其成为大公司

主持人:假设深度学习革命没有发生,英伟达会做什么?

黄仁勋:加速计算,我们一直在做的事情。我们公司的前提是,摩尔定律将会……通用计算对很多事情有好处,但对很多计算来说并不理想。

所以我们结合了一种叫做GPU的架构,CUDA,和一个CPU,这样我们可以加速CPU的工作负载。不同的代码内核或算法可以卸载到我们的GPU上。因此,你将一个应用程序加速100倍、200倍。哪里可以用到?显然是工程、科学和物理、数据处理、计算机图形、图像生成,各种领域。即使今天没有AI,英伟达也会非常非常大。

原因很根本,那就是通用计算继续扩展的能力基本上已经到头了。而唯一的办法……不是唯一的办法,但办法之一是通过特定领域的加速。我们开始的一个领域是计算机图形,但还有许多其他领域,各种都有。粒子物理和流体、结构化数据处理,所有不同类型、能从CUDA中受益的算法。

我们的使命确实是,将加速计算带给世界,并推进通用计算无法完成的各种应用,并将其扩展到能够帮助突破某些科学领域的能力水平。早期的一些应用是分子动力学、能源勘探的地震处理、当然还有图像处理,所有这些通用计算效率太低而无法胜任的领域。

如果没有AI,我会非常难过。但是,由于我们在计算方面取得的进步,我们民主化了深度学习。我们让任何地方的研究人员、科学家、学生都能使用一台PC或一块GeForce扩展卡来做了不起的科学,那个基本承诺没有改变,一点都没有。

如果你看GTC大会,有整个开头部分,没有一个是关于AI的。整个部分,比如计算光刻,或者我们的量子化学工作,数据处理工作,所有这些东西都与AI无关。它们仍然非常重要。我知道AI非常有趣且令人兴奋,但也有很多人正在做大量非常重要的、与AI无关的工作,张量并不是你计算的唯一方式,我们希望帮助每个人。