芯东西(公众号:aichip001)
编译 | 段祎
编辑 | Panken

芯东西3月23日消息,据Tom’s Hardware报道,近日,美国人工智能训练芯片巨头英伟达CEO黄仁勋在GTC大会上就其即将推出的基于Arm架构的Grace CPU延迟发货一事向Tom’s Hardware的记者Paul Alcorn做出了解释,称芯片延迟发布是正常情况,且由于此次研制的Grace芯片添加了许多创新设计,工作量增大,相应的制造时间有所延长。

在本周二的GTC大会上,黄仁勋首次展示了基于Arm架构的Grace芯片,该芯片在仅使用60%的功率下比基于x86架构的芯片快1.3倍。并且Grace CPU和Hopper GPU的新设计可以让芯片实现速度和效率兼顾的共享内存中保存的信息,同时速度是PCIe接口的七倍。

一、推迟发布是正常现象,基于Arm架构带来更大工作量

谈及Grace CPU和Grace Hopper Superchip系统延迟交付终端市场的问题。他解释道:“Grace和Grace Hopper都在生产中,‘硅片现在正在工厂里飞来飞去’。系统正在制作中,我们发布了很多公告。世界上的原始设备制造商(OEM)和计算机制造商正在构建它们。”黄仁勋还说,英伟达只用了两年的时间来开发芯片,考虑到现代芯片通常需要多年的设计周期,这个时间相对较短。

Grace CPU推迟至下半年发布,60%功率下性能提升1.3倍!

▲Grace CPU(图源:Tom’s Hardware)

此前,美国芯片制造巨头AMD和英特尔开发的CPU在芯片量产上市前就会被部署到超大规模计算的设备上,不过,目前英伟达Grace芯片是否已经提供给客户使用还是未知的,黄仁勋透露他们正在向客户提供芯片样品。

一般而言,像英特尔这样的企业,也经常会延迟推出芯片,即便是基于其几十年来成熟的在硬件和软件平台占主导地位的x86架构构建芯片,推出新芯片的难度也并不小。

相比之下,英伟达的Grace和Grace Hopper芯片在芯片设计方面注入了许多的全新思考,它采用了创新的芯片间互连技术。英伟达使用Arm指令集也意味着软件优化和迁移的工作更重,该公司需要构建一个全新的平台来生产该芯片。

二、Grace芯片消耗60%功率,数据处理速度快一倍多

黄仁勋在他的其余回应中提到了关于芯片设计思考的一些内容,他说:“我们从Superchips(超级芯片)而不是chiplet(小芯片)开始,是因为我们想要构建的东西很大,不过这两种产品现在都在生产中。英伟达正在做很多测试,软件也正在被迁移到芯片,同时英伟达向客户提供芯片样品。在会上,我用确切的数字展示了Grace芯片的各大性能优势,但我不想堆砌数字来增加演讲的负担,但芯片的性能真的非常棒。”

在问答环节中,黄仁勋声称该芯片在HiBench Apache Spark内存密集型基准测试中比下一代x86服务器芯片数据处理速度快1.2倍,在谷歌微服务通信基准测试(Google microservices communication benchmark)中快1.3倍,同时只消耗了60%功率。

他说这允许数据中心将1.7倍以上数量的Grace芯片部署到功率受限的装置中,每台服务器的吞吐量提高了25%。他还说Grace在计算流体动力学 (CFD)工作负载方面的速度提高了1.9倍。

三、为云计算、AI定制芯片,兼具低功耗、高性能

Grace芯片在某些应用场景中虽然表现出超强的性能和效率,但英伟达并没有计划将它们定位到通用服务器市场。该公司针对特定使用场景定制了芯片,例如人工智能和云计算场景,这些场景需要支持卓越的单线程和内存处理性能以及出色的能效。

黄仁勋告诉说:“现在几乎每个数据中心都受到功率限制,我们设计的Grace在功率受限的环境中表现出色”,“在那种情况下,你必须既有非常高的性能,又必须有非常低的功率,而且效率也要非常高。因此,与最新一代CPU相比,Grace系统的功率/性能效率大约高其两倍。”

Grace CPU推迟至下半年发布,60%功率下性能提升1.3倍!

▲相同功耗下,英伟达Grace CPU性能比较图(图源:Tom’s Hardware)

“而且它是针对不同的场景而设计的,所以这是非常好理解的。”黄仁勋继续说道,“例如,我刚才描述的内容对大多数企业来说并不重要。但它对提供云服务的企业来说很重要,对电力消耗大的数据中心也很重要。”

能源效率比以往任何时候都更受关注,黄仁勋说,他们最近评测过的AMD EPYC Genoa和英特尔的Sapphire Rapids等芯片的功率现在分别达到400瓦和350瓦。这需要特殊的新空气冷却解决方案来控制标准设置下的巨大功耗,并为达到芯片的最高性能提供液体冷却。

相比之下,Grace的低功耗将使芯片更容易冷却。正如GTC大会上首次展示的那样,英伟达的144核Grace封装为5英寸x8英寸,可以装入体积非常小的被动冷却模块中。这些模块仍然依靠空气冷却,但两个模块可以在单个超薄的1U机箱中进行空气冷却。

四、同时嵌入CPU、GPU,芯片间互联速度快7倍

英伟达还在GTC大会上首次展示了其Grace Hopper 超级芯片。Superchip在同一个封装上结合了Grace CPU和Hopper GPU,这两个模块就可以装入一个服务器机箱中。

Grace CPU推迟至下半年发布,60%功率下性能提升1.3倍!

▲Grace Hopper(图源:Tom’s Hardware)

这种设计的最大优势是使CPU与GPU的结合更连贯协调,提供更低延迟的芯片与芯片之间的连接,其接口速度是PCIe接口的七倍,之前的设计无法实现速度和效率兼顾以共享内存中保存的信息,而现在CPU与GPU的结合成功解决了这一问题。

黄仁勋解释说,这种方法非常适合人工智能、数据库、推荐系统和大型语言模型(LLM),所有这些对这项具有新设计的芯片都有着巨大的需求。采用新设计的Grace芯片通过允许GPU直接访问CPU的内存,简化了数据传输以提高性能。

英伟达的Grace芯片可能有点落后于其此前制定的发布计划,由于芯片制造商和原始设备制造商(OEM)在供应链中的关系,芯片制造商设计芯片并将设计方案交付给OEM,英伟达和华硕、Atos、技嘉、HPE、Supermicro、QCT、Wiston和Zt密切合作,这些合作伙伴都在为市场准备OEM系统,OEM系统现在预计将在今年下半年推出,但英伟达尚未说明给到这些合作伙伴芯片的确切时间。

结语:Grace芯片性能优势显著,推迟发布影响较小

各大芯片公司新芯片的研发通常需要较长的时间周期,再加上运输链和设计难度的影响,这些公司往往会被迫推迟芯片发布时间。对英伟达此次基于Arm架构的Grace芯片发布延迟,黄仁勋依旧持乐观态度,对外只是戏称“硅”正在工厂“起飞”,预计今年下半年正式推出Grace芯片。

据黄仁勋介绍,此次Grace芯片仅在60%的低能耗下,速度就能简单超越下一代x86芯片。同时,Grace的低功耗将使芯片更容易冷却。Grace CPU和Hopper GPU的新设计可以实现共享内存中保存的信息,增强了CPU+GPU内存一致性。相比市面上现有的芯片,英伟达的Grace芯片性能优势明显,尽管此次新芯片延迟发货,但对英伟达影响似乎并不大,我们拭目以待下半年Grace芯片发布。

来源:Tom’s Hardware