最新MLPerf 3.0测试结果出炉！英伟达再霸榜，首秀L4 GPU，创企发力边缘AI

芯东西（公众号：aichip001）
编译 | 段祎
编辑 | Panken

芯东西4月6日消息，昨日，据福布斯报道，全球机器学习工程联盟MLCommons基于权威AI基准评测MLPerf 3.0发布最新测试结果，美国人工智能训练芯片巨头英伟达又一次在性能对比中超越竞争对手。

英伟达及其合作伙伴在MLPerf 3.0中运行并提交了基准测试，包括图像分类、对象检测、推荐、语音识别、NLP（自然语言处理）和3D分割。英伟达指出，许多客户需要一个多功能的AI（人工智能）平台，该平台主要适用于数据中心环境，许多像图像分类或检测的边缘AI应用仅使用一种或两种AI模型。

这一轮MLPerf的新测试成员分别是致力于边缘图像分类和数据中心的美国机器学习初创公司SiMa.ai和美国AI解决方案提供创企Neuchips。

MLCommons每6个月发布新一轮人工智能推理处理基准测试。

最新MLPerf 3.0测试结果出炉！英伟达再霸榜，首秀L4 GPU，创企发力边缘AI

▲全球机器学习工程联盟MLCommons（图源：福布斯）

一、英伟达H100 GPU性能提高54%，L4 Tensor Core GPU速度快上一代4倍

虽然目前没有针对（超）大型语言模型（例如GPT或LaMDA）的基准，但MLCommons执行董事David Kanter说，MLCommons正在制定一个新的基准，该基准将测试最近人工智能领域的一亿级参数模型的训练、性能和功耗。即使测试结果还要等待六个月，当前的BERT基准对于评估从GPT-3等模型中提取的较小型语言模型的平台仍然非常有用。英伟达H100拥有一个在MLPerf 3.0基准测试中主导BERT的Transformer引擎。

英伟达在其最新产品H100、L4和Jetson AGX Orin上运行基准测试。虽然英伟达2周前在GTC上宣布的H100 NVL并不在此次测试范围内，但预计H100 NVL对运行像ChatGPT这样的大型模型推理性能或许仍然保持在较高水平。

与往常一样，英伟达运行了所有MLPerf基准测试，包括通过网络将模型数据提供给服务器，而不是将参数加载到系统中的新网络模型。英伟达H100 Tensor Core GPU在每次AI推理测试中都展现出最高性能。得益于软件优化，该GPU的性能比去年9月份首次亮相时提高了54%。英伟达拥有比硬件工程师更多的软件工程师是有原因的。

最新MLPerf 3.0测试结果出炉！英伟达再霸榜，首秀L4 GPU，创企发力边缘AI

▲英伟达H100产品性能（图源：福布斯）

新的英伟达L4 Tensor Core GPU在MLPerf测试中首次亮相，其速度是上一代T4 GPU的3倍以上。随着时间的推移，更新的软件在性能提升方面发挥着重要作用。L4 Tensor Core GPU采用PCIe接口，可运行所有MLPerf工作任务，符合英伟达的理念，即客户需要一个多功能且灵活的AI平台。这些GPU支持FP8格式，这对于其在BERT NLP模型上获得最佳性能至关重要。

最新MLPerf 3.0测试结果出炉！英伟达再霸榜，首秀L4 GPU，创企发力边缘AI

▲英伟达新的L4推理结果与T4速度比较图（图源：福布斯）

在对性能要求高的边缘AI芯片市场，英伟达芯片测试的结果排名仍然位于前列。与一年前的结果相比，英伟达Jetson AGX Orin系统级模块的能效提高了63%，性能提高了81%。Jetson AGX Orin可在密闭空间以低功率水平（包括电池供电的系统）为AI需求提供推理。

最新MLPerf 3.0测试结果出炉！英伟达再霸榜，首秀L4 GPU，创企发力边缘AI

▲各公司MLPerf 3.0测试结果概览（图源：福布斯）

二、创企Deci优化AI模型，节省68%推理成本

以色列机器学习初创公司Deci为美国电脑软件公司Adobe等公司提供ML（机器学习）优化服务。Deci所做的有点类似于美国EDA领导者Synopsys（新思科技）为改进芯片设计所做的工作，Deci应用AI来优化给定模型、数据和目标运行时芯片的AI模型。

Deci在英伟达A30、A100和H100 GPU上提供了最佳的自然语言处理（NLP）吞吐量效率，优于BERT中绝大多数的其它测试者。Deci在A100上的吞吐量比英伟达H100 GPU上的其他结果高出1.7倍。这意味着ML团队可以节省大约68%的推理成本，同时提高模型的速度和准确性。且该优化过程是自动的，并有硬件合作伙伴包括英伟达、英特尔、亚马逊云科技，以及许多系统供应商，如HPE等客户公司证明优化过程确实有效。

最新MLPerf 3.0测试结果出炉！英伟达再霸榜，首秀L4 GPU，创企发力边缘AI

▲Deci为英伟达 A100、H100 GPU提供出色的模型优化（图源：福布斯）

三、创企SiMa.ai构建嵌入式平台，图像分类能效高英伟达47%

虽然英伟达GPU提供了行业领先的性能，但这种性能领先除了高昂的购买成本外还需要付出功耗的代价。功率对于边缘推理很重要，美国人工智能边缘数据中心和无线电融信技术研发公司Qualcomm（高通）和嵌入式AI边缘计算创企SiMa.ai都重视减少功耗。尽管二者都涉及“边缘”业务，但这两家公司并没有真正的竞争关系。SiMa.ai的产品副总裁Gopal Hegde说：“我们从未在任何潜在对手中遇到过高通。”

高通的Cloud AI100为超过25个服务器平台提交了320个结果，在同类产品中的能效、延迟和吞吐量方面均处于业界最佳水平。随着时间的推移，软件优化的重要性得到了证明，自3年前开始这一旅程以来，高通的芯片已经实现了75%的性能和52%的能效提升。面对高通的性能提升，相关人士希望SiMa能够在每次发布TVM后端软件时也能不断提高性能。

MLPerf 3.0结果包括开放任务的新基准、通过网络进行模块修剪的BERT Large，其准确率达到100%，性能比其封闭部门提交的高2.8倍。MLPerf的开放业务允许所有类型的技巧和更改，只要达到准确度即可。

最新MLPerf 3.0测试结果出炉！英伟达再霸榜，首秀L4 GPU，创企发力边缘AI

▲高通功率优化数据中心成就（图源：福布斯）

SiMa.ai专注于智能视觉、机器人、制造、无人机或汽车等应用的嵌入式边缘AI。嵌入式边缘AI的目标是使这些设备能够在本地执行复杂的数据处理和分析，而无需将数据发送到远程服务器或云进行处理。这可以提高数据处理的速度和效率，减少延迟，并实现实时决策。

最新MLPerf 3.0测试结果出炉！英伟达再霸榜，首秀L4 GPU，创企发力边缘AI

▲SiMa.ai在15W功率下的图像处理（图源：福布斯）

嵌入式边缘人工智能的一些例子包括可以理解和响应用户命令的语音助手、可以检测异常和触发警报的传感器，以及可以实时识别和响应周围环境的自动驾驶汽车。

为了满足客户的电力需求，SiMa.ai必须从头开始设计边缘AI芯片，缩小数据中心中AI芯片的规模是行不通的。因此SiMa.ai从头开始将MLSoC芯片构建为嵌入式平台。在MLPerf 3.0第一轮性能测试中，SiMa.ai在图像分类方面比英伟达Jetson AGX Orin能效高出47%。

四、优化MLPerf测试基准，助力产品性能测试多样化

英伟达再一次在性能上获胜，但在边缘数据中心和嵌入式边缘等功率受限场景中面临着日益激烈的竞争，高通和SiMa.ai在这些场景中取得了胜利。英伟达拥有的软件工程师数量远远超过许多竞争对手的员工数量，而且这些工程师继续为每一代芯片中提升更多性能，尤其是在数据中心和需要灵活运行许多模型的边缘应用程序中。

值得注意的是，亚马逊云计算芯片、AMD数据中心GPU（如Instinct MI250）、谷歌TPU、特斯拉和英特尔的AI芯片都没有出现在MLPerf 3.0测试名单中，初创公司Cerebras、Graphcore、Groq和Samba Nova也是如此。我们很难想象这些公司对展示他们在最新硬件上运行最新模型的表现不感兴趣。

那么，如何让这些供应商也对这一测试产生兴趣呢？一种可能的方法是通过新的MLCommons集体知识挑战让社区运行和提交基准、模型和学习，以运行、复制和优化由cTuning基金会和cKnowledge Ltd领导的MLPerf推理v3.0基准。

美国AI解决方案提供商Collective Knowledge的创始人Grigori Fursin说：“来自美国硬件AI开发商Neural Magic、高通、Krai、cKnowledge、cTuning、DELL（戴尔）、HPE、Lenovo（联想）、Hugging Face、英伟达和苹果等公司使用的PyTorch、ONNX、QAIC、TF/TFLite、TVM和TensorRT，云提供商（GCP、AWS、Azure）跨不同的（CPU、GPU 和 DSP ) 以及由CK用户和贡献者提供的个人服务器和边缘设备开源CK技术已帮助各AI芯片公司自动化、统一和复制超过80%的所有提交结果和98%的功率结果，具有非常多样化的技术和基准实现。”

如果这一策略奏效，并且随着TPU、亚马逊云计算芯片和AMD等新芯片的后端实现，消费者能在有效的测试比较中看到这些边缘AI技术的爆炸式增长，这对于使用AI技术的所有用户和购买者是有利的。

在六个月后的VLLM基准竞赛中，也许现在与ChatGPT和新的CK playground及其竞争对手一起摆在桌面上的巨额资金将使更多公司的硬件产品性能变得更加清晰。

结语：英伟达AI推理测试总体性能最强，机器学习创企实力不逊

作为全球权威的AI基准评测MLPerf 3.0，其每隔6个月发布的各大AI公司产品性能评测结果受到业内人士广泛关注。根据此次推理基准测试结果，英伟达H100 GPU、L4 Tensor Core GPU、Jetson AGX Orin在性能、速度和能效上均表现优异，在至关重要的AI训练芯片市场，英伟达仍保持其领导地位。

值得关注的是，以色列机器学习初创公司Deci和美国机器学习初创公司SiMa.ai在此次测试中表现出不逊色的实力，Deci优秀自然语言处理吞吐量效率提高了AI模型的速度和准确性，节省了推理成本，SiMa.ai在图像分类领域具有强大的低功耗性能。这些机器学习创企的技术进步推动着边缘AI模型应用的发展。

来源：福布斯

一、英伟达H100 GPU性能提高54%，L4 Tensor Core GPU速度快上一代4倍

二、创企Deci优化AI模型，节省68%推理成本

三、创企SiMa.ai构建嵌入式平台，图像分类能效高英伟达47%

四、优化MLPerf测试基准，助力产品性能测试多样化

结语：英伟达AI推理测试总体性能最强，机器学习创企实力不逊

相关推荐