MLPerf最新AI芯片跑分：谷歌TPU和英伟达Tesla V100打破记录

智东西（公众号：zhidxcom）
编 | 韦世玮

导语：昨日，MLPerf基准测试公布了最新的测试结果，其中谷歌云和英伟达的硬件均打破以往AI训练测试的记录，展现了它们在训练人工智能方面的强大性能。

智东西7月11日消息，昨日，MLPerf基准联盟公布了最新一轮的基准测试数据，结果显示，英伟达和谷歌云刷新了人工智能训练时间的记录。

MLPerf是一项用于测试ML（Machine Learning）硬件、软件以及服务的训练和推理性能的公开基准。它能帮助人工智能研究人员采用通用标准来衡量用于训练人工智能的硬件、软件的最佳性能和速度。

目前，MLPerf基准测试正迅速成为测量机器学习性能的行业标准，得到了来自40多家公司和研究人员的支持，如亚马逊、ARM、百度、谷歌和微软。

最新一轮的训练基准测试由英特尔、谷歌和英伟达提交。

MLPerf最新AI芯片跑分：谷歌TPU和英伟达Tesla V100打破记录

一、英伟达Tesla V100：80秒内完成图像分类

MLPerf v0.6训练基准测试套件包含六部分，即图像分类、目标检测、翻译、测量、推荐和强化学习，基准测试结果则依据机器学习加速硬件的训练性能，以及达成标准质量目标所需的时间。

据最终测试结果显示，英伟达的Tesla V100 Tensor Core GPU使用了英伟达DGX SuperPOD，在80秒内完成了图像分类的ResNet-50模型内部训练。

相比之下，2017年英伟达使用DGX-1工作站来进行相同任务时，则需要8小时才能完成模拟训练。

英伟达在训练基准结果记录上的突破，主要来自于软件的进步。

该公司的一位发言人表示，在同一个DGX-2工作站的短短7个月内，他们的客户已经能享受高达80%以上的性能提升，这些都归功于他们生态系统正在做的所有软件改进和工作。

在基准测试中，谷歌云的TPU v3 Pods在51秒内呈现了Transformer模型将英语文本翻译成德语文本的创纪录性能。

TPU pods 还利用ImageNet数据集，在ResNet-50模型的图像分类基准中取得了创纪录性能，并在1分12秒内完成了另一个目标检测类别的模型训练。

值得一提的是，今年谷歌云在5月份首次公测推出的TPU v3 Pods能够利用超过1000个TPU芯片的能量。

此外，AlphaGo Zero模型的开源实现Minigo也参与了测试，Minigo在13.5分钟内完成了强化学习，刷新了一项新记录。

昨日发布的MLPerf v0.6是机器学习培训性能基准套件的第二轮竞赛结果，第一轮是MLPerf v0.5。

与v0.5相比，v0.6测试基准在图像分类（ResNet）的质量目标、数据集和模型等方面都有了明显的改进。

这最新一轮的训练基准测试由英特尔、谷歌和英伟达提交，英伟达和谷歌曾在2018年12月分享了它们的第一个MLPerf训练基准结果，展示了它们性能强大和快速的训练人工智能模型的硬件。

此前，MLPerf在上个月发布了计算机视觉和语言翻译推理基准。MLPerf推理工作组联合主席David Kanter表示，MLPerf推理基准的初步结果将于9月进行审查，并于10月公开分享。

MLPerf基准联盟的测试数据为大家展示了各大高科技公司在人工智能机器学习方面的潜力和优势，给行业内的研究人员和人工智能市场提供了许多借鉴信息。

基于MLPerf基准测试的推动，各大公司不断研发并提升硬件和软件性能的竞赛野心也将被激发，从而将进一步促进人工智能的发展。

MLPerf Training v0.6结果：https://mlperf.org/training-results-0-6
文章来源：Venture Beat