AI芯片跑分有了新玩法!解读地平线MAPS评估法

芯东西(公众号:aichip001)
文 | 韦世玮

“摩尔定律已死”和“把GPU推下AI神坛”,哪一个先会到来?

这两件事对目前发展正如火如荼的AI芯片行业来说,似乎都是一项挑战。

一方面,多样化的智能应用对芯片算力需求越来越高,制程技术在过去几年也从成熟工艺大步迈进了7nm及以下先进工艺,但摩尔定律的缓慢推进却与当下算力需求的爆发格格不入。

另一方面,专用AI芯片的出现也掀起了一股挑战GPU的势头,但在AI芯片创企层出不穷的同时,比芯片研发节奏更快的算法演进,也使这些“后浪”难以真正撼动GPU的地位。

更重要的是,在AI芯片落地过程中,芯片AI性能峰值算力与实际应用过程中存在的利用率差异,在一定程度上也不利于行业的协同发展。

问题随之而来,现有的主流芯片AI性能评估方法和指标,是否能真实地反应每一款芯片在不同应用场景下的特点?

这个从学术界到产业界都一直在探讨的问题,我国AI芯片独角兽公司地平线提出了一个新的解决思路——MAPS(在精度有保障范围内的平均处理速度)。

何为MAPS?简单地说,该方法通过可视化和量化的方式,在合理的精度范围内,以“快”和“准”两个维度评估芯片对数据的平均处理速度。

那么,MAPS评测方法与目前的主流方法到底有何不同?它将从哪些新的角度为行业提供研发和落地的新思路?为了找到这些答案,芯东西与地平线BPU算法负责人罗恒博士进行了深入交流,从中也看到地平线暗藏在MAPS背后的芯片开发理念。

一、计算效率每9个月翻倍,芯片性能发展难追算法演进

我们先来直面一个最为根本的问题,在当下爆发的算力需求和缓慢推进的摩尔定律面前,推动行业继续前进有哪些解法?

行业中已经有不少答案呼之欲出:新材料的普及、工艺制程的突破、新封装的采用……但我们将推进工艺创新和发展的目光回到芯片应用本身,实际上还有一个方法值得我们思考,那就是充分发挥芯片AI性能的有效利用率。

有效利用率为何重要?在传统芯片行业中,PPA(功耗Power、性能Performance、面积Area)是衡量芯片的重要指标,其中最复杂的正是Performance。

例如,一款芯片的峰值算力为16 TOPS,但它在不同模型上的算力利用率不同,时而低至2%,时而才到80%,这与峰值算力之间的巨大差距,让用户无法完整地体验到一颗芯片的AI能力。

AI芯片跑分有了新玩法!解读地平线MAPS评估法

“有时峰值性能为4 TOPS的芯片处理某一任务时,跑得快比16 TOPS的芯片更快,这是经常发生的现象,也是一个行业早已意识到的普遍问题。”罗恒谈到。

主要原因在于,每款芯片都需要处理不同任务,即使在同一个任务下又有各种各样的模型,不同模型的计算量和精度也各不相同,这些因素都会影响芯片在实际应用过程中的性能表现。

基于此,如何充分地认识和评估一款芯片处理不同任务的性能,不仅是芯片厂商需要提供给客户的重要信息,也是推动AI芯片落地和行业健康发展的重要能力之一。

目前行业中较为主流的芯片AI性能基准测试(Benchmark)是MLPerf。

MLPerf是谷歌、英特尔、百度和哈佛大学等企业与高校联合发布的新型基准测试工具,专门用来测量芯片的机器学习性能,并在2019年发布了首个Inference v0.5测试结果。

尽管该基准尚未成熟,但也获得了不少芯片巨头的关注,其榜单结果已成为英特尔、英伟达等行业巨头每年刷榜的重要阵地之一。

然而,当下模型算法演进的速度远快于芯片性能的提升。

罗恒举例说,以某卷积神经网络为例,从2014年到2019年,最好的神经网络计算效率相差了100倍,相当于计算效率每9个月翻一倍,远快于每18个月翻倍的摩尔定律。

这也导致MLPerf上的测试模型与目前行业最新的模型相比,算法落后了2至4年不等,无法及时地反映算法效率的提升,以及各种精度下芯片能够达到的计算速度。

“Benchmark还有一点不太好的是它不够直观。”罗恒解释到,从用户角度看,Benchmark上复杂的表格数据,很难让用户直观地比较每款芯片在多个模型上的性能结果。

因此,如何体现芯片在不同任务中的真实性能,并指导用户以最优的方式使用芯片,这是整个行业在发展过程中仍需思考的问题。

在这一需求下,地平线的MAPS应运而生。

二、MAPS:以可视化和量化方式,直观展示精度范围内的芯片性能

在地平线联合创始人兼技术副总裁黄畅博士看来,评估芯片的AI性能可以从准、快、省三个维度来看。

“准”反映了实际任务的算法精度;“快”既指延迟,侧重处理单个任务的速度,也指吞吐率(帧率,FPS),侧重特定输入尺寸、特定模型上的最大处理能力;“省”则代表芯片的成本和功耗。

地平线将芯片AI性能进行可视化,横轴为速度(帧率)、纵轴为精度(准确率),数字越大代表着速度越快、精度越准。

AI芯片跑分有了新玩法!解读地平线MAPS评估法

▲(图1)Edge TPU运行不同模型的精度和帧率测试结果

以地平线在Edge TPU上测试的结果为例,左侧所有蓝色点为传统算法,右侧是经过优化之后的EfficientNet模型。

我们分别对比最右侧和最下方的两个点。其中,最右侧的点意味这该模型能够达到77%的准确率,在Edge TPU上可以跑到181.77帧/秒;最下方的点准确率为76%,但速度仅为20帧/秒。

相比之下,我们就能很直观地看出最下方的传统模型不仅比最右侧经过优化的EfficientNet模型帧率更慢,精度也更低。

基于这张可视化视图,我们不仅能简单准确地看到每一个模型的帧率和准确率情况,同时也能看到这些年算法的演进,在精度保持不变的情况下,帧率明显加快。

但这如何更直观地展示芯片的AI能力?实际上,用户可以选择一个合适的精度范围,如77%至80.5%,将该精度范围内所有算法所能达到的最高精度连成一个包围圈,若围出的面积越大,也就说明芯片的能力越强。

不仅如此,MAPS还可以横向地展示多款芯片在相同模型上,不同精度情况下的性能表现。

AI芯片跑分有了新玩法!解读地平线MAPS评估法

▲(图2)ImageNet图像分类75%-80.5%精度范围内,MAPS评估方法下的主流芯片测试结果

在另一个测试中,地平线用谷歌Edge TPU4 TPOS)、某款峰值算力11.4 TOPS等多家性能不同的芯片,以及地平线即将推出的旭日3芯片在EfficientNet Lite 04模型上进行测试,并将精度范围基本保持在75%80%之间,以此形成数条不同的折线。

同样的,在限定的精度范围内,每条折线所围多边形面积越大,也意味着芯片AI能力越强。地平线通过将各个梯形的面积之和除以高度算出的平均值,则称为“MAPS,也可称为有精度保障下的平均处理速度

AI芯片跑分有了新玩法!解读地平线MAPS评估法

▲MAPS值计算公式

以图2为例,可以看出同样为4 TOPS的两款芯片(紫色与白色折线),在同一精度范围内的性能表现差异较大,MAPS值分别为160 FPS269 FPS,在MAPS上有将近2倍的差距。

此外,地平线即将于出的旭日3芯片(蓝线,MAPS=416 FPS)与某款峰值算力为11.4 TOPSAI芯片(橙线,MAPS=385 FPS)相比,尽管旭日3在高精度上略显劣势,但平均帧率表现却更好,也就意味着在追求速度和延迟低的场景中,旭日3相比此款11.4 TOPS的芯片更有优势。

“TOPS并不是最好的,也不能客观地反映一颗AI芯片的性能,而MAPS更能真实反映芯片的AI性能指标。”黄畅在一次演讲中谈到,最真实的AI效能实际上由三要素组成,分别为理论峰值计算效能、有效利用率、AI算法效率。

在黄畅看来,随着过去几年算法提升的效率越来越快,如果地平线要关注效率提升,就应该把握这三要素中最主要、变化最快的要素,并且根据该要素去指导自身如何设计处理器架构,如何取舍存算。

而MAPS评估方法,无疑是推动芯片设计过程的强力工具之一。

AI芯片跑分有了新玩法!解读地平线MAPS评估法

三、基于芯片设计理念,MAPS评估体系的意义与发展

实际上,MAPS评估方法的诞生与地平线一直以来的芯片设计理念息息相关。

“地平线创始人团队几乎都是算法出身,所以我们设计芯片的思考角度不太一样。”罗恒谈到,通常芯片设计都会从目标应用场景考虑,对芯片进行优化设计,而地平线进行芯片设计时,不仅会考虑能效和算力的提升,还会考虑算法的动态发展。

为什么AI芯片产品越来越多,但能真正撼动GPU的却比较少?在罗恒看来,很重要一个原因就在于大家往往忽略了算法的变化发展,“做AI芯片最大的风险其实就在于算法的改变,如果芯片研发完成后算法却变了,那么大家又只能转用GPU。”他说。

因此,如何开发出一款能与算法演进潮流相一致的芯片,亦是地平线在开发芯片过程中持续预判和思考的方向。

基于芯片研发理念影响,以及现阶段主流芯片性能评估方法尚未成熟,地平线也逐渐意识到需要一套完善的方案来全面评测和展示芯片性能优势,而MAPS就是地平线为此提出的一个新解法。

但罗恒提到,MAPS评估方法对目前的主流方法来说其实是一个补充,并非替代和竞争的关系。它不仅能够给用户提供新维度来考量芯片的性能和优势,同时也鼓励用户从算法演进方面,看待算法给AI落地带来的推动作用,从而大大提升芯片的有效率利用率。

从结果来看,MAPS所提供的可视化和量化的方式,大大降低了用户选择AI芯片的门槛,从而降低以往芯片理论性能和实际应用性能差异所造成的成本浪费。

与此同时,MAPS也将在一定程度上推进上游芯片设计环节的发展。

随着算法不断演进,地平线希望行业设计芯片的思考不要局限于当下使用的算法模型,而是着眼未来行业使用的算法模型,并在MAPS体系的启发下,用动态发展的眼光看待优化的目标,从任何一个设计环节持续推动AI芯片性能的发挥。

与算法模型演进相同,未来的MAPS评估体系还将继续迭代。

一方面,地平线将让MAPS实现更多的任务评测,如AI检测;另一方面,地平线也将针对一些特定的场景,如客户关心的某一特定速度范围内的应用,进行相应计算的改进。

“我们希望在向用户披露全面信息的同时,也帮助用户如何获得芯片最高的精度和最快的速度。”罗恒说。

结语:地平线为推动AI芯片发展押注新玩法

在新基建和AI落地愈发火热的当下,如何解决并提高芯片AI性能的有效利用,本身也一个值得探讨的话题。

一直以来,行业不断地通过性能、效能的指标去标识技术的贡献及产生的价值,但人们除了关注数量,还要关注质量,考虑如何真正实现AI的部署与落地,它能解决什么问题与创造多少价值,这才是行业发展的初衷。

地平线MAPS评估体系的提出,无疑给行业提供了一个新的思考方向和解决方案,同时也为推动AI芯片行业的发展开辟了新玩法。

通过此次地平线MAPS评估过程,我们也看到了其旭日3芯片在MAPS值和帧率性能方面的领先性,让人忍不住开始期待这颗即将发布的AI芯片到底有何实力,能够在MAPS中取得亮眼成绩?

​答案即将在9月9日地平线旭日3发布会上揭晓。