智东西5月18日报道,上个月月底,国际权威AI基准测试MLPerf™公布2021年最新推理测试榜单。
其中在图像分类性能测试中,阿里云震旦异构计算加速平台,基于NVIDIA A100 GPU平台和开放规则,在离线场景下以每秒处理107.8万张图片的成绩,打破了此前谷歌保持的绝对性能榜单的世界纪录。这也是阿里在通用GPU平台第一次取得100w这样的成绩。
而从MLPerf推理1.0的绝对性能榜单,我们不仅能看到各款硬件平台的实力表现,而且能看到软硬系统优化所发挥出的潜能。
一、从MLPerf推理榜单成绩,看未来AI算力基础设施的首选
MLPerf推理1.0成绩提交还是以硬件厂商参与为主,每次新的AI芯片发布,都会带来成绩的突飞猛进,比如基于NVIDIA最新Ampere架构的A100 、A30和A10等,在此次MLPerf 1.0 推理测试榜单所有类别中展现出的性能均创下记录。
NVIDIA作为唯一一家针对数据中心和边缘类别中的每项测试都提交结果的公司,在所有MLPerf工作负载中均展现出顶级的性能。
NVIDIA A100采用全新的Ampere架构,并提供了很多新的功能特性,性能比上一代产品提升高达20倍。A100引入了突破性的功能来优化推理工作负载,它能在FP32到INT4的整个精度范围内进行加速。多实例GPU(MIG)技术,允许多个inference业务同时基于单个A100运行,同时有拥有自己独立的GPU资源互不干涉,从而优化计算资源的利用率。在A100其他推理性能增益的基础上,仅结构化稀疏一项就能带来两倍的性能提升。
但在此次推理性能榜单成绩提交和最终的成绩上,我们也看到了一些新变化,那就是更加普适的软硬协同优化带来了更好的性能提升。
此外,从今年的MLPerf提交规则上,我们也看到MLPerf也有计划来增加以算法优化为目标的测试标准,从而鼓励算法创新,让很多软件公司也有参与和提交参赛数据的动力。
此次阿里云震旦异构计算加速平台基于英伟达通用GPU硬件,通过机器学习模型的自动优化技术,大幅提升了算子的执行效率,刷新了英伟达GPU单卡性能。无论是新推出的A100和A10,还是已面市3年的T4,都能带来单卡性能的大幅提升。
在未来的AI算力领域,通用AI芯片(GPU)硬件+通用异构计算加速平台,才是未来的AI算力基础设施的首选。而专有硬件(TPU等)+专有软件,即使在单芯片效率/能耗上领先,但在算法适配和移植,以及最终的TCO上并不一定占优。
二、阿里云震旦异构计算加速平台:每秒处理107.8万张图片
阿里云自研震旦异构计算加速平台,适配GPU、ASIC等多种异构AI芯片,优化编译代码,深挖和释放异构芯片算力,支持TensorFlow、Caffe、PAI等多种深度学习框架,可实现AI框架及算法的无缝迁移适配,支持云变端多场景快速部署,大幅提升AI应用开发效率。
在MLPerf最新版的图像分类测试中,震旦平台针对图像分类神经网络架构进行自动优化,在保证基准测试精度目标的同时,远超标准ResNet50 v1.5的计算效率。在MLPerf推理性能测试结果1.0版中,震旦异构计算加速平台,基于8卡NVIDIA A100 GPU配置上性能夺魁,在开放规则的离线场景下取得每秒处理107.8万张图片的成绩。
因为MLPerf赛道太多,阿里云震旦团队只参与了图像分类这一个大场景的数据提交,一个大的场景下又分为封闭规则和开放规则,所以具体到某个非常具体规则的赛道下,有可能只有1个参选数据;本次提交阿里云共计提交了20个场景的结果。
在开放规则(open division)即允许软硬件优化的规则下阿里云创下所有提交类别的第一,并大幅领先。在封闭规则下(closed division)阿里云取得了五项第一。
三、优异成绩背后:软件自动调优+硬件算力突破
在MLPerf推理性能测试1.0版(MLCommons Inference Benchmark)的公布结果中,阿里云震旦异构计算加速平台之所以在此次评测中取得如此优异成绩,得益于其出色的软硬协同优化能力。
首先在顶层算法模型上,使用基于自动机器学习(AutoML)的模型设计方式,这种方式可以获得比人工设计更高效的模型。震旦基于MIT的先进的神经网络架构搜索算法Once-For-All,使用了基于强化学习的自研搜索算法获得了高性能子网络;之后通过INT8量化获得硬件加速继续提高性能,并在量化前进行深度重训练,以保证量化后的精度能够达到测试的精度要求。
上图为高性能子网络示意图, IRB即反转残差块(Inverted Residual Block),是用于网络架构搜索的基本模块。每个反转残差块包括三层卷积算子,图上反转残差块的长度代表了该块的输出channel数量。
一般机器学习框架的算子实现专注于优化主流的神经网络架构,而对于NAS的反转残差块则效率不佳,震旦使用了基于自动调优的大规模算子融合技术,大幅提高了推理时算子对GPU的利用率,并且可根据不同的架构自动调优到最佳算子实现,因此能快速发掘全新GPU架构的潜力,例如对于A100上通过MIG(多实例GPU)技术产生的具有不同计算资源的GPU实例,震旦算子优化技术可以通过自动调优来进一步提升计算资源利用率。
总体而言,在阿里开放优化规则下的结果中,使用单张T4 GPU的系统性能五倍于先前在0.5版本的封闭优化规则下提交的性能。8张A100 GPU的系统能达到令人震惊的每秒100万张图片的性能指标。
震旦平台对机器学习模型的全栈自动优化,可高效利用新一代的GPU架构,如基于刚刚发布的A10 GPU,也能做到类似于T4的,单卡(在预览测试类别中)开放规则下的结果达到五倍于1.0版本的封闭规则下的单卡性能。
其次,打破纪录的背后,在硬件平台上也得益于NVIDIA A100 GPU强大的算力支持,近5倍于上一代的INT8性能使得超越百万级性能成为可能。
另外NVIDIA GPU的通用性,即通过CUDA直接对硬件编程,使得用户可以针对其特有的神经网络模型进行定制优化,这让震旦基于GPU的自动算子调优技术成为了现实。
最终获得的调优算子可以更高效地利用A100最新的Tensor Core硬件指令以及更大的共享内存,从而交出了软硬件协同优化的满意答卷。
结语:软硬协同优化将加速AI普及
如今,MLPerf已经成为业界衡量机器学习软硬件性能的通用基准。从历代榜单的变迁,我们可以看见硬件平台已经不是提升算力的唯一动力,专有软硬件协同解决方案固然能带来特定领域的最佳能效比,但未必总能带来整个系统的最优总拥有成本。
相比之下,通用硬件平台与通用异构计算加速平台搭配,原本就在大规模、多场景的加速应用场景中更具优势,而自动机器学习、剪枝量化、算子自动优化等技术的加持,使得兼具通用性和高能效的通用软硬件协同方案成为可能。
随着硬件平台的持续迭代升级,软硬协同优化将成为未来各厂商提升AI基础设施整体执行效率的主流趋势,在这样良性的竞赛催化下,AI应用将以更快地速度走向普及。