模型优化与部署系列课第4讲:基于剪枝的压缩模型在移动设备上的推理加速 | 直播预告

在5月份,智东西公开课AI技术教研组聚焦于轻量化网络设计与优化的研究与应用,策划推出了「轻量化网络专题讲座」,并邀请到北京航空航天大学在读博士秦浩桐、德国慕尼黑大学在读博士顾金东和悉尼大学在读博士郭晋阳,分别就轻量化网络中的模型量化、知识蒸馏和模型剪枝等主题进行深度讲解。

11月,智东西公开课将轻量化网络专题讲座全面升级为「模型优化与部署系列课」,聚焦深度学习模型的设计、优化,以及实际部署等问题,邀请各子领域的科研人员和开发者对研究成果和开发经验进行深度讲解。

11月23日上午10点,「模型优化与部署系列课」第4讲邀请到威廉玛丽学院在读博士牛威参与。牛博的研究兴趣包括模型压缩与加速、高性能计算、神经网络编译器设计等,曾在ASPLOS、PLDI、NIPS、CVPR、ECCV、AAAI、DAC、ICS、RTAS、TPAMI等正式会议与期刊上发表诸多文章。在本次讲解中,他将围绕《基于剪枝的压缩模型在移动设备上的推理加速》这一主题进行讲解。

随着深度神经网络近年来的发展,神经网络模型随之增大。巨大的模型尺寸带来了更复杂的计算需求,在应用端也占用了更多的内存空间,使得深度神经网络在移动平台上的实时推理能力受到很大的挑战。即便是当今的移动平台已经拥有非常强大的计算与存储能力,借助现有的移动端软件深度神经网络加速框架(例如TVM,MNN和TensorFlow-Lite)依然很难实现实时推理。

为了解决上述问题,深度神经网络模型剪枝技术成为模型压缩中一个直接有效的方法。通过模型剪枝,神经网络的权重结构变得稀疏化。早期的非结构化剪枝采用了一种迭代型探索方法,将模型中绝对值较小的权重删除,得到一种权重不规则分布的神经网络模型。这种方法虽然取得了一定的压缩率与精度,但是却并没有改善模型的硬件执行效率,对硬件平行计算结构与内存访问并没有任何优化,而且也不适用于并行度较高的硬件平台。

结构化剪枝的提出在一定程度上解决了上述问题,但是其过于激进的剪枝方式(剪枝整个filter或channel)导致模型的精度和泛化能力的大大下降,从而影响了结构化剪枝的广泛使用。而牛威博士等人通过总结发现上述两种模型剪枝方法实质上代表了两个极端,限制了神经网络模型剪枝在软件层面和硬件层面的表现。

在ASPLOS 2020中,牛威博士提出了一种新型的剪枝稀疏性结构PCONV,包含了卷积核(convolution kernel)模式化剪枝(pattern pruning)与连通性剪枝(connectivity pruning):即卷积核模式化剪枝作为一种获取卷积核内部稀疏性的方法,其剪枝维度定位在每一个卷积核内部,通过删除卷积核内部固定数量的权重,使得卷积核呈现不同的形状,他们称这些不同的形状为卷积核模式(kernel pattern)。而最终的实验结果也表明,PatDNN不仅能得到更高的压缩率和模型精度,更重要的是与编译器的协同优化极大地提高了移动端的推理速度。

在本次课程中,牛博将围绕神经网络模型在移动设备上实时推理的挑战、现有的模型剪枝方法及局限性,深度讲解他们所提出的压缩-编译协同设计与优化的移动端加速方案,及其在移动设备的实时推理应用等。

本讲直播包含主讲和问答两个环节,其中主讲40分钟,问答20分钟。同时,我们还组建了技术交流群,并邀请讲师牛威博士进群,欢迎大家申请!

系列课内容

主 题

《基于剪枝的压缩模型在移动设备上的推理加速》

提 纲

1、神经网络模型在移动设备上实时推理的挑战
2、现有的模型剪枝方法及局限性
3、压缩-编译协同设计与优化的移动端加速方案
4、在移动设备的实时推理应用

讲 师 介 绍

牛威,威廉玛丽学院计算机科学专业在读博士生; 研究兴趣包括模型压缩与加速、高性能计算、神经网络编译器设计;曾在ASPLOS、PLDI、NIPS、CVPR、ECCV、AAAI、DAC、ICS、RTAS、TPAMI等正式会议与期刊上发表诸多文章。

直 播 信 息

直播时间:11月23日10:00
直播地点:智东西公开课知识店铺