欢迎来智东西
登录
免费注册
我的订阅
关注我们
智东西
车东西
芯东西
智东西公开课
MSRA提新方法 一个超参数可压缩BERT
2020-03-13
机器之心
17
3月13日消息,MSRA在最新论文中提出了一种新型模型压缩方法,能够通过逐步模块替换有效地压缩BERT。该方法首先将原版BERT分割成多个模块,并构建更加紧凑的替代模块;然后,用替代模块随机替换原始模块,训练替代模块来模仿原始模块的行为。在训练过程中,研究者逐步增加模块的替换概率,从而实现原始模型与紧凑模型之间的更深层次交互,使得训练过程流畅进行。与之前用于BERT压缩的知识蒸馏方法相比,该方法仅利用一个损失函数和一个超参数,将开发者从调参这一繁琐过程中解放出来。该方法在GLUE基准上的性能优于现有的知识蒸馏方法,为模型压缩开启了新方向。
MSRA