谷歌推最新NLP模型XLNet，二十项任务完胜BERT

智东西（公众号：zhidxcom）
编 | 赵佳蕊

导语：谷歌推出最新NLP模型XLNet在20个NLP任务中胜过了BERT，并在18个任务中取得了当前最佳效果。

智东西6月24日消息，上周三，谷歌大脑和卡内基梅隆大学的一组研究人员推出了最新的AI模型XLNet，它在20个NLP（(Natural Language Processing）的任务中胜过了谷歌的BERT(Bidirectional Encoder Representations from Transform)，在18个任务中取得了当前最佳效果。BERT是谷歌的语言表示模型，用于无监督预训练自然语言处理。

XLNet在几个任务中的表现都优于BERT，包括7个GLUE语言理解任务，3个像SQuAD这样的阅读理解任务，以及7个文本分类（包括处理Yelp和IMDB数据集）的任务。与BERT相比，XLNet处理文本分类的错误率下降了16%。谷歌在2018年秋天开源了BERT，而真正令人激动的是， XLNet 已经开放了训练代码和大型预训练模型。

一、用自回归和自动编码方法进行无监督预训练

周三，六位作者共同在arXiv（文档收录网站）发布论文。文中表示，通过运用多种技术，XLNet利用了最好的自回归和自动编码的方法进行了无监督预训练。

文章中指出，XLNet是一种广义自回归预训练方法，通过使因子分解所有排列顺序的可能性最大化，去学习双向上下文，并且由于其自回归性，来利用乘法法则对预测token（令牌，代表执行某些操作权利的对象）的联合概率执行因式分解（factorize），这消除了 BERT 中的独立性假设的局限。

二、融合自回归模型 Transformer-XL 的思路

XLNet的名字来源于Transformer-XL，这是同一组研究人员于一月份发布的自回归模型。为了实现节段递归机制和相关编码方案，XLNet采用了Transformer-XL的预训练方法。

同时，XLNet还借鉴了NADE（Neural Autoregressive Distribution Estimation）的训练方法，这个模型是由Google DeepMind、Twitter和学术界的研究人员为NADE排列语言建模方法而创建的。

此前，微软的AI研究人员在五月推出了多任务深层神经网络（MT-DNN），这个模型和BERT结合之后，在许多GLUE（语言理解基准性能）任务上实现了更好的性能。目前，XLNet是最新的NLP模型，它的性能优于BERT，未来也许会有更好的应用。

论文地址：https://arxiv.org/pdf/1906.08237.pdf

开源代码与预训练模型：https://github.com/zihangdai/xlnet

文章来源：VentureBeat

一、用自回归和自动编码方法进行无监督预训练

二、融合自回归模型 Transformer-XL 的思路

相关推荐