一年前的标准已过时！Facebook联合谷歌推出新NLP标准测试平台

智东西（公众号：zhidxcom）
编 | 年年

导语：原有NLP能力测试OUT了！新NLP测试基准平台“SuperGLUE”来啦。

智东西8月16日消息，据外媒报道，Facebook AI联合谷歌DeepMind、华盛顿大学和纽约大学，推出了一个衡量人工智能NLP（自然语言处理）能力的基准平台——SuperGLUE。

SuperGLUE是在GLUE平台的基础之上成立的，通过综合人类表现建立了一个更加困难的NLP衡量标准，能够测试NLP在问题处理和语义理解方面的能力，并在测试后给于相应的分数。

据了解，SuperGLUE的创建是由于对话式人工智能模型在各种测试基准上已经“达到了一个上限”，需要更大的挑战来提高其NLP能力，2019年1月至今，GLUE榜头名已经被微软、谷歌、Facebook刷新3次。

一、对话式AI基准已达上限

近日，Facebook AI实验室与纽约大学、谷歌DeepMind实验室和华盛顿大学合作，推出了一个衡量人工智能自然语言处理（NLP）能力的基准平台——SuperGLUE。

一年前的标准已过时！Facebook联合谷歌推出新NLP标准测试平台

▲GLUE平台

Facebook AI表示，这个名为SuperGLUE的基准测试平台建立在一个名为GLUE的旧平台之上，该平台是由谷歌DeepMind、华盛顿大学和纽约大学在2018年成立的。

SuperGLUE的创建是由于对话式人工智能系统在各种基准上“达到了一个上限”，从今年1月到现在，GLUE榜单的头名已经被微软、谷歌、Facebook刷新了3次。

“在发布后的一年内，几个NLP模型已经超过了GLUE基准测试中的人类表现。目前的模型已经推出了一个更有效的方法，它将大型文本数据集上的语言预训练模型与简单的多任务和转移学习技术相结合，”Facebook表示。

根据Facebook AI，SuperGLUE的基准测试包括一系列十分困难的NLP任务的创新，这些创新集中在机器学习的一些核心领域的上，包括采样效率、传输、多任务和自我监督学习。

在执行基准测试之后，Superglue提供了一个单一的数字度量，总结了人工智能在完成基准测试后处理各种NLP任务的能力。

根据Facebook AI，人类可以在可信的替代选择（COPA）测试上获得100％的准确率，而谷歌的BERT仅达到74％，这意味着NLP有很大的改进空间。

该研究联盟还开发了一个排行榜和PyTorch工具包，用于与SuperGLUE一起进行研究。

Facebook AI也在7月份推出了一套独立的长格式问答数据集和基准测试，这要求机器提供长而复杂的答案——这是现有算法以前从未遇到过的挑战。这个长格式问答挑战需要机器对开放式问题进行深入的回答，例如“没有大脑水母是如何工作的？”

一年前的标准已过时！Facebook联合谷歌推出新NLP标准测试平台

▲XLNet在一些NLP任务上超过BERT

与此同时，Google在6月推出了一款名为XLNet的神经网络，该搜索巨头表示，在实际训练计算机如何在真实世界文档中显示语言方面，它比BERT更好。

“BERT”是谷歌在2018年10月正式推出的基于双向 Transformer 的大规模预训练语言模型，其能高效抽取文本信息并应用于各种 NLP 任务，所以非常适合语言理解任务。

近几年AI发展迅速，作为AI能力的重要一环，NLP水平也在不断的研究下得到了飞速的发展，目前智能语音识别准确率已经达到了95%，语义理解准确率也比最初提升了一大截。

随着AI水平的不断提高，原有的能力测试平台已经不能够满足现有技术水平下NLP能力测试，这也是Facebook AI这次联合谷歌DeepMind和华盛顿大学、纽约大学推出的SuperGLUE的原因。