AI在这张“问卷”上首次超越人类，SuperGLUE被微软谷歌两家“攻破”

自然语言理解 ( NLU ) 迎来新的里程碑。

在最新的 NLU 测试基准SuperGLUE中，人类首次被 AI 超越了。

SuperGLUE 相比 " 前辈 "GLUE 大大提升了问题的难度，提出一年多以来，人类一直处于第一位。

现如今，人类一下子被两家 AI超越。

一个是来自微软的DeBERTa，一个是来自谷歌的T5+Meena。

超越人类的两大 NLU 模型

最近，最近微软训练了更大规模的模型，该版本由15 亿参数的 48 个 Transformer 层组成。增大规模带来的性能提升，使单个 DeBERTa 模型 SuperGLUE 上的得分（90.3）首次超过了人类（89.8），居于榜单首位。

DeBERTa（注意力分离的解码增强 BERT）是一种基于 Transformer 的神经语言模型，使用自监督学习对大量原始文本语料库进行预训练。

和其他预训练语言模型 ( PLM ) 一样，DeBERTa 旨在学习通用语言表示形式，适应各种下游 NLU 任务。DeBERTa 使用三种新技术——分离的注意力机制、增强的掩码解码器和一种用于微调的虚拟对抗训练方法。改进了以前的最新 PLM（如 BERT、RoBERTa、UniLM）。

这项研究是由微软研究团队的 4 位华人学者完成。

另一超越人类的 AI 是由 CMU 博士生王子瑞提交的 T5+Meena。这两项技术均来自谷歌。

其中，Meena 是一个26 亿参数端到端训练的神经对话模型，它具有一个演进 Transformer 编码器块和 13 个演进 Transformer 解码器块。

编码器负责处理对话上下文，帮助 Meena 理解对话中已经说过的内容。然后，解码器使用该信息来制定实际响应。

T5 是谷歌去年提出的 " 文本到文本迁移 Transformer"，也就是用迁移学习让不同的 NLP 任务可以使用相同的模型、损失函数和超参数，一个框架在机器翻译、文档摘要、问答和情感分析上都能使用。

T5 最大的模型具有 110 亿个参数，早在推出之时就取得了 SuperGLUE 上的最高水平，至今仍仅次于榜单前二模型和人类。

关于 SuperGLUE

SuperGLUE 是由 Facebook、纽约大学、华盛顿大学和 DeepMind 四家机构于 2019 年 8 月提出的新 NLU 测试基准，以取代过去的 GLUE。

由于之前微软、谷歌和 Facebook 的模型连续刷新 GLUE 基准测试得分，已有不少 AI 模型超越了人类的表现。因此 GLUE 已不能顺应 NLU 技术的发展，SuperGLUE 应运而生。

我们从最初的 GLUE 基准测试中吸取的经验教训，并推出了 SuperGLUE，这是一个采用了 GLUE 的新基准测试，具有一系列更加困难的语言理解任务、改进的资源和一个新的公共排行榜。

四家机构在 SuperGLUE 的官方文档中如是说。

SuperGLUE 总共包含 10 项任务，用于测试系统因果推理、识别因果关系、阅读短文后回答是非问题等等方面的能力。SuperGLUE 还包含 Winogender，一种性别偏见检测工具。

这些问题用当前最先进的算法还不能很好地解决，却很容易被人类理解。

尤其是 " 选择合理的替代方案 "（COPA）这一项因果推理任务。它要求系统能根据给出的句子，在两个选项中找出可能的原因或结果。比如：

那个男人的脚趾断了。这是什么原因造出的？

备选答案 1：他的袜子上有一个洞。

备选答案 2：他把锤子掉在脚上了。

人类可以在 COPA 上获得了 100％的准确率，而 BERT 只有 74％，这表明了 NLU 还存在巨大的进步空间。

现在 SuperGLUE 上超越了人类表现，微软的研究人员认为：" 这是通向通用 AI 的重要里程碑 "。

微软 DeBERTa 源代码与预训练模型：

https://github.com/microsoft/DeBERTa

谷歌 T5 和 Meena：

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

参考资料

https://venturebeat.com/2021/01/06/ai-models-from-microsoft-and-google-already-surpass-human-performance-on-the-superglue-language-benchmark/

Microsoft DeBERTa surpasses human performance on the SuperGLUE benchmark