微软AI模型在SuperGLUE基准超越人类位居排行榜第一

微软的DeBERTa模型在SuperGLUE基准中,超过了人类基准线的89.9分,以90.3分成为SuperGLUE排行榜的第一名。SuperGLUE是2019年,脸书人工智能研究院、Google DeepMind、华盛顿大学和纽约大学共同推出的一系列基准任务,用来衡量现代高性能语言理解人工智能的能力。

DeBERTa是一种变换(Transformer)神经语言模型,使用自我监督式学习技术,以大量原始文本资料进行预训练,与其他预训练语言模型一样,DeBERTa目的在于学习通用语言表达形式,用来解决各种自然语言理解任务。

由于对话式人工智能深度学习模型已发展到一定的程度,过去的基准测试被认为不敷使用。纽约大学、华盛顿大学和DeepMind在2018年的时候,发布通用语言理解评估(GLUE)基准,来评估模型的语言理解程度,但是有不少自然语言处理模型,在GLUE特定任务的表现,已经远远超过人类,但是即便这些模型可以在GLUE超越人类,但是却无法良好处理某些人类可以轻松且完美解决的问题,因此研究人员设计出SuperGLUE,来更好地评估模型能力。

微软提到,SuperGLUE是目前评估NLU模型最具挑战的基准。SuperGLUE共含有8种不同任务,包括选择合理的替代方案(COPA)的因果推理任务,模型必须在取得前提之后,从两个可能的选择判断其因果关系,人类能在COPA任务简单地达到100%精确度,但是人工智能模型则还有许多进步空间。

微软举例,当考虑到前提是“孩子对疾病免疫了”,并且提问“造成这种结果的原因?”,要求模型从“他避免暴露在疾病中”和“他使用了该疾病疫苗”中做选择,通常人类都可以选对,但是这却对人工智能是很大的挑战,因为模型必需要了解前提,才能够正确选择因果关系。

而微软最近通过更大规模地训练DeBERTa模型,使得模型能力获得提升,最新版本的模型拥有15亿个参数48个变换层,光单个DeBERTa模型就能超越人类在SuperGLUE上的表现达到89.9,而组合DeBERTa模型更可达到90.3分,更大幅度超过人类的89.8,另外,DeBERTa模型也在GLUE基准获得90.8分,也是排名第一。

微软将会对外发布这个具有15亿参数的DeBERTa模型以及其程序代码,此外,该DeBERTa模型,也会集成到微软图灵自然语言表达模型的下一个版本Turing NLRv4中,支持微软的各种产品。

图灵模型融合了多种微软开发的语言创新技术,并且经过大规模训练,用在Bing、Office、Dynamics和Azure认知服务等产品中,提供诸如聊天机器人、推荐、搜索以及内容生成等人机交互任务中。

在SuperGLUE超过人类基准的模型,不只有微软的DeBERTa模型,还有Google大脑结合T5与Meena的语言模型,得分为90.2,分数仅差距DeBERTa分数0.1分,另一个分数也很接近人类基准的Google T5模型,也有89.3分。