Google发布最新评估文本生成强健性的自动化指标BLEURT

有鉴于现有的自动评估指标已经不敷使用,俨然成为自然语言生成技术的瓶颈,因此Google新开发了一个用来自动衡量文本产生强健性的指标BLEURT,能达到接近人类注释的准确性,其准确度比常用的自动指标BLEU还高48%。

过去几年自然语言生成技术的发展有长足的进步,可以使用越来越高级的方法,精确地翻译文本、总结文章、进行对话甚至是发布图片评论,而Google提到,目前评估自然文本产生系统有两种方法,分别是人工评估以及自动化指标。人工评估是依赖人工注释者进行大规模的品质调查,注释者会查看系统所产生的文本,并评估其流畅性和含义的品质,这种方法虽然精确,但是却相当耗时,仅数千个范例可能就需要数十人参与评估,这将会破坏模型开发的工作流程。

相较于人工评估,自动评估是更为理想的方法,优点是更便宜且延迟低,自动评估通常以两个句子作为输入,一个是候选词,另一个则是参照词,评估系统借由比较两者相似度给出一个分数,目前常用的衡量标准为BLEU;自动指标与人工评估的优缺点刚好相反,自动指标可以在模型训练的时候进行计算,反馈强化模型训练,但是由于其评估仅是表面相似度,因此准确度不高,也无法截取人类语言的多样性。

Google认为,理想的评估方法,应该要兼具人工评估和自动指标的优点,计算过程成本应该尽量低廉,且又具有足够灵活性应对语言多样性。Google新发展的BLEURT,则是一个运用机器学习技术的自动指标,能够捕捉句子间语义的相似性。

而训练BLEURT模型的第一个问题,便是训练资料数量不足,即便最大的人类评估资料集WMT Metrics Task,新闻领域也只有26万笔人工评估,而这不足以训练出高端的自然语言生成系统评估指标,为了解决这个问题,Google采用转移学习,应用BERT的上下文单词表示法,这是一种用于语言理解的最新非监督式表示学习法,另外,Google还使用了先进的预训练方法,以提高BLEURT强健性。

之所以BLEURT的性能可以这么好,就是因为使用预训练技术,Google解释,在使用人类评估资料微调之前,先使用数百万个合成句对为模型预热,研究人员使用维基百科上的句子,应用随机扰动技术产生训练资料,由于不使用人工评估,而是使用指标和模型集合,因此能以低成本但极大程度扩大训练范例的数量。

经实验证实,预训练确实提高了BLEURT准确性,而Google对BLEURT进行了两次预训练,一次针对语言建模目标,另一次针对一系列自然语言生成评估目标,最后才使用WMT指标资料集进行微调。

Google对BLEURT进行了基准测试,结果证实BLEURT性能良好,包括在机器翻译和资料生成文本等任务都超越现有的方法,比应用WMT Metrics Shared Task的BLEU,人工评估分数还要高48%。