Google发布最新评估文本生成强健性的自动化指标BLEURT

有鉴于现有的自动评估指标已经不敷使用，俨然成为自然语言生成技术的瓶颈，因此Google新开发了一个用来自动衡量文本产生强健性的指标BLEURT，能达到接近人类注释的准确性，其准确度比常用的自动指标BLEU还高48%。

过去几年自然语言生成技术的发展有长足的进步，可以使用越来越高级的方法，精确地翻译文本、总结文章、进行对话甚至是发布图片评论，而Google提到，目前评估自然文本产生系统有两种方法，分别是人工评估以及自动化指标。人工评估是依赖人工注释者进行大规模的品质调查，注释者会查看系统所产生的文本，并评估其流畅性和含义的品质，这种方法虽然精确，但是却相当耗时，仅数千个范例可能就需要数十人参与评估，这将会破坏模型开发的工作流程。

相较于人工评估，自动评估是更为理想的方法，优点是更便宜且延迟低，自动评估通常以两个句子作为输入，一个是候选词，另一个则是参照词，评估系统借由比较两者相似度给出一个分数，目前常用的衡量标准为BLEU；自动指标与人工评估的优缺点刚好相反，自动指标可以在模型训练的时候进行计算，反馈强化模型训练，但是由于其评估仅是表面相似度，因此准确度不高，也无法截取人类语言的多样性。

Google认为，理想的评估方法，应该要兼具人工评估和自动指标的优点，计算过程成本应该尽量低廉，且又具有足够灵活性应对语言多样性。Google新发展的BLEURT，则是一个运用机器学习技术的自动指标，能够捕捉句子间语义的相似性。

而训练BLEURT模型的第一个问题，便是训练资料数量不足，即便最大的人类评估资料集WMT Metrics Task，新闻领域也只有26万笔人工评估，而这不足以训练出高端的自然语言生成系统评估指标，为了解决这个问题，Google采用转移学习，应用BERT的上下文单词表示法，这是一种用于语言理解的最新非监督式表示学习法，另外，Google还使用了先进的预训练方法，以提高BLEURT强健性。

之所以BLEURT的性能可以这么好，就是因为使用预训练技术，Google解释，在使用人类评估资料微调之前，先使用数百万个合成句对为模型预热，研究人员使用维基百科上的句子，应用随机扰动技术产生训练资料，由于不使用人工评估，而是使用指标和模型集合，因此能以低成本但极大程度扩大训练范例的数量。

经实验证实，预训练确实提高了BLEURT准确性，而Google对BLEURT进行了两次预训练，一次针对语言建模目标，另一次针对一系列自然语言生成评估目标，最后才使用WMT指标资料集进行微调。

Google对BLEURT进行了基准测试，结果证实BLEURT性能良好，包括在机器翻译和资料生成文本等任务都超越现有的方法，比应用WMT Metrics Shared Task的BLEU，人工评估分数还要高48%。