Google发布表格文本生成资料集ToTTo

Google发布了一个称为ToTTo的资料集,由开放领域的表格到文本(Table-To-Text)生成资料组成,包含来源的表格资料,以及总结表格资料的句子配对,另外,还有可用来评估模型幻觉(Hallucination)的文本生成任务。ToTTo拥有121,000个训练样本,以及7,500个用于开发和测试的样本,Google提到,由于其标注的高精确性,该资料集很适合用来作为,高精确文本生成研究的基准。

在过去几年,自然语言生成研究已经有巨大的进步,但Google提到,尽管神经系统已经可以产生顺畅流利的文本,但是仍然会产生可理解,但是并非忠于(Faithful)来源资料的文本,这种情况被称之为幻觉,Google举例,像是神经基准模型总结比利时足球运动员Constant Vanden Stock,在维基百科的条目信息框,总会错误总结Constant Vanden Stock是位美国花式溜冰运动员。模型产生幻觉的可能性,使得有高准确性要求的应用,无法使用自然语言生成系统。

通过评估生成的文本是否忠实呈现来源内容,可以缓解这个问题,不过这个评估过程有其困难性,幸运的是,诸如表格等结构化来源内容的评估,通常会比较容易,而且结构化资料,还可以用来测试模型在因果以及数字的推断能力。

但Google表示,现有的大规模结构化资料集通常存在噪声,也就是参照的句子,无法完全由表格资料推断出来,进而使得在模型开发中,难以测量幻觉。

因此Google制作了ToTTo资料集,除了包含表格到文本资料对之外,还添加一系列受控的生成任务,该任务会提供维基百科表格,以及一组选定的资料格,作为生成总结这些资料格句子的材料,这些任务存在多种挑战,包括数值推论、开放领域词汇以及多样的表格结构等。

ToTTo资料集使用了一种特别的资料标注方法,以产生没有噪声的资料集,Google提到,要从表格资料中,获得自然又干净的目标句子,是一件困难的工作,诸如Wikibio和RotoWire之类的资料集,其配对表格和文本的过程,总会出现许多噪声,而这让研究人员难以区分,究竟幻觉是由资料噪声造成的,还是模型本身缺陷造成的。

而且即便注释者从头开始撰写句子,也会因为要忠于表格资料,而使得最后结果缺乏结构和样式的多样性,为了解决这些问题,ToTTo使用新颖的资料注释策略,Google要求注释者分阶段修改现有维基百科的句子,而这个方式让句子既干净又自然,且还能包含有趣且多变化的语言特性。

Google使用目前最先进的三个模型,产生了一些基准结果,实验结果显示,BERT-to-BERT模型在BLEU与PARENT两个指标,表现的比Pointer Generator和Puduppully et al. 2019模型更好,但这3个模型,在研究人员另外准备的挑战子集上,性能表现皆不好,Google表示,因为挑战子集饱含领域外样本,对于3个模型都更具挑战性。

但这些结果并不足以评估文本生成系统的幻觉,为了更好地了解幻觉,研究人员假设内容上的不一致,都是幻觉造成,并手动评估最佳表现基准,以确定句子忠于来源表格内容的程度,而结果显示,BERT-to-BERT较人类专家,多出约20%的幻觉。

基准测试显示,即便是现在最先进的模型,也难以解决幻觉、数值推论以及稀有主题等问题,而且即便模型输出正确,但是信息也不如参考信息丰富。通过提供这些基准测试,Google说明ToTTo是可用于建模研究,并且发展模型评估指标的资料集。