Google发布表格文本生成资料集ToTTo

Google发布了一个称为ToTTo的资料集，由开放领域的表格到文本（Table-To-Text）生成资料组成，包含来源的表格资料，以及总结表格资料的句子配对，另外，还有可用来评估模型幻觉（Hallucination）的文本生成任务。ToTTo拥有121,000个训练样本，以及7,500个用于开发和测试的样本，Google提到，由于其标注的高精确性，该资料集很适合用来作为，高精确文本生成研究的基准。

在过去几年，自然语言生成研究已经有巨大的进步，但Google提到，尽管神经系统已经可以产生顺畅流利的文本，但是仍然会产生可理解，但是并非忠于（Faithful）来源资料的文本，这种情况被称之为幻觉，Google举例，像是神经基准模型总结比利时足球运动员Constant Vanden Stock，在维基百科的条目信息框，总会错误总结Constant Vanden Stock是位美国花式溜冰运动员。模型产生幻觉的可能性，使得有高准确性要求的应用，无法使用自然语言生成系统。

通过评估生成的文本是否忠实呈现来源内容，可以缓解这个问题，不过这个评估过程有其困难性，幸运的是，诸如表格等结构化来源内容的评估，通常会比较容易，而且结构化资料，还可以用来测试模型在因果以及数字的推断能力。

但Google表示，现有的大规模结构化资料集通常存在噪声，也就是参照的句子，无法完全由表格资料推断出来，进而使得在模型开发中，难以测量幻觉。

因此Google制作了ToTTo资料集，除了包含表格到文本资料对之外，还添加一系列受控的生成任务，该任务会提供维基百科表格，以及一组选定的资料格，作为生成总结这些资料格句子的材料，这些任务存在多种挑战，包括数值推论、开放领域词汇以及多样的表格结构等。

ToTTo资料集使用了一种特别的资料标注方法，以产生没有噪声的资料集，Google提到，要从表格资料中，获得自然又干净的目标句子，是一件困难的工作，诸如Wikibio和RotoWire之类的资料集，其配对表格和文本的过程，总会出现许多噪声，而这让研究人员难以区分，究竟幻觉是由资料噪声造成的，还是模型本身缺陷造成的。

而且即便注释者从头开始撰写句子，也会因为要忠于表格资料，而使得最后结果缺乏结构和样式的多样性，为了解决这些问题，ToTTo使用新颖的资料注释策略，Google要求注释者分阶段修改现有维基百科的句子，而这个方式让句子既干净又自然，且还能包含有趣且多变化的语言特性。

Google使用目前最先进的三个模型，产生了一些基准结果，实验结果显示，BERT-to-BERT模型在BLEU与PARENT两个指标，表现的比Pointer Generator和Puduppully et al. 2019模型更好，但这3个模型，在研究人员另外准备的挑战子集上，性能表现皆不好，Google表示，因为挑战子集饱含领域外样本，对于3个模型都更具挑战性。

但这些结果并不足以评估文本生成系统的幻觉，为了更好地了解幻觉，研究人员假设内容上的不一致，都是幻觉造成，并手动评估最佳表现基准，以确定句子忠于来源表格内容的程度，而结果显示，BERT-to-BERT较人类专家，多出约20%的幻觉。

基准测试显示，即便是现在最先进的模型，也难以解决幻觉、数值推论以及稀有主题等问题，而且即便模型输出正确，但是信息也不如参考信息丰富。通过提供这些基准测试，Google说明ToTTo是可用于建模研究，并且发展模型评估指标的资料集。