MIT开发能修改维基百科文章错误的自动系统

麻省理工学院(MIT)研究人员创建能够自动维护维基百科的系统,修正文章中错误的数据,减少需要花费的人工编辑时间。维基百科具有数百万篇文章,文章需要不断更新以呈现最新的信息,包括进行文章扩展、重写或是数据修改等,而这些工作需要由全世界的志工手动完成。

这个新的自动系统,能够以人工智能修复维基百科文章中的错误,其使用一系列的算法,通过利用网络上最新的信息,识别出文章中的错误,并且生成句子修复错误。该系统背后里用了许多文本生成技术,可用来识别两个句子间矛盾的地方,并将他们融合在一起。

目前也存在许多自动编辑维基百科的机器人,但这些工具通常用于减轻破坏,或是将严格定义的信息放进预定义的模板中,研究人员希望新开发的系统,只要给定一段非结构化的句子,就能以人性化的方式,修改维基百科文章中的句子,研究人员提到,现存的机器人多数是以规则执行任务,但是他们的系统可以推论两个句子矛盾之处,并且产生连贯的文本。

用来训练自动系统模型的数据集,便是包含正确信息的语句以及维基百科语句所构成的句对,而这些句对会被标上同意、不同意或中性三种标签,同意代表正确信息的语句和维基百科的语句信息相符,不同意则反之,中性则代表没有足够的判断信息。

自动化系统的输入有两个,一个是维基百科文章中过时的句子,另一个为包含正确信息的语句,系统需要根据后者,自动调整维基百科中错误的句子,过程可能需要删除和保留特定单词、更新部分的事实,或是保留样式和语法。

自动化系统由两个模型组成,其一是事实检查分类器,通过预训练将句对标记为同意、不同意或中性,而系统处理的重点在于不同意标签的句对,而另一个分类器,则负责识别维基百科错误的语句中,导致句对被标记为不同意的单词,并且以双编码器与解码器框架,将包含正确信息语句的重点单词,融入到维基百科需要修改的语句,输出最终的句子。

经SARI评估证实,新模型所产生的结果,得分都高于传统的方法,SARI方法是评估机器删除、增加和保留字词,与人工修改的差异。研究团队提到,新模型所进行的事实修正更为准确,也跟人类更为相近。