Google发布多语言问答基准TyDi QA,改进模型处理特殊语言问答的能力

为了促进社群对多语言问答的研究,Google发布了涵盖11种类型多样的语言问答语料库TyDi QA。Google提到,由于不同语言以不同的结构表达意思,因此这个语料库选择类型距离较远的语言,训练模型能够处理大量的语言。

问答技术可以让语音助理回应用户的提问,Google在去年的时候,发布了英语自然问题数据集,让研究社群能进一步推进自然语言提问的发展,但是这世界上有成千上万种语言,其中有许多语言以非常不同的方式构建含义,Google举例,像是英文的book为单数,books则表示复数,但是在阿拉伯语中,كتابان用来表达两个,كتاب表达单数而كتب则为复数,而且像是日语,其单词之间不使用空格。

Google新发布的TyDi QA语料库,包含了来自11种语言20万对的问答,设计来表现多种语言现象与数据挑战,许多语言都使用非拉丁字母,诸如阿拉伯语、孟加拉语、韩语、俄语和泰语等,也有以复杂方式构成单词的语言,像是芬兰语、印尼语以及斯瓦希里语等。

为了构建更自然的数据集,Google特别设计了收集问答的方法,从那些真正想要知道答案,但是还不知道答案的人那收集问题,Google给人们阅读以他们母语编写的维基百科文章,并且请他们问一个文章段落中没有答案的问题,仿真像是人们在街上逛街,看到新奇事物引发问题的那种场景。

这些问题直接由各种语言组成,没有经过翻译,因此许多问题跟之前发布的英文语料库不同,每一个问题,Google搜索出最适当的维基百科文章,并且请提问者从文章中找出答案。为了关注社群的研究进度,Google创建了排行榜,参与研究的社群成员可以借此评估自家系统的品质。