Google发布目前最大型的图文资料集WIT

Google推出了以维基百科为基础的大型多模态资料集WIT,借由截取维基百科中相关联的文本段落,以及维基媒体图像所组成,这些资料经过严格的筛选过滤,仅收集高品质的图像文本集。WIT资料集内置3,750万笔图文样本,包括了108种语言,和1,150张独特的图像。

研究人员提到,多模态视觉语言模型,依赖丰富的训练资料集,来对图像和文本之间的关系进行建模,而在过去,这些资料集必须通过手动,替图像加上标题,或是使用爬虫截取网页图片的替代文本,作为注解。

虽然人工制作的资料集品质较高,但是也因为需要大量的手动注解工作,因此限制了可以产生的资料量,相反的,虽然自动方法可以产生更大的资料集,但是需要以启发式方法,仔细过滤内容,来确保资料品质,以及模型的性能。而且当前的资料集还有另一个缺点,便是欠缺非英文的样本。

为此,Google研究人员制作了WIT资料集,提供一个包含多种内容的高品质、大型且多语言资料集。WIT是目前最大的公开图文范例资料集,其涵盖的语言比任何资料集还要多10倍,更重要的是,WIT和每个图像只有一个标题的典型多模态资料集不同,WIT中的图像注解为段落甚至是章节等级的上下文信息。

研究人员提到,WIT的目标是要在不牺牲品质和覆盖率的情况下,创建大量资料集,而由于目前维基百科是世界上最大的线上百科全书,因此他们决定使用维基百科来创建资料集。研究人员选择包含图片的维基百科页面,并且截取图像周围的文本,删除像是默认填充文本等,来确保资料的品质,研究人员也筛选图像,确保图像在一定尺寸以上,还排除仇恨言论,使其适用于各种研究上。

研究人员邀请人类编辑,来对WIT进行评估,在图文搭配上获得98%的满意度。由于维基百科涵盖广泛的概念,因此WIT评估资料集也可当作是具有挑战性的模型基准,研究人员表示,WIT资料集可以让其他研究人员,构建更好的多模态多语言模型,最终改善用于现实世界视觉语言任务的机器学习模型。