Google发布目前最大型的图文资料集WIT

Google推出了以维基百科为基础的大型多模态资料集WIT，借由截取维基百科中相关联的文本段落，以及维基媒体图像所组成，这些资料经过严格的筛选过滤，仅收集高品质的图像文本集。WIT资料集内置3,750万笔图文样本，包括了108种语言，和1,150张独特的图像。

研究人员提到，多模态视觉语言模型，依赖丰富的训练资料集，来对图像和文本之间的关系进行建模，而在过去，这些资料集必须通过手动，替图像加上标题，或是使用爬虫截取网页图片的替代文本，作为注解。

虽然人工制作的资料集品质较高，但是也因为需要大量的手动注解工作，因此限制了可以产生的资料量，相反的，虽然自动方法可以产生更大的资料集，但是需要以启发式方法，仔细过滤内容，来确保资料品质，以及模型的性能。而且当前的资料集还有另一个缺点，便是欠缺非英文的样本。

为此，Google研究人员制作了WIT资料集，提供一个包含多种内容的高品质、大型且多语言资料集。WIT是目前最大的公开图文范例资料集，其涵盖的语言比任何资料集还要多10倍，更重要的是，WIT和每个图像只有一个标题的典型多模态资料集不同，WIT中的图像注解为段落甚至是章节等级的上下文信息。

研究人员提到，WIT的目标是要在不牺牲品质和覆盖率的情况下，创建大量资料集，而由于目前维基百科是世界上最大的线上百科全书，因此他们决定使用维基百科来创建资料集。研究人员选择包含图片的维基百科页面，并且截取图像周围的文本，删除像是默认填充文本等，来确保资料的品质，研究人员也筛选图像，确保图像在一定尺寸以上，还排除仇恨言论，使其适用于各种研究上。

研究人员邀请人类编辑，来对WIT进行评估，在图文搭配上获得98%的满意度。由于维基百科涵盖广泛的概念，因此WIT评估资料集也可当作是具有挑战性的模型基准，研究人员表示，WIT资料集可以让其他研究人员，构建更好的多模态多语言模型，最终改善用于现实世界视觉语言任务的机器学习模型。