Google发布少样本学习资料集Meta-Dataset

Google发布Meta-Dataset,这是一个用于少样本(Few-Shot)学习研究的资料,在这个人信息料集中,Google提出了一个大规模且多样化的基准,可用于测量不同图像分类模型的能力,并提供一个用来研究少样本学习的框架。

Google提到,虽然最近深度学习在一些难题上,都取得了重要的进展,但是这些成功的应用,通常来自于大量需要手动注解的训练资料,因此这也显示出了少样本学习的研究价值,从科学的角度来看,深度学习算法从有限样本中学习的能力,与人类相比的确存在明显的差距,而另一方面,从实际应用的角度来看,少样本学习也是一个很重要的课题,可让模型解决缺乏大型标签资料集的问题,使机器学习应用更加普遍。

近来有许多针对少样本分类的研究,不过之前的基准测试皆无法可靠地评估每个模型相对的优点,因此阻碍了研究发展。Meta-Dataset由10个公开图像资料集组成,包含ImageNet、Fungi和CUB-200-2011,还有一些手写字符和涂鸦图像等,Google还公开了程序代码,其中包含了笔记本,展示使用TensorFlow和PyTorch应用资料集的方法,以及使用Meta-Dataset对现存少样本图像分类模型,进行初步研究的成果。

标准图像分类会用一组特定类别的图像资料集来训练模型,并使用同类别的图像测试模型性能,而少样本分类的目的则是训练出灵活的模型,希望仅使用几个范例就可重新使模型能分类新的图像类别,Meta-Dataset最终目标是要让模型,能够在各种测试任务都能表现良好,并且处理在训练阶段未曾看过的类别。

Meta-Dataset是目前用于少样本图像分类研究中,最大型的跨资料集组织基准,而且其使用了特殊的采样算法,能够改变每个任务中的类别数和每个类别案例数,通过加入类别不平衡和特定资料集,来改变每个任务之间的类别相似度。

在利用Meta Dataset评估当前预训练和元学习模型之后,Google得出了一些结论,目前的方法都难以使用异构训练数据源,而有部分模型,比其他模型还要能够利用资料,Google提到,Meta Dataset为少样本分类带来新的挑战,并且在初步的研究,已经发现了现有方法的限制,找到需要进一步研究的方向,Google希望Meta Dataset能推动少样本学习这个机器学习子领域的研究。