Google发布少样本学习资料集Meta-Dataset

Google发布Meta-Dataset，这是一个用于少样本（Few-Shot）学习研究的资料，在这个人信息料集中，Google提出了一个大规模且多样化的基准，可用于测量不同图像分类模型的能力，并提供一个用来研究少样本学习的框架。

Google提到，虽然最近深度学习在一些难题上，都取得了重要的进展，但是这些成功的应用，通常来自于大量需要手动注解的训练资料，因此这也显示出了少样本学习的研究价值，从科学的角度来看，深度学习算法从有限样本中学习的能力，与人类相比的确存在明显的差距，而另一方面，从实际应用的角度来看，少样本学习也是一个很重要的课题，可让模型解决缺乏大型标签资料集的问题，使机器学习应用更加普遍。

近来有许多针对少样本分类的研究，不过之前的基准测试皆无法可靠地评估每个模型相对的优点，因此阻碍了研究发展。Meta-Dataset由10个公开图像资料集组成，包含ImageNet、Fungi和CUB-200-2011，还有一些手写字符和涂鸦图像等，Google还公开了程序代码，其中包含了笔记本，展示使用TensorFlow和PyTorch应用资料集的方法，以及使用Meta-Dataset对现存少样本图像分类模型，进行初步研究的成果。

标准图像分类会用一组特定类别的图像资料集来训练模型，并使用同类别的图像测试模型性能，而少样本分类的目的则是训练出灵活的模型，希望仅使用几个范例就可重新使模型能分类新的图像类别，Meta-Dataset最终目标是要让模型，能够在各种测试任务都能表现良好，并且处理在训练阶段未曾看过的类别。

Meta-Dataset是目前用于少样本图像分类研究中，最大型的跨资料集组织基准，而且其使用了特殊的采样算法，能够改变每个任务中的类别数和每个类别案例数，通过加入类别不平衡和特定资料集，来改变每个任务之间的类别相似度。

在利用Meta Dataset评估当前预训练和元学习模型之后，Google得出了一些结论，目前的方法都难以使用异构训练数据源，而有部分模型，比其他模型还要能够利用资料，Google提到，Meta Dataset为少样本分类带来新的挑战，并且在初步的研究，已经发现了现有方法的限制，找到需要进一步研究的方向，Google希望Meta Dataset能推动少样本学习这个机器学习子领域的研究。