Google要借助群众外包力量创建未知物测试资料集

Google推出了机器学习群众外包不良测试集CATS4ML（Crowdsourcing Adverse Test Sets for Machine Learning）挑战，要挑战者以创新方法，找出机器学习模型未知的未知物（Unknown Unknowns）范例。

CATS4ML将能挑战机器学习识别物体的能力，该测试集包含许多对算法难以处理的范例，而这将可发现机器学习以极高的信心程度，却分类错误的情况。CATS4ML的目的是提供资料集，供开发人员探索算法的弱点，同时也让研究人员，可以更好地创建基准测试资料集，使资料集更加平衡多样化。

Google提到，机器学习模型的性能，取决于算法，以及训练和评估的资料，虽然过去研究人员对改善算法和训练资料下了很多功夫，但是用来专门评估模型的资料和挑战并不普遍，而且现有的评估资料集都过于简单，识别上不容易发生歧异，当缺乏模棱两可的范例，也就无法真正测试机器学习模型的性能，而使得模型可能产生弱点。

所谓的弱点，是模型难以准确评估范例分类的情况，因为评估资料集缺乏该类范例，而弱点有两种，分为已知的未知物（Known Unknowns）以及未知的未知物，所谓已知的未知物是指模型无法确定分类正确性的范例，像是无法确定照片中的物体是不是猫，而未知的未知物则是那些，模型对答案很有把握，但是实际上却是错误分类的例子。

模型在处理已知的未知物，由于信心程度不足，系统通常会要求人员验证，因此即便判断错误，人们仍可以看到模型所不知道的东西，但是未知的未知物情况不同，人们通常需要主动发现错误，找出意料之外的机器行为。

而CATS4ML便是要广泛地收集未知的未知物，借由收集人类能够可靠地解释，但是模型处理困难的范例，以评估机器学习模型的能力。Google目前推出CATS4ML资料挑战第一版本，主要针对视觉识别任务，因此使用开发图像资料集的图像以及标签，挑战者可以使用全新且有创造力的方式，来进一步探索这个既存的公用资料集，找出机器学习模型未知的未知物范例。

前些时候，脸书人工智能研究院所推出了DynaBench动态基准测试平台，目的是要提供比当前基准测试更具挑战性的方法，愚弄人工智能模型，进而更好地评估模型品质，Google提到，CATS4ML是DynaBench的补充，DynaBench通过在测试循环中加入人类参与，解决静态基准测试的问题，而CATS4ML则是鼓励探索现有机器学习基准，找出未知的未知物，以避免模型未来可能发生的错误，也能强化模型的可解释性。