Google要借助群众外包力量创建未知物测试资料集

Google推出了机器学习群众外包不良测试集CATS4ML(Crowdsourcing Adverse Test Sets for Machine Learning)挑战,要挑战者以创新方法,找出机器学习模型未知的未知物(Unknown Unknowns)范例。

CATS4ML将能挑战机器学习识别物体的能力,该测试集包含许多对算法难以处理的范例,而这将可发现机器学习以极高的信心程度,却分类错误的情况。CATS4ML的目的是提供资料集,供开发人员探索算法的弱点,同时也让研究人员,可以更好地创建基准测试资料集,使资料集更加平衡多样化。

Google提到,机器学习模型的性能,取决于算法,以及训练和评估的资料,虽然过去研究人员对改善算法和训练资料下了很多功夫,但是用来专门评估模型的资料和挑战并不普遍,而且现有的评估资料集都过于简单,识别上不容易发生歧异,当缺乏模棱两可的范例,也就无法真正测试机器学习模型的性能,而使得模型可能产生弱点。

所谓的弱点,是模型难以准确评估范例分类的情况,因为评估资料集缺乏该类范例,而弱点有两种,分为已知的未知物(Known Unknowns)以及未知的未知物,所谓已知的未知物是指模型无法确定分类正确性的范例,像是无法确定照片中的物体是不是猫,而未知的未知物则是那些,模型对答案很有把握,但是实际上却是错误分类的例子。

模型在处理已知的未知物,由于信心程度不足,系统通常会要求人员验证,因此即便判断错误,人们仍可以看到模型所不知道的东西,但是未知的未知物情况不同,人们通常需要主动发现错误,找出意料之外的机器行为。

而CATS4ML便是要广泛地收集未知的未知物,借由收集人类能够可靠地解释,但是模型处理困难的范例,以评估机器学习模型的能力。Google目前推出CATS4ML资料挑战第一版本,主要针对视觉识别任务,因此使用开发图像资料集的图像以及标签,挑战者可以使用全新且有创造力的方式,来进一步探索这个既存的公用资料集,找出机器学习模型未知的未知物范例。

前些时候,脸书人工智能研究院所推出了DynaBench动态基准测试平台,目的是要提供比当前基准测试更具挑战性的方法,愚弄人工智能模型,进而更好地评估模型品质,Google提到,CATS4ML是DynaBench的补充,DynaBench通过在测试循环中加入人类参与,解决静态基准测试的问题,而CATS4ML则是鼓励探索现有机器学习基准,找出未知的未知物,以避免模型未来可能发生的错误,也能强化模型的可解释性。