Google以视觉方法StylEx改进神经网络的可解释性

Google最新的模型可解释性研究,发展出一种称为StylEx的可视化分类器解释方法,StylEx能够自动探索和可视化个别特征对分类器的影响,用户可以通过单独操作属性,在不影响其他特征的情况,探索个别特征的影响。

StylEx适用的领域广泛,包括动物、树叶、脸部,甚至是视网膜图像,根据Google的研究表示,StylEx所找到的属性和语义属性吻合,能够生成有意义的特定图像解释,在研究中被人们解释。

研究人员提到,神经网络可以良好地执行特定任务,但是要了解神经网络做出决定的方法,却通常是个谜,难以知道像是模型使用哪些信号来识别图像分类。但是解释神经模型的决策过程,在部分领域是重要的,像是医疗用的图像分析,或是自动驾驶等,攸关性命的领域,特征分析有助于指引医疗提供者、披露模型偏差,并对下游决策者提供支持,甚至有助于科学发现。

过去对分类器进行视觉解释的方法,有像是Grad-CAM,能够突出显示图像中影响分类器的区域,但是没办法解释这些区域中,决定分类结果的属性有哪些,另一个研究GANalyze,则可以在分类之间平滑切换,借由转换图像来提供解释,但研究人员表示,这些方法往往会同时改变所有属性,难以隔离个别属性的影响。

而StylEx可以自动检测分离的属性,并可视化操作每个属性影响分类器的几率,用户可以查看这些属性,并且对这些内容进行语义上的解释,像是识别猫和狗的分类器(下图),StylEx能够得出多种属性,像是属性4狗比猫容易张嘴,属性5猫的瞳孔更像狭缝,属性1猫的耳朵倾向不折叠等。

StylEx适用领域广泛,包括二元和多样分类的分类器,在所有测试领域中,StylEx侦测到的前几个属性,与人类所解释的语义概念一致。研究人员特别强调,StylEx方法解释的对象是分类器,而非真实的情况,也就是说,该方法披露分类器从资料中学到的图像属性,而这些属性未必代表在现实中的类别标签。

这些StylEx侦测到的属性,可能会披露分类器训练或是资料集中的偏差,研究人员表示,这是StylEx的重要优点,因为可以用来进一步提高神经网络的公平性,像是增加训练资料集的范例,来补偿StylEx所披露的偏差。StylEx的贡献在于提供一种新技术,在分类器上给定图像或类别,可获得有意义的解释,研究人员认为,这个技术有助于缓解分类器和资料集中存在的偏差。