脸书发布新资料集供研究人员评估人脸识别系统偏见

脸书发布其最新人工智能公平性与偏见研究,开源一个称为Casual Conversations的资料集,该资料集包含了45,186支参与者无脚本对话视频,可让人工智能研究人员研究人们的年龄、性别、表观肤色和环境照明,来提升计算机视觉和音频模型的公平性。

脸书研究人员提到,人们可能无意识地对许多日常事物产生偏见,而这些偏见可能会进入人工智能模型的训练资料中,并且在应用中放大这些偏见,对个人或是特定群体带来有害的后果,而这是目前整个人工智能产业所面临的挑战。

当模型无法从足以反映所有肤色的资料集中学习,智能相机在识别特定群体时,就会不太准确,又或是在医疗保健中,部分决策算法已经被证明,因为使用存在缺陷的基准,因此可能不公平地排除部分群体,以致于他们无法获取需要的治疗。

现在人工智能应用普遍被发现存在偏见,研究人员提到,作为一个研究领域,对于了解人工智能公平性和偏见,现在仍处在早期的阶段。有鉴于脸书的产品与服务,对于社会整体有一定的影响力,因此为了取得有意义的进步,研究人员不仅需要考量人工智能系统的性能,还要考虑其所处的结构,并且从多个维度考虑公平性,

虽然公平性不仅取决于应用程序,还跟产品的使用环境、文化和社群有关,但是技术实例是完成公平性的重要部分。研究人员表示,在提高人工智能系统公平上,一大挑战是缺乏用来评估人工智能系统偏见的高品质资料集。

为了解决这个棘手的问题,脸书现在发布了一个独特的人像视频资料集,Casual Conversations资料集是第一个通过拍摄付费演员的公开视频资料集,资料集中的演员皆同意参加该项目,并且明确提供年龄和性别,除此之外,该资料集还包括肤色标签,这些标签是由受过训练的注解人员,使用费氏量表(Fitzpatrick Scale)标记参与者的肤色,让人工智能研究人员得以分析系统在不同肤色和弱光环境条件下的表现。

Casual Conversations资料集由30,011名参与者,所拍摄的45,186部视频组成,这些视频都是在美国拍摄,脸书没有披露参与者来自何地。脸书提到,Casual Conversations资料集的目的是用于评估计算机视觉和音频应用模型的性能,禁止使用在包括识别性别、年龄和肤色等特定的任务上。

由于脸书在收集参与者的性别时,提供了男性、女性和其他三个选项,但这样的描述不够完善,不能代表所有性别,不适用自我认同是非二元性别的人,研究人员提到,Casual Conversations资料集已经是一大进步,但他们会继续努力,以捕捉更多的性别差异,并且尊重人们的隐私,在接下来一年里,他们还会探索各种途径来扩展这个人信息料集,使其更具包容性,也能广泛地涵盖各种性别认同、年龄、地理位置、活动和特征。

脸书也已经使用Casual Conversations资料集来评估人工智能系统,将其用于衡量Deepfake侦测挑战赛中参赛者系统。Deepfake侦测器是用来区分人工智能与真实人像差异的程序,试图发现篡改的图像,而脸书对Deepfake侦测挑战赛的前5名,使用Casual Conversations资料集,结果发现这些Deepfake侦测器都难以辨别具有深色肤色人像的伪造视频,而最具平衡性的预测模型,则是当初的第三名。