Facebook使用10亿张Instagram公开照片训练AI

以分享照片与视频为核心的社群平台Instagram,已是过去10年来全球最大的图片数据库之一,而母公司Facebook正在利用这个拥有超过10亿张公开图像的庞大数据库,训练AI人工智能模型。Facebook打造被简称为“SEER”(SElf-supERvised)的计算机视觉程序,在对象识别测试中的表现优于现有的AI模型。

许多AI模型是经过仔细标记的数据集进行训练,但Facebook表示SEER通过随机分析未标记、未分类的Instagram图像,学习了解如何识别照片中的对象,这种AI技术被称为自监督学习(Self-Supervised Learning,SSL)。

Facebook认为,AI未来在于创建可以直接从任何消息中学习的系统,运用包括文本、图片或者其他形式的数据,而无需依靠精心标记、分类的数据集来训练如何识别对象。

SEER的成果则展现,自监督学习可以胜任现实环境中的计算机视觉任务。Facebook认为这是一项突破,成为更加灵活、准确且适应性强的计算机视觉模型。

尽管这只是一个研究项目,但Facebook发言人指出,其发展潜力相当广泛,包括用于自动生成文本说明,来向视障者描述具体画面,能对在Facebook Marketplace上销售的商品进行自动分类,还能防止有害图像在Facebook平台传播。

不过,许多Instagram用户可能感到惊讶,他们公开的照片与视频被用于训练Facebook的AI系统。Facebook AI Research的软件工程师Priya Goyal指出,Instagram有在资料政策中告知用户,会使用所需的信息来支持创新研究,包括像这样图像训练AI的技术。

Priya Goyal还表示,将开源该程序部分的程序代码与研究细节,以便其他研究人员也能采用、进行试验,但不会共享图像信息或SEER模式。

(首图来源:Facebook AI)