Facebook使用10亿张Instagram公开照片训练AI

以分享照片与视频为核心的社群平台Instagram，已是过去10年来全球最大的图片数据库之一，而母公司Facebook正在利用这个拥有超过10亿张公开图像的庞大数据库，训练AI人工智能模型。Facebook打造被简称为“SEER”（SElf-supERvised）的计算机视觉程序，在对象识别测试中的表现优于现有的AI模型。

许多AI模型是经过仔细标记的数据集进行训练，但Facebook表示SEER通过随机分析未标记、未分类的Instagram图像，学习了解如何识别照片中的对象，这种AI技术被称为自监督学习（Self-Supervised Learning，SSL）。

Facebook认为，AI未来在于创建可以直接从任何消息中学习的系统，运用包括文本、图片或者其他形式的数据，而无需依靠精心标记、分类的数据集来训练如何识别对象。

SEER的成果则展现，自监督学习可以胜任现实环境中的计算机视觉任务。Facebook认为这是一项突破，成为更加灵活、准确且适应性强的计算机视觉模型。

尽管这只是一个研究项目，但Facebook发言人指出，其发展潜力相当广泛，包括用于自动生成文本说明，来向视障者描述具体画面，能对在Facebook Marketplace上销售的商品进行自动分类，还能防止有害图像在Facebook平台传播。

不过，许多Instagram用户可能感到惊讶，他们公开的照片与视频被用于训练Facebook的AI系统。Facebook AI Research的软件工程师Priya Goyal指出，Instagram有在资料政策中告知用户，会使用所需的信息来支持创新研究，包括像这样图像训练AI的技术。

Priya Goyal还表示，将开源该程序部分的程序代码与研究细节，以便其他研究人员也能采用、进行试验，但不会共享图像信息或SEER模式。

（首图来源：Facebook AI）