Google新算法改善从相机陷阱照片识别动物的能力

Google开发出新的物体侦测算法Context R-CNN,会将时间因素纳入考量,利用摄影机一个月拍摄到的图片,提升计算机视觉模型性能,这将使得新部署的摄影机,可在不依赖大量摄影机训练资料的情况下,提高物体识别的能力。

生态学家为了有效地进行生态监控,像是了解全球生态系统统变化,或是评估人类活动对生态造成的影响,需要耗费大量的精力摆设摄影机,以取得高品质的监控资料。虽然创建监控网络的成本越来越低,但是收集用于全球生物多样性资料的即时生态监控技术,仍然有其瓶颈。

Google提到,目前存在各种利用机器学习技术,自动执行分析的方法,但是用来监控山路状况以及生态系统统的静态摄影机,其拍摄的图片品质不佳,无法良好地应用在现有的计算机视觉技术中,原因在于野外静态摄影机电源以及存储容量的限制,使得图片采样频率太低,甚至一秒不到一影格,再加上部分摄影机以运动侦测触发,画面采样频率可能更不稳定。

此外,计算机视觉模型还需要能强健地处理模糊(下图)、没有对焦、物体在边缘或是光线不足等图片,而且除非静态摄影机被移动,否则便会始终拍摄同一个场景的图像,这使得来自任何一台的摄影机的图像,都有高度的重复性,在资料多样性不足的情况下,机器学习模型会将学习聚焦于背景关联,使得模型难以适用到新部署的摄影机。

现在许多研究团体合作,收集并由专家标记训练资料,每个研究小组提供一到数百个相机陷阱拍摄到的图像,以提高资料的多样性,但是因为资料收集和标记的过程很慢,而且要同时在跨地理区域和分类中达到多样性,是很不容易的事。为了解决这些问题,Google开发出了Context R-CNN,能够不依赖大量摄影机训练资料,而是利用时间上下文(Context)提高新部署摄影机识别物体的能力。

Context R-CNN是由热门的两阶段物体侦测基础架构Faster R-CNN改良而来,简单的来说,Context R-CNN利用同一台摄影机中长达一个月的图像作为上下文,以提升分类图像物体的正确性,这种方式与专家判断图像内物体的方法相似,图像中除了物体的形状以及大小之外,时间也是很重要的判断信息,像是一天中特定的时间或是习惯性放牧等背景信息,都有助于专家从大雾朦胧的图像中,识别图像中的物种是牛羚。这种方法能够良好地应用于摆放在野外,专门拍摄野生动物的相机陷阱,同时能改进对新摄影机部署的通用性,且不需要额外的人工资料标记。

与Faster R-CNN baseline(图左)相比,Context R-CNN(图右)能够从相同的图像中,识别出更多的动物,Google在Snapshot Serengeti(SS)Caltech相机陷阱(CCT)生态资料集测试了Context R-CNN法,这两个人信息料集分别收集自坦桑尼亚以及美国西南部,Context R-CNN在SS资料集的平均精度均值相对提高了47.5%,而在CCT的平均精度均值,则相对提高了34.3%。Google发现模型的性能,随着上下文时间范围的增加,从一分钟到一个月逐渐增加。

现在Google正于Wildlife Insights平台中实例Context R-CNN,计划利用相机陷阱进行大规模全球监控,Google提到,由于他们所开发的Context R-CNN是通用的,因此利用个别传感器的上下文资料,可提升任何静态传感器的性能。