Google新算法改善从相机陷阱照片识别动物的能力

Google开发出新的物体侦测算法Context R-CNN，会将时间因素纳入考量，利用摄影机一个月拍摄到的图片，提升计算机视觉模型性能，这将使得新部署的摄影机，可在不依赖大量摄影机训练资料的情况下，提高物体识别的能力。

生态学家为了有效地进行生态监控，像是了解全球生态系统统变化，或是评估人类活动对生态造成的影响，需要耗费大量的精力摆设摄影机，以取得高品质的监控资料。虽然创建监控网络的成本越来越低，但是收集用于全球生物多样性资料的即时生态监控技术，仍然有其瓶颈。

Google提到，目前存在各种利用机器学习技术，自动执行分析的方法，但是用来监控山路状况以及生态系统统的静态摄影机，其拍摄的图片品质不佳，无法良好地应用在现有的计算机视觉技术中，原因在于野外静态摄影机电源以及存储容量的限制，使得图片采样频率太低，甚至一秒不到一影格，再加上部分摄影机以运动侦测触发，画面采样频率可能更不稳定。

此外，计算机视觉模型还需要能强健地处理模糊（下图）、没有对焦、物体在边缘或是光线不足等图片，而且除非静态摄影机被移动，否则便会始终拍摄同一个场景的图像，这使得来自任何一台的摄影机的图像，都有高度的重复性，在资料多样性不足的情况下，机器学习模型会将学习聚焦于背景关联，使得模型难以适用到新部署的摄影机。

现在许多研究团体合作，收集并由专家标记训练资料，每个研究小组提供一到数百个相机陷阱拍摄到的图像，以提高资料的多样性，但是因为资料收集和标记的过程很慢，而且要同时在跨地理区域和分类中达到多样性，是很不容易的事。为了解决这些问题，Google开发出了Context R-CNN，能够不依赖大量摄影机训练资料，而是利用时间上下文（Context）提高新部署摄影机识别物体的能力。

Context R-CNN是由热门的两阶段物体侦测基础架构Faster R-CNN改良而来，简单的来说，Context R-CNN利用同一台摄影机中长达一个月的图像作为上下文，以提升分类图像物体的正确性，这种方式与专家判断图像内物体的方法相似，图像中除了物体的形状以及大小之外，时间也是很重要的判断信息，像是一天中特定的时间或是习惯性放牧等背景信息，都有助于专家从大雾朦胧的图像中，识别图像中的物种是牛羚。这种方法能够良好地应用于摆放在野外，专门拍摄野生动物的相机陷阱，同时能改进对新摄影机部署的通用性，且不需要额外的人工资料标记。

与Faster R-CNN baseline（图左）相比，Context R-CNN（图右）能够从相同的图像中，识别出更多的动物，Google在Snapshot Serengeti（SS）Caltech相机陷阱（CCT）生态资料集测试了Context R-CNN法，这两个人信息料集分别收集自坦桑尼亚以及美国西南部，Context R-CNN在SS资料集的平均精度均值相对提高了47.5%，而在CCT的平均精度均值，则相对提高了34.3%。Google发现模型的性能，随着上下文时间范围的增加，从一分钟到一个月逐渐增加。

现在Google正于Wildlife Insights平台中实例Context R-CNN，计划利用相机陷阱进行大规模全球监控，Google提到，由于他们所开发的Context R-CNN是通用的，因此利用个别传感器的上下文资料，可提升任何静态传感器的性能。