非监督式学习如何对移动物体进行深度预测?Google找到新方法解决

对开发自主机器人而言,感知场景深度是一项重要的任务,准确地预估机器人与物体的距离,是自动导航、回避障碍物,安全规划等能力的关键,Google研究团队最近提出一项创新的作法,来产生移动物体的深度评价结果,跟过去的方法相比,Google的新方法,能够重现移动物体正确的深度,为了鼓励开发社群开发出更多高端的方法,Google也将这次的研究通过TensorFlow在GitHub中开源发布。

深度的感知可以通过传感器数据来学习,也能依赖机器人移动产生的不同场景图像,用非监督式的方法学习,在移动的过程中,机器人也会学习到自我运动(ego-motion),来定位自身的位置,这种方法实行有些年头,近期也有不少研究加入深度神经网络来训练模型,不过,学习预测场景的深度和自我运动还是具有挑战性,尤其是处理高动态场景时和评价移动物体的适当深度时,因为过去的研究并没有针对移动中的物体创建模块,因此在评价移动物体的深度时,结果通常是输出无限深度的错误评价。

Google找到新的方法解决了用单眼(monocular)相机,预测深度和自我运动的无监督学习问题,也解决了高动态场景中的问题,新方法的主要想法就是将结构导入学习框架,也就是说,不直接通过神经网络来学习场景的深度,而是将场景视为包含机器人本身和移动物体的3D图像,并将个别的运动分为独立的转换(transformation),包含场景中用来创建3D几何学和评价物体运动的转换角度(rotation)和相对位移(translation)。除此之外,了解可能移动的物体,像是车子、行人或是脚踏车等,也有助于学习不同的运动矢量。尤其是在高动态的场景,将场景拆解为3D和独立的物体,能够提升深度和自我运动的学习。

Google用城市驾驶的数据集KITTI和Cityscapes测试该方法,发现新方法的成果胜过现行的做法,更重要的是,该方法能够正确地重现与自我运动车辆移动速度相同的车辆的深度,这项工作在之前是一项很大的挑战,因为在这种情况下,移动的车辆显示为静止,显示出与静态地平线一样的特征,因此,过去的判断方法会将其视为无限的深度。此外,也因为Google的新方法是单独处理物体,算法能够针对每个单独的物体计算运动矢量,来评价物体移动的方向。

除了上述的成果之外,Google还表示,该研究也提供未来研究非监督式方法的方向,相较于立体视觉(Stereo)和光达(Light Detection And Ranging,LiDAR)传感器,单眼数据相对较便宜,且更容易部署。