Google发布3D真实物体资料集Objectron

Google发布最新的Objectron资料集,这是一个从不同角度,拍摄大量日常物体的视频集合,视频的特色是长度短,且物体总是位于中央,每个视频片段包含AR对话元资料,像是相机的位置以及稀疏点云,还有由人工标记的3D定界框(Bounding Box),以描述物体的位置、朝向和维度。

利用许多照片资料来训练机器学习模型,可使计算机视觉功能的表现越来越好,但Google提到,相较于目前应用在2D任务的图片资料集,例如ImageNet、COCO和Open Images,真实世界3D物体资料集仍不足,使得运用机器学习模型理解3D物体,仍是一项具有挑战性的任务。

因此Google发布了Objectron资料集,来补充不足的3D物体资料集,该资料集收集多角度拍摄物体视频,可以捕捉物体更多的3D结构之外,也提供方便用于诸如视频和摄影机流媒体等,计算机视觉任务的资料格式,有助于机器学习模型的训练以及创建基准。

Objectron资料集总共有1.5万个注解视频片段,并且有400万张注解图片作为补充,图片内容包括脚踏车、书、瓶子、照相机、谷物盒、椅子、杯子、笔记本和鞋子。为了确保资料集的多样性,资料集内容来自5大洲10个国家。

除了发布Objectron资料集,Google还在MediaPipe中发布,可用来侦测4类物体的3D物体侦测模型,包括鞋子、椅子、杯子和照相机,这些模型是利用Objectron资料集训练而成。MediaPipe是Google跨平台可定制化机器学习解决方案框架,能用来处理即时和流媒体,开发诸如设备上角膜或是姿势关注等应用。

与Google之前发布的单阶段Objectron模型不同,这些新版的模型采用双阶段基础架构,第一阶段应用TensorFlow对象侦测模型,来找出模型的2D剪裁,进到第二阶段,使用图像剪裁来估算3D定界框,并同时为下一个影格计算2D剪裁,Google提到,这个新方法不需要在每一个影格,都执行物体侦测器,使得性能更好,在Adreno 650行动GPU上,能够以83 FPS的速度执行。

发表评论