Google发布MediaPipe Iris模型,可精确关注角膜测量深度

Google发布MediaPipe Iris,这是一个利用眼睛角膜来测量深度的机器学习新模型,可精确测量相机到人物距离。而MediaPipe则是一个跨平台人工智能工作管线框架,让开发人员简单地构建机器学习解决方案,可以在手机、台式机、笔记本或是网页上执行。

不少人脸识别相关应用,都需要依赖关注角膜来估计眼睛的位置,像是计算人脸虚拟眼镜和帽子的大小,或是根据用户和设备的距离,调整设备字体大小,以强化设备的可用性,Google提到,只要能准确地关注角膜,就可以在不需要深度传感器的情况下,测得相机距离人物的距离。

不过要在移动设备上关注角膜,并非一件简单的事,因为设备有限的计算资源,再加上变动的光照条件和屏蔽物,通常需要使用复杂的专用硬件,才能克服这些限制。而Google现在推出的MediaPipe Iris,是以MediaPipe上的Face Mesh为基础创建的模型,能够使用单个RGB摄影机,即时关注角膜、瞳孔和眼睛轮廓,在不使用专用深度传感器,可使深度测量的相对误差小于10%。

角膜关注的机器学习工作管线第一步,是以Face Mesh生成高逼真度的人脸几何网格,再从网格分离出眼睛区域,将其应用在角膜关注模型中。接下来的工作分为两部分,分别是眼睛轮廓评估以及角膜定位,研究人员人工标注了5万笔眼睛区域训练资料,以呈现眼睛在各种光照情况和头部姿势,可能出现的各种可能性。

接下来,MediaPipe Iris则要利用角膜算出深度,研究人员提到,人眼角膜直经约是11.7±0.5 mm,而相机与人物的距离,可利用焦距和脸部特征估得,只要从图片的EXIF元资料,或是相机的参数取得相机焦距,由于焦距和眼睛角膜成像的大小,与相机到人物距离和角膜实际大小成比例,如此便可计算出相机到人物的距离。

为了确认这个方法的准确度,研究人员找来200位参与者,利用MediaPipe Iris以及iPhone 11上的深度传感器进行比较,并使用激光测距仪验证,在2米内,iPhone 11深度传感器误差小于2%,而MediaPipe Iris平均相对误差为4.3%,标准差为2.4%。

不过,当受试者有戴眼镜,则相对误差会略提高到4.8%,研究人员提到,由于MediaPipe Iris不需要专门的硬件,因此这样的结果显示,该方法已经可以在广泛甚至低成本的设备上,使用单张图像测量深度,而限制则是无法用于判断人们观看的位置,以及任何形式的身份识别。

Google即将在MediaPipe工作管线上发布MediaPipe Iris模型,该模型可在台式机、移动设备和网页上运行,研究人员提到,他们利用WebAssembly和XNNPACK,在浏览器上执行Iris机器学习工作管线,不会将任何资料送到云计算上运算。