Google用计算机视觉技术助视障也能独自路跑

Google和导盲犬学校Guiding Eyes for the Blind公司合作,发布了一个无障碍研究项目Project Guideline,该项目使用机器学习技术,引导视障者在有标线的马路上独自慢跑。Guideline系统需要用户使用特别定制的腰带配挂移动设备,搭配骨传导耳机,并且只能跑在有油漆或是贴有胶带的路径上。

Guideline的核心技术是设备上分割模型,该模型会使用移动设备影格作为输入,并将影格中的每个像素分割为标线或是非标线(下图),官方提到,这个简单的遮罩会应用到每一个影格中,供Guideline应用程序可以不需位置资料,就能够预测跑步者相对于路径上标线的位置。使用模型的预测资料,应用程序会向跑步者发送音频,指引他们保持在直线上,一旦跑步者远离标线太多,系统也会通过声音警告跑步者。

在不可预测的环境中,要引导视障者跑步存在许多挑战,Google提到,系统必须具备足够的准确性、系统性能,还要有许多训练资料。由于视障者的行动能力受到限制,在马路上跑步存在危险性,机器学习模型要足够精确且通用,才能确保跑步者在不同位置,和各种环境条件的安全性。

除了用户的安全问题,系统性能还必须至少每秒处理15影格,才能对跑步者提供即时反馈,当跑步的路径没有资料服务就只能脱机运行,且设备执行时间必须至少3小时,不能耗尽手机电池。Google提到,为了训练分割模型,需要用到大量包含标线的道路行进视频,而且为了使模型更加通用,资料多样性和丰富度都相当重要,必需要收集一天中不同时、光照、天气条件和拍摄位置的视频。

由于要满足延迟和功耗要求,研究人员选择在DeepLabv3框架上构建标线分割模型,并且利用MobilenetV3-Small作为主干。考虑到移动设备的处理速度,研究人员将摄影镜头视频像素下降到513×513,作为DeepLab分割模型的输入,且为了要进一步加速DeepLab模型在设备上的执行速度,研究人员决定略过最后的升采样层,直接输出65×65像素的预测遮罩,作为后处理的输入。借由在两阶段优化输入分辨率,研究人员得以改进分割模型执行,并且加速后处理。

收集训练资料是Project Guideline项目困难之处,研究人员解释(下图),训练资料之所以无法使用公开资料集的道路训练图片,是因为这些资料集都是在车顶安装摄影镜头,并且车辆驾驶在标线中间所拍摄的视频,这与Project Guideline项目需求差距甚远,该项目需要的训练资料,是要在人的腰间挂上摄影机,并且直线前进的视频。

现有的公开资料集都帮不上忙,因此研究人员只好重头开始创建资料集,以人工收集资料的方法,在道路上手动铺设胶带,拍摄在不同时和天气条件下,行走于标线周围的视频,研究人员也创建自定义渲染工作管线,以合成的方式快速产出各种条件的训练资料。

端到端系统使用深度学习函数库Tensorflow Lite和机器学习工具ML Kit,可在Pixel设备上快速执行,Pixel 4 XL上达到29+ FPS,而在Pixel 5上则达到20+ FPS,分割模型在Pixel 4 XL延迟为6毫秒,Pixel 5则为12毫秒,模型的影格成功率达到99.5%,平均交并比(mIOU)则有93%。

Guiding Eyes for the Blind首席执行官Thomas Panek作为Project Guideline测试者,只使用了一副骨传导耳机和执行Guideline技术的移动电话,在无辅助的情况下,成功在纽约中央公园慢跑5公里。Google提到,现在该项目仍处于探索阶段,他们仍持续改善该系统,除了要收集更多的用户反馈资料外,也要改进分割模型使其更加通用强健。