Google用计算机视觉技术助视障也能独自路跑

Google和导盲犬学校Guiding Eyes for the Blind公司合作，发布了一个无障碍研究项目Project Guideline，该项目使用机器学习技术，引导视障者在有标线的马路上独自慢跑。Guideline系统需要用户使用特别定制的腰带配挂移动设备，搭配骨传导耳机，并且只能跑在有油漆或是贴有胶带的路径上。

Guideline的核心技术是设备上分割模型，该模型会使用移动设备影格作为输入，并将影格中的每个像素分割为标线或是非标线（下图），官方提到，这个简单的遮罩会应用到每一个影格中，供Guideline应用程序可以不需位置资料，就能够预测跑步者相对于路径上标线的位置。使用模型的预测资料，应用程序会向跑步者发送音频，指引他们保持在直线上，一旦跑步者远离标线太多，系统也会通过声音警告跑步者。

在不可预测的环境中，要引导视障者跑步存在许多挑战，Google提到，系统必须具备足够的准确性、系统性能，还要有许多训练资料。由于视障者的行动能力受到限制，在马路上跑步存在危险性，机器学习模型要足够精确且通用，才能确保跑步者在不同位置，和各种环境条件的安全性。

除了用户的安全问题，系统性能还必须至少每秒处理15影格，才能对跑步者提供即时反馈，当跑步的路径没有资料服务就只能脱机运行，且设备执行时间必须至少3小时，不能耗尽手机电池。Google提到，为了训练分割模型，需要用到大量包含标线的道路行进视频，而且为了使模型更加通用，资料多样性和丰富度都相当重要，必需要收集一天中不同时、光照、天气条件和拍摄位置的视频。

由于要满足延迟和功耗要求，研究人员选择在DeepLabv3框架上构建标线分割模型，并且利用MobilenetV3-Small作为主干。考虑到移动设备的处理速度，研究人员将摄影镜头视频像素下降到513×513，作为DeepLab分割模型的输入，且为了要进一步加速DeepLab模型在设备上的执行速度，研究人员决定略过最后的升采样层，直接输出65×65像素的预测遮罩，作为后处理的输入。借由在两阶段优化输入分辨率，研究人员得以改进分割模型执行，并且加速后处理。

收集训练资料是Project Guideline项目困难之处，研究人员解释（下图），训练资料之所以无法使用公开资料集的道路训练图片，是因为这些资料集都是在车顶安装摄影镜头，并且车辆驾驶在标线中间所拍摄的视频，这与Project Guideline项目需求差距甚远，该项目需要的训练资料，是要在人的腰间挂上摄影机，并且直线前进的视频。

现有的公开资料集都帮不上忙，因此研究人员只好重头开始创建资料集，以人工收集资料的方法，在道路上手动铺设胶带，拍摄在不同时和天气条件下，行走于标线周围的视频，研究人员也创建自定义渲染工作管线，以合成的方式快速产出各种条件的训练资料。

端到端系统使用深度学习函数库Tensorflow Lite和机器学习工具ML Kit，可在Pixel设备上快速执行，Pixel 4 XL上达到29+ FPS，而在Pixel 5上则达到20+ FPS，分割模型在Pixel 4 XL延迟为6毫秒，Pixel 5则为12毫秒，模型的影格成功率达到99.5%，平均交并比（mIOU）则有93%。

Guiding Eyes for the Blind首席执行官Thomas Panek作为Project Guideline测试者，只使用了一副骨传导耳机和执行Guideline技术的移动电话，在无辅助的情况下，成功在纽约中央公园慢跑5公里。Google提到，现在该项目仍处于探索阶段，他们仍持续改善该系统，除了要收集更多的用户反馈资料外，也要改进分割模型使其更加通用强健。