Google正式发布具有Lens功能的Google Go App

Google现在于Google Go应用程序中加入Google Lens文本识别功能，除了能够翻译照片中的文本之外，还可以将翻译的文本朗读取来，提供无法读写或是文本语言不通的人们，有效获取文本信息的方法。拥有Lens功能的新版Google Go已经正式推出，用户可以开始试用这些新功能。

过去Google Go仅在Android Go设备以及特定市场的Google Play商店，直到最近Google Go才开始在全球Google Play商店上架。不过，Google Go要加入Lens功能，设备必须要能够截取高分辨率的图像，Google提到，要在入门级的设备上处理高分辨率图像并不简单，比起旗舰级的手机有更多的限制。

因此Google Go采用了Android支持函数库中，一个称为CameraX的新图像函数库，CameraX是Android Camera2 API的抽象层，可以解决设备兼容性，开发者不再需要为各种设备编写特别的程序代码，就能够以最小延迟且可靠地捕捉高品质的图像。

使用CameraX的Google Go，在高端设备与低端设备采取不同的策略，高端设备可以持续捕捉高分辨率影格，但Google提到，在低端设备上串流影格，可能会导致图片出现严重延迟，因此会在用户点击拍摄按钮时，才会产生单一高分辨率的图像。

接着要为捕捉到的照片进行文本识别，Google Go会将照片缩小并发送到Lens服务器，以OCR技术侦测字符的包围矩形（Bounding Box）并整合成行（下图），以进行文本识别。Google提到，由于Google Go捕捉到的图像可能包含了招牌、手写和文件等各式来源，文本可能有独特风格之外，图片还可能是模糊的，这些问题都可导致OCR引擎识别错误，因此Lens功能会利用单词附近的内容，自动校正错误，并且利用知识图（Knowledge Graph），判断专有名词而不进行翻译。

翻译出单词后，接下来的工作是要把这些单词组合在一起，像是报纸有标题、文章和广告，公共汽车时刻表有起始地、目的地和时间，每种文本有其结构，Google利用卷积神经网络（Convolutional Neural Networks，CNN）通过判列、颜色或是样式等信息，以检测连贯的文本块，并在同一个文本块中，以文本对齐、语言和段落等信号，判断最终阅读顺序。而用户拍摄照片会影响检测文件结构难易度，当照片视角扭曲时，系统便无法反推轴对齐包围矩形（Axis Aligned Box），Google提到，他们需要持续改进Lens功能，加强对失真的处理能力。

Google Go的Lens功能，使用了Google翻译的神经机器翻译（Neural Machine Translation，NMT）算法，一次翻译一整个句子，而为了使翻译结果更实用，Lens会在图片画面上，直接以翻译文本覆盖图片，像对ATM按钮的翻译，Google Lens会直接在按钮上覆盖经翻译的文本，而且考虑到呈现的结果，系统还会调整字体大小以及显示的背景颜色等要素，尽可能无缝地与图像叠加。

最后一个阶段是以语音朗读翻译文本，其使用了Google文本转语音服务（Text-to-Speech，TTS），并使用DeepMind的WaveNet技术，将文本转成逼真的人声语音。在发音的时候，屏幕上的文本也会出现伴唱机的歌词效果，指示语音与相对应的文本。