Google正式发布具有Lens功能的Google Go App

Google现在于Google Go应用程序中加入Google Lens文本识别功能,除了能够翻译照片中的文本之外,还可以将翻译的文本朗读取来,提供无法读写或是文本语言不通的人们,有效获取文本信息的方法。拥有Lens功能的新版Google Go已经正式推出,用户可以开始试用这些新功能。

过去Google Go仅在Android Go设备以及特定市场的Google Play商店,直到最近Google Go才开始在全球Google Play商店上架。不过,Google Go要加入Lens功能,设备必须要能够截取高分辨率的图像,Google提到,要在入门级的设备上处理高分辨率图像并不简单,比起旗舰级的手机有更多的限制。

因此Google Go采用了Android支持函数库中,一个称为CameraX的新图像函数库,CameraX是Android Camera2 API的抽象层,可以解决设备兼容性,开发者不再需要为各种设备编写特别的程序代码,就能够以最小延迟且可靠地捕捉高品质的图像。

使用CameraX的Google Go,在高端设备与低端设备采取不同的策略,高端设备可以持续捕捉高分辨率影格,但Google提到,在低端设备上串流影格,可能会导致图片出现严重延迟,因此会在用户点击拍摄按钮时,才会产生单一高分辨率的图像。

接着要为捕捉到的照片进行文本识别,Google Go会将照片缩小并发送到Lens服务器,以OCR技术侦测字符的包围矩形(Bounding Box)并整合成行(下图),以进行文本识别。Google提到,由于Google Go捕捉到的图像可能包含了招牌、手写和文件等各式来源,文本可能有独特风格之外,图片还可能是模糊的,这些问题都可导致OCR引擎识别错误,因此Lens功能会利用单词附近的内容,自动校正错误,并且利用知识图(Knowledge Graph),判断专有名词而不进行翻译。

翻译出单词后,接下来的工作是要把这些单词组合在一起,像是报纸有标题、文章和广告,公共汽车时刻表有起始地、目的地和时间,每种文本有其结构,Google利用卷积神经网络(Convolutional Neural Networks,CNN)通过判列、颜色或是样式等信息,以检测连贯的文本块,并在同一个文本块中,以文本对齐、语言和段落等信号,判断最终阅读顺序。而用户拍摄照片会影响检测文件结构难易度,当照片视角扭曲时,系统便无法反推轴对齐包围矩形(Axis Aligned Box),Google提到,他们需要持续改进Lens功能,加强对失真的处理能力。

Google Go的Lens功能,使用了Google翻译的神经机器翻译(Neural Machine Translation,NMT)算法,一次翻译一整个句子,而为了使翻译结果更实用,Lens会在图片画面上,直接以翻译文本覆盖图片,像对ATM按钮的翻译,Google Lens会直接在按钮上覆盖经翻译的文本,而且考虑到呈现的结果,系统还会调整字体大小以及显示的背景颜色等要素,尽可能无缝地与图像叠加。

最后一个阶段是以语音朗读翻译文本,其使用了Google文本转语音服务(Text-to-Speech,TTS),并使用DeepMind的WaveNet技术,将文本转成逼真的人声语音。在发音的时候,屏幕上的文本也会出现伴唱机的歌词效果,指示语音与相对应的文本。