RetroArch万用仿真器语音朗读功能再进化,自动翻译呼之欲出

先前笔者曾介绍过RetroArch将通过光学文本系统(OCR)自动识别游戏字幕,并通过语音引擎将文本念出来的功能,别急,这个功能还在开发中,不过从进度更新中,我们可以看到朗读的流畅度明显提升,而且官方也表示将会集成翻译功能,协助玩家跨越语言隔阂。

OCR由Optical Character Recognition缩写而来,中文翻译为光学字符识别,指的是将图像中的字识别成计算机的文本档,举例来说用扫瞄仪扫瞄文件后,再将文件图片文件转换成文本档,就是利用这种技术。

而RetroArch的作法则是在模拟游戏的过程中,识别画面中出现的字,并将这些字以图片文件的型式送到识别系统,再转换成文本档。有了文本档之后,我们就能轻松处理这些游戏中出现的字,比方将它们送到语音合成系统、翻译系统,将文本朗读取来或翻译成其他语言。

先前RetroArch开发团队所展示的开发进度,需要在游戏执行过程中不断暂停,等待系统完成识别,才会朗读文本并继续游戏,这样会大幅影响游戏的流畅度。而在这次的进度更新中,可以看到识别的效率大幅提升,虽然语音会比字幕晚几秒出现,没办法达到即时朗读的理想目标,但已经不需暂停游戏,能让玩家在不受干扰的情况下享受游戏内容。

从视频中可以看到,系统不需暂停游戏也能将文本朗读取来。

先前笔者就曾推测RetroArch在加入OCR功能后,下一步应该就是剑指翻译功能,在这次的更新中,RetroArch开发团队证实了这个猜测。

开发团队表示正在研究将VGTranslate轻量级翻译服务器导入RetroArch,玩家可以在Windows或Linux计算机上架​​设服务器,并通过网络将RetroArch截取的文本数据送至服务器,以达到翻译游戏内文本的效果。

这样做的好处是可以将翻译过程的运算需求与数据库,从执行RetroArch的设备转移到另1台计算机,如此一来即便是Raspberry Pi等性能相对贫弱的单板计算机,也能享受翻译功能。

然而开发团队也提到OCR的困难之处,比方OCR引擎难以识别游戏标题画面中的标志(通常都是图像化的特殊字体),而且如果日文游戏的文本框采用半透明设计的话,在识别日文本的时候就容易受到背景图像干扰,产业准确度不理想的问题。

从目前的开发进度来看,这个功能已经可以在许多游戏中正常运行,但有些游戏的效果则受文本显示方式影响而比较不理想。即便如此,开发团对仍表示会持续改善,并提升OCR、翻译功能的兼容性。