Google改良语音过滤模型,提升设备上语音识别效果

Google发布了设备上轻量级语音过滤模型VoiceFilter-Lite,可用于背景音嘈杂,或是多人环境的语音处理应用,使得即便在没有互联网连接,也能让用户在极为吵闹的地方,访问语音助理功能。

通过语音辅助技术,可以让用户利用声音命令,与设备进行交互,而这依赖精确的语音识别,才能让语音助理服务特定用户,Google提到,在许多实际的场景中,语音识别的输入音频,通常含有重叠的语音,而这对许多语音识别算法来说,是一个巨大的挑战。因此在2018年的时候,Google发展出了VoiceFilter系统,让用户可以注册自己的声音,使得语音助理能够提供个性化的服务。

不过,虽然VoiceFilter方法能够精确地区分目标用户的声音,而且比过去的方法,提供更好的失真比(SDR),但缺点在于该模型太大,在设备上执行,受到了CPU、内存的限制,同时也需要考量电量消耗以及延迟的问题,因此现在Google对VoiceFilter作出改进,发展出轻量版的VoiceFilter-Lite,以便将模型放到设备上执行。

Google精心设计了VoiceFilter-Lite,使其能适应设备上的应用,VoiceFilter-Lite能够即时过滤掉非目标说话者的声音,并在Google使用TensorFlow Lite函数库,对神经网络进行量化后,模型的大小仅为2.2 MB,很适合集成进大多数设备上应用程序。

VoiceFilter-Lite是一个即插即用的模型,当用户没有注册声音,应用程序可以简单地跳过VoiceFilter-Lite,直接进行后续的处理,而这也代表,开发者可以分开训练和更新,语音识别模型还有VoiceFilter-Lite模型,大幅降低部署过程的复杂度。

无论是在安静的场景,或是嘈杂的场景,VoiceFilter-Lite都能够良好地处理单一说话者的语音,而在语音重叠的场景,VoiceFilter-Lite能够改善单词错误率25.1%,而在像是家中智能音响的使用场景,其回音与多人声重叠的环境,使得语音识别更具挑战,而VoiceFilter-Lite也能改善单词错误率达14.7%。

发表评论