脸书开源第一个使用卷积神经网络技术的端到端语音识别系统

脸书发布全新自动语音识别的卷积方法 ,以及开源目前最先进的端到端语音识别系统wav2letter++。这个自动语音识别方法使用卷积神经网络(CNN)进行声音建模和语言建模,再加上脸书一同发布的工具,让其他开发者也能实例出相同的成果。

通常CNN架构比起循环架构(Recurrent Architecture),对于有建模长期相依性的任务更具有竞争力,能够良好执行语言建模、机器翻译和语音合成等工作,而在端到端的语音识别其中,循环架构在声音建模和语言建模上却更为普遍。

而脸书的这项研究,是在端到端语音识别中使用CNN架构,脸书表示,端到端语音识别可以轻松的扩展到多种语言,另外,直接从原始语音学习,则是解决音频品质变化大的好方法。脸书的语音团队现在发布第一个全卷积的语音识别系统,从波型到最后的单词转录为文本,系统的可学习部分,能仅由卷积层组成,而这样的性能则可以与循环架构相当。

另外,脸书还发布了快速且灵活的独立机器学习函数库Flashlight,这是由脸书的语音团队以及Torch和DeepSpeech的开发者共同设计的,能为现代C++进行JIT编译,并针对CPU和GPU后端,实现性能与规模最大化,而Wav2letter++工具则创建于Flashlight之上。

由于高性能框架Wav2letter++能进行快速迭代,因此可以加速研究进展,并方便的对新数据集和任务进行模型优化。脸书发布全新自动语音识别的卷积方法的同时,也同时发布了Flashlight和Wav2letter++开发框架,以实现成果的可重复性。