Open AI开源自动语音识别系统Whisper

Open AI在周三(9/21)开源了号称其英文语音识别能力已达到人类水准的Whisper神经网络,且它也支持其它98种语言的自动语音识别。

Whisper系统所提供的自动语音识别(Automatic Speech Recognition,ASR)模型是被训练来执行语音识别与翻译任务的,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。

Whisper系统目前提供了9种模型,它们的参数数量与功能不一,这些模型总计经过68万小时的语音训练,以及比对了从网络上搜集而来的文本转写内容,其中有68%的资料为英文语音与英文文本,另有18%的非英文语音及英文文本,以及17%的非英文语音及相对应的文本。而这些非英文的资料涉及98种不同的语言。

由此可知,Whisper模型主要的任务是语音识别并将它们转成英文,虽然支持98种语言,但仅于不到10种的语言中可达到强大的ASR能力。

Open AI表示,他们最初设想这些模型应该最适合AI研究人员,协助他们研究现有模型的稳健性、泛化性、能力、偏见或限制,但随后发现,Whisper应该也适用于打造ASR解决方案的开发者,特别是用在英文语音识别上。

Open AI也期望Whisper模型的转录能力可用来协助改善无障碍工具,尽管Whisper模型无法直接进行即时转录,但开发者也许可利用这些模型开始接近即时的语音识别及转录应用,或是带来实际的经济影响。