Coqui发布零样本文本转语音模型,较传统TTS模型使用更少训练资料集

人工智能创业公司Coqui开发了新的低资源零样本文本转语音(Text-to-Speech,TTS)模型YourTTS,具有合成多种语言语音的能力,重要的是,该模型能够利用共同学习技术,从各语言的训练资料集转换知识,来有效降低需要的训练资料量,像是能以大量英语资料集进行共同学习,在YourTTS中添加巴西葡萄牙语。

端到端深度学习模型不停地发展,现在文本转语音已经能够产生令人惊艳的自然声音,研究人员表示,过去这些模型所使用的资料集,都需要单一说话者在专业环境中,录制20到40小时的大量声音。这种方式并非适用于每个人,难以扩展至多种语言和说话者,更别说主流研究通常不会针对低资源语言,因此也就更难普及。

Coqui所发布的YourTTS模型,便是要来解决这些问题,其主要有几项特性,第一是能以单一模型合成多种语言的语音,第二是以单个模型,合成具有不同声音的语音,第三则是零样本学习,在不重新训练模型的情况下,调整模型来合成新说话者的语音。用户还能通过微调YourTTS预先训练的模型,学习新的说话者或是语言,YourTTS也能将语音转换成另外一种语言,或是改变特定语音的声音。

Coqui扩展其先前的研究成果SC-GlowTTS,开发出YourTTS。YourTTS使用一种称为VITS的模型作为主干,该模型在端到端文本转语音上使用对抗学习和变分推理(Variational Inference)。研究人员还在YourTTS上,使用比过去更大的文本编码器,YourTTS会使用单独训练的说话者编码器模型,来计算说话者的嵌入矢量,并将说话者的信息传递给模型的其他部分。

研究人员解释,VITS是一种特殊的TTS模型,因为结合使用了不同的深度学习技术,能够实现高品质的自然声音输出,其主要创建在GlowTTS模型之上,而GlowTTS模型的特性是轻巧,善于处理长句子,收敛速度也很快,但是其最大的缺点,是难以输出自然且具表现力的声音。而研究人员改进GlowTTS发展出VITS,能够产生更高传真度和准确韵律的语音。

研究人员将YourTTS,与AttentronZS和SC-GlowTTS产生的结果相比,YourTTS在平均主观意见得分(Mean Opinion Score,MOS)更高,而且在许多情况,YourTTS的表现比资料集中真实语音剪辑更好。

在零样本语音转换上,无论是英语语音转换成葡萄牙语,还是男性和女性声音互换,都有良好的MOS值。经实验,YourTTS只需要说话者20秒的语音,就足够调整模型,以说话者的声音产生高品质的语音输出。

现在已经可以在浏览器直接试用YourTTS,用户只要提供自己的语音录音,并且选择目标语言,YourTTS就能够以用户的声音,以目标语言念出用户所输入的文本。由于这项技术存在被滥用的可能性,Coqui正研究各种方法来防止TTS被用于恶意目的上,而在YourTTS的范例中,用户所产生的语音会添加背景音乐,避免被用于意料之外的用途上。