Coqui发布零样本文本转语音模型，较传统TTS模型使用更少训练资料集

人工智能创业公司Coqui开发了新的低资源零样本文本转语音（Text-to-Speech，TTS）模型YourTTS，具有合成多种语言语音的能力，重要的是，该模型能够利用共同学习技术，从各语言的训练资料集转换知识，来有效降低需要的训练资料量，像是能以大量英语资料集进行共同学习，在YourTTS中添加巴西葡萄牙语。

端到端深度学习模型不停地发展，现在文本转语音已经能够产生令人惊艳的自然声音，研究人员表示，过去这些模型所使用的资料集，都需要单一说话者在专业环境中，录制20到40小时的大量声音。这种方式并非适用于每个人，难以扩展至多种语言和说话者，更别说主流研究通常不会针对低资源语言，因此也就更难普及。

Coqui所发布的YourTTS模型，便是要来解决这些问题，其主要有几项特性，第一是能以单一模型合成多种语言的语音，第二是以单个模型，合成具有不同声音的语音，第三则是零样本学习，在不重新训练模型的情况下，调整模型来合成新说话者的语音。用户还能通过微调YourTTS预先训练的模型，学习新的说话者或是语言，YourTTS也能将语音转换成另外一种语言，或是改变特定语音的声音。

Coqui扩展其先前的研究成果SC-GlowTTS，开发出YourTTS。YourTTS使用一种称为VITS的模型作为主干，该模型在端到端文本转语音上使用对抗学习和变分推理（Variational Inference）。研究人员还在YourTTS上，使用比过去更大的文本编码器，YourTTS会使用单独训练的说话者编码器模型，来计算说话者的嵌入矢量，并将说话者的信息传递给模型的其他部分。

研究人员解释，VITS是一种特殊的TTS模型，因为结合使用了不同的深度学习技术，能够实现高品质的自然声音输出，其主要创建在GlowTTS模型之上，而GlowTTS模型的特性是轻巧，善于处理长句子，收敛速度也很快，但是其最大的缺点，是难以输出自然且具表现力的声音。而研究人员改进GlowTTS发展出VITS，能够产生更高传真度和准确韵律的语音。

研究人员将YourTTS，与AttentronZS和SC-GlowTTS产生的结果相比，YourTTS在平均主观意见得分（Mean Opinion Score，MOS）更高，而且在许多情况，YourTTS的表现比资料集中真实语音剪辑更好。

在零样本语音转换上，无论是英语语音转换成葡萄牙语，还是男性和女性声音互换，都有良好的MOS值。经实验，YourTTS只需要说话者20秒的语音，就足够调整模型，以说话者的声音产生高品质的语音输出。

现在已经可以在浏览器直接试用YourTTS，用户只要提供自己的语音录音，并且选择目标语言，YourTTS就能够以用户的声音，以目标语言念出用户所输入的文本。由于这项技术存在被滥用的可能性，Coqui正研究各种方法来防止TTS被用于恶意目的上，而在YourTTS的范例中，用户所产生的语音会添加背景音乐，避免被用于意料之外的用途上。