Google云计算文本转语音API支持自定义语音,让AI人声不死板

Google宣布在其文本转人声(Text-to-Speech,TTS)API推出自定义语音功能,该新功能让用户可以使用自己的录音,训练自定义语音模型,以创造出独特的语音体验。官方提到,对于想要创建品牌形象的企业而言,使用独特的声音,有助于在交互式语音应用中,创建具差异化的用户体验。

自定义语音让用户只需要提交录音,就可以直接在TTS API中访问新语音,系统提供指南,指引用户生成高品质自定义TTS语音模型的方法,当模型训练完成后,用户只需要在调用TTS API时,参照模型ID,就可以开始使用新训练的语音模型。

Google考量负责任的AI治理程序,评估了自定义语音TTS以及合成媒体的道德疑虑,为减轻可能造成的潜在危害,用户在采用自定义TTS之前,需要经过一个审查流程,确保每个用例皆符合Google的AI原则,并且要求验证配音员,提供Google云计算指定语句的音频文件,以算是取得配音员的同意。

目前自定义TTS自定义语音功能正式支持包括英语、西班牙语、法语、意大利语、德语、葡萄牙语和日语,其他语言则还需要再等等。