Eleven Labs新语音模型供用户设计全新合成声音

Eleven Labs更新自家语音生成模型,使用户能够根据性别、年龄、口音、音高,甚至是说话风格等特征,创建出全新的人造声音,系统每次合成的声音都不一样,即便用户以相同参数创建声音,也会得到一个过去不曾存在的声音。

Eleven Labs的声音产生器(Voice Generator),供用户在有声读物、游戏等应用添加人声语音,但官方提到,因为他们当前的演讲者库太小,导致用户常难以产生符合应用需求的声音,因此Eleven Labs发展新的解决方案,提供用户以全新方式设计合成声音。

官方解释,他们新方法的灵感,来自于语音合成和语音复制,都会使用到的语音特征编码方法,当在训练用户专属模型时,对说话者嵌入分布进行采样,就能创建出无限多种的新声音,而在这过程加入一定程度的限制,就能赋给声音拥有特定的语音特征。

Eleven Labs新语音模型,现在已经可以产生具各种声音特征的逼真语音,这将能扩大人工语音的应用范围,包括在新闻媒体和商业广告的音频,将品牌与特定声音相关联,甚至是用于开发游戏,于开发初期就能灵活地执行各种语音试验。