AI对话更像人类,NVIDIA打造高仿真语音合成模型

NVIDIA正打造更强大智能的AI语音对话模型,并于INTERSPEECH 2021大会展示成果;这些模型有助银行和零售商自动语音客服,也能让电玩游戏或书籍角色更生动,并即时为数字分身加上合成语音。

原本的自动电话语音和已经发展数十年的GPS导航系统都只能发出生硬的机器合成声音,AI却让智能手机和智能音箱虚拟助理呈现逼真语调。不过AI合成的声音和日常对话及媒体听到的真实人声还是有差,原因在于人类说话时带有复杂的节奏、音调和音色,很难以AI重现。

因此NVIDIA研究人员正在打造高品质、可控制的语音合成模型与工具,能捕捉人类说话声的丰富细节,又不会听起来人工感很重。不仅如此,表达性语言合成只是NVIDIA Research团队对话式AI研究之一,这领域还包括自然语言处理、自动语音识别、关键字侦测、音频增强等。这项先进研究成果的部分内容已通过NVIDIA NeMo工具组件成为开放源码,可在NGC容器及其他软件中心取得,并经优化调整,能在NVIDIA GPU高效执行。

使用NeMo易用API和训练好的模型,协助研究人员开发和自订用于文本转语音、自然语言处理及即时自动语音识别的模型。许多模型已在NVIDIA DGX系统使用超过十万小时开源资料集完成训练,开发人员可按照需要的应用场景,在NVIDIA Tensor核心GPU以混合精度运算微调任何模型。

另外,NVIDIA NeMo还借由NGC提供Mozilla Common Voice训练的模型,Mozilla Common Voice数据库有76种语言、近1.4万小时群众外包语音资料。这项由NVIDIA支持的项目企图以全球最大规模的开放数据语音数据库,让更多人接触语音技术。

NVIDIA强调,此AI模型不只可用于配音,文本转语音的功能还能用在游戏、协助声音功能或语言功能障碍者,或帮助用户用自己的声音翻译不同语言;甚至还能重现歌手表演,不仅可配合歌曲旋律,还能配合表达人声背后的情感。

(首图来源:NVIDIA)