AI对话更像人类，NVIDIA打造高仿真语音合成模型

NVIDIA正打造更强大智能的AI语音对话模型，并于INTERSPEECH 2021大会展示成果；这些模型有助银行和零售商自动语音客服，也能让电玩游戏或书籍角色更生动，并即时为数字分身加上合成语音。

原本的自动电话语音和已经发展数十年的GPS导航系统都只能发出生硬的机器合成声音，AI却让智能手机和智能音箱虚拟助理呈现逼真语调。不过AI合成的声音和日常对话及媒体听到的真实人声还是有差，原因在于人类说话时带有复杂的节奏、音调和音色，很难以AI重现。

因此NVIDIA研究人员正在打造高品质、可控制的语音合成模型与工具，能捕捉人类说话声的丰富细节，又不会听起来人工感很重。不仅如此，表达性语言合成只是NVIDIA Research团队对话式AI研究之一，这领域还包括自然语言处理、自动语音识别、关键字侦测、音频增强等。这项先进研究成果的部分内容已通过NVIDIA NeMo工具组件成为开放源码，可在NGC容器及其他软件中心取得，并经优化调整，能在NVIDIA GPU高效执行。

使用NeMo易用API和训练好的模型，协助研究人员开发和自订用于文本转语音、自然语言处理及即时自动语音识别的模型。许多模型已在NVIDIA DGX系统使用超过十万小时开源资料集完成训练，开发人员可按照需要的应用场景，在NVIDIA Tensor核心GPU以混合精度运算微调任何模型。

另外，NVIDIA NeMo还借由NGC提供Mozilla Common Voice训练的模型，Mozilla Common Voice数据库有76种语言、近1.4万小时群众外包语音资料。这项由NVIDIA支持的项目企图以全球最大规模的开放数据语音数据库，让更多人接触语音技术。

NVIDIA强调，此AI模型不只可用于配音，文本转语音的功能还能用在游戏、协助声音功能或语言功能障碍者，或帮助用户用自己的声音翻译不同语言；甚至还能重现歌手表演，不仅可配合歌曲旋律，还能配合表达人声背后的情感。

（首图来源：NVIDIA）