虚拟黄总还不够，Nvidia新技术连语音都合成得唯妙唯肖

前阵子，Nvidia才披露今年GTC大会上的创办人黄仁勋演讲，有14秒是“虚拟的”。最近，Nvidia应用深度学习研究部门副总裁Bryan Catanzaro亲自上线说明，GTC大会中穿插的旁白，也大多是虚拟合成的声音。

他盘点了近年来Nvidia对话式AI的成果，像是轻量语音合成模型、高性能语音分析模型、降噪模型、语音资料集，其中，语音合成模型不仅能细致地呈现音高、腔调和节奏，还能转换声音。这是Nvidia首次公开披露语音合成技术进展。

GTC大会上穿插的AI旁白

自2017年开始，Nvidia就在GTC大会上激活AI语音旁白I am AI，来介绍大会议程或技术应用。不过，刚激活的那几年，AI旁白还是有着生硬的机器人口音。

直到2020年上半年，Nvidia研究团队成功打造出AI语音合成系统Flowtron，才一改机器人的生硬口音，变得更像一个有感情的真人。Flowtron中有套关键的文本转语音模型RAD-TTS，不仅能产生语音，还能转换语音风格。在设计过程中，团队借鉴了语音合成中的重要技术自回归流（Autoregressive Flow）概念，并以此改善Google发布的经典语音合成模型Tacotron，来提高语音合成品质。

比如，RAD-TTS能更好地控制音高、音调、语速、节奏和口音，甚至能转换声音。也就是说，画面上虽然是A男说话（甚至是唱歌），但AI能立即转换为B女的声音，而且栩栩如生保留了A男说话的腔调、节奏和速度等特征。

如此一来，用户可录制自己读取的视频脚本，再用Flowtron将说话内容改变为不同性别的声音。此外，用户也可通过系统调集成成语音，来强调特定字眼或放慢节奏，搭配视频调性。Bryan Catanzaro指出，这个AI模型不只用于配音，还能用在游戏、协助语言功能障碍者理解，甚至能以用户自己的声音，翻译成不同语言。

不只是AI旁白，Nvidia对话式AI研究还聚焦多种领域

不过，AI旁白只是Nvidia对话式AI研究领域的一部分。

Bryan Catanzaro表示，Nvidia这几年来钻研对话式AI，包括自动语音识别（ASR）、音频增强和降噪、文本转语音、语音合成、音频压缩，甚至是相关资料集的构建、语音合成技术的分支文本范式（Text normalization）以及建模技术。

他举例，研究团队训练一套轻量级语音生成模型TalkNet 2，参数量只有1,300万，不到时下SOTA模型的二分之一，但因采非自回归架构，能快速训练、准确发音，适合用于嵌入式语音生成的应用场景。

另一个例子则是逆向文本范式。文本范式是ASR中不可或缺的技术环节，它将语音识别结果转换为文本，来提高ASR输出值的可读性。但传统方法对文法错误的容忍度相当低，于是，Nvidia设计一套开源Python WFST函数库，来改善这个问题，同时还能用在语音转文本任务。

另一方面，Nvidia也构建训练语音生成AI所需的资料集，包括高传真英语TTS资料集、5,000小时且完整格式化的金融语音资料集。

除了技术研究，Nvidia也推出不少语音相关工具，其一就是GPU加速的开源对话式AI工具包NeMo，能让用户快速微调、试验语音模型。NeMo具备API和预训练模型，能用来进行文本转语音、自然语言处理和自动语音识别等任务，而这些预训练模型，大多已在Nvidia DGX专用系统上进行超过十万小时训练，用户在Nvidia Tensor核心GPU上微调即可。

另一方面，Nvidia也与Mozilla联手，构建世界上最大的开源语音资料集Common Voice，包含横跨数十种语言共1万3,000小时的群众外包语音资料，已于7月底发布。Nvidia也用这些资料训练NeMo，并免费提供给全球用户利用。

Bryan Catanzaro坦言，这是Nvidia第一次披露对话式AI研究进展，也是首次将这些成果，发布在最近举行的INTERSPEECH国际学术会议上。