虚拟黄总还不够,Nvidia新技术连语音都合成得唯妙唯肖

前阵子,Nvidia才披露今年GTC大会上的创办人黄仁勋演讲,有14秒是“虚拟的”。最近,Nvidia应用深度学习研究部门副总裁Bryan Catanzaro亲自上线说明,GTC大会中穿插的旁白,也大多是虚拟合成的声音。

他盘点了近年来Nvidia对话式AI的成果,像是轻量语音合成模型、高性能语音分析模型、降噪模型、语音资料集,其中,语音合成模型不仅能细致地呈现音高、腔调和节奏,还能转换声音。这是Nvidia首次公开披露语音合成技术进展。

GTC大会上穿插的AI旁白

自2017年开始,Nvidia就在GTC大会上激活AI语音旁白I am AI,来介绍大会议程或技术应用。不过,刚激活的那几年,AI旁白还是有着生硬的机器人口音。

直到2020年上半年,Nvidia研究团队成功打造出AI语音合成系统Flowtron,才一改机器人的生硬口音,变得更像一个有感情的真人。Flowtron中有套关键的文本转语音模型RAD-TTS,不仅能产生语音,还能转换语音风格。在设计过程中,团队借鉴了语音合成中的重要技术自回归流(Autoregressive Flow)概念,并以此改善Google发布的经典语音合成模型Tacotron,来提高语音合成品质。

比如,RAD-TTS能更好地控制音高、音调、语速、节奏和口音,甚至能转换声音。也就是说,画面上虽然是A男说话(甚至是唱歌),但AI能立即转换为B女的声音,而且栩栩如生保留了A男说话的腔调、节奏和速度等特征。

如此一来,用户可录制自己读取的视频脚本,再用Flowtron将说话内容改变为不同性别的声音。此外,用户也可通过系统调集成成语音,来强调特定字眼或放慢节奏,搭配视频调性。Bryan Catanzaro指出,这个AI模型不只用于配音,还能用在游戏、协助语言功能障碍者理解,甚至能以用户自己的声音,翻译成不同语言。

不只是AI旁白,Nvidia对话式AI研究还聚焦多种领域

不过,AI旁白只是Nvidia对话式AI研究领域的一部分。

Bryan Catanzaro表示,Nvidia这几年来钻研对话式AI,包括自动语音识别(ASR)、音频增强和降噪、文本转语音、语音合成、音频压缩,甚至是相关资料集的构建、语音合成技术的分支文本范式(Text normalization)以及建模技术。

他举例,研究团队训练一套轻量级语音生成模型TalkNet 2,参数量只有1,300万,不到时下SOTA模型的二分之一,但因采非自回归架构,能快速训练、准确发音,适合用于嵌入式语音生成的应用场景。

另一个例子则是逆向文本范式。文本范式是ASR中不可或缺的技术环节,它将语音识别结果转换为文本,来提高ASR输出值的可读性。但传统方法对文法错误的容忍度相当低,于是,Nvidia设计一套开源Python WFST函数库,来改善这个问题,同时还能用在语音转文本任务。

另一方面,Nvidia也构建训练语音生成AI所需的资料集,包括高传真英语TTS资料集、5,000小时且完整格式化的金融语音资料集。

除了技术研究,Nvidia也推出不少语音相关工具,其一就是GPU加速的开源对话式AI工具包NeMo,能让用户快速微调、试验语音模型。NeMo具备API和预训练模型,能用来进行文本转语音、自然语言处理和自动语音识别等任务,而这些预训练模型,大多已在Nvidia DGX专用系统上进行超过十万小时训练,用户在Nvidia Tensor核心GPU上微调即可。

另一方面,Nvidia也与Mozilla联手,构建世界上最大的开源语音资料集Common Voice,包含横跨数十种语言共1万3,000小时的群众外包语音资料,已于7月底发布。Nvidia也用这些资料训练NeMo,并免费提供给全球用户利用。

Bryan Catanzaro坦言,这是Nvidia第一次披露对话式AI研究进展,也是首次将这些成果,发布在最近举行的INTERSPEECH国际学术会议上。