Amazon披露Alexa耳语模式背后的AI技术

在2018年,Amazon在Alexa加入了耳语模式(Whisper Mode),让Alexa也能模仿人类使用气音低语说话,而Amazon在2020年1月的IEEE Signal Processing Letters期刊论文,公开背后所使用的人工智能技术。

Alexa的耳语模式,专门用在睡觉或是夜间等安静的场景,当人们在需要保持安静的地方,便会开始使用气音低声说话,而当Alexa侦测到人们使用气音说话,便会自动打开耳语模式轻声的回话。在2019年11月的时候,耳语模式已经全面部署到Alexa设备上,除了第一方Alexa设备,连支持Alexa的智能家电,都能使用耳语模式。

文本转语音服务Amazon Polly应用科学家Marius Cotescu提到,他们开发耳语模式的目标,要在自然和维持说话者身份的条件下,将普通语音转换成耳语语音。Amazon研究了三种方法,除了一种人工设计的数字信号处理(DSP)方法之外,还有高斯混合模型(GMM)与深度神经网络(DNN)两种机器学习方法。

Amazon以GMM以及DNN两种机器学习技术,实例语音转换(Voice Conversion)方法,语音转换是将一组声音特征标示成语音信号,并将普通语音的语音特征,映射到耳语的语音特征。GMM会尝试识别每个输出特征,寻找相符合的输入值分布,而DNN则是由简单处理节点所形成的密集网络,内部的设置会在训练过程进行调整,在训练的过程,网络会尝试预测与特定输入样本关联的输出。这两种方法都需要使用数据进行训练。

Amazon使用两种不同的数据集来训练语音转换系统,一种是由美国、澳大利亚、加拿大、德国和印度专业语音人士产生的语音数据集,另一种则是该领域的常用基准,两个语音数据集都包含普通语音和耳语语音所构成的成对语音组合。

Marius Cotescu表示,多数神经文本转语音系统,会将声音特征传递到人声编码器(Vocoder),以转换成连续的声音信号,而Amazon的方法也不例外,因此为了比较语音转换系统,研究团队比较原始录音(下图蓝)、通过人声编码器处理的原始录音(下图橘)、DNN(下图绿)、GMM(下图红)以及DSP(下图紫),以评估语音转换系统的性能。

评估实验除了针对同一位说话者的语音进行训练与测试,也以多位说话者语音数据集进行交叉训练与测试,Marius Cotescu表示,在单一说话者语音实验中,原始录音听起来最自然,而GMM和DNN合成的耳语,则比经人声编码器处理的录音还要自然,且在自然度、清晰度和说话者相似度都比DSP还要好,已经达到人生编码器和特称截取链的技术极限。

而GMM和DNN两者性能基本上差不多,不过DNN比GMM更容易扩展到多位说话者,在多个说话者的语音训练上,DNN模型可以学习独立于说话者的映射,对训练语音数据集之外的人进行泛化产生耳语语音,甚至当有足够多的训练数据,DNN的输出结果还堪比录音品质,不过DNN模型无法跨类型产生语音,因此需要创建性别平衡的语料库。经综合评估,Amazon最终在Alexa的耳语模式上,使用DNN方法。