Amazon披露Alexa耳语模式背后的AI技术

在2018年，Amazon在Alexa加入了耳语模式（Whisper Mode），让Alexa也能模仿人类使用气音低语说话，而Amazon在2020年1月的IEEE Signal Processing Letters期刊论文，公开背后所使用的人工智能技术。

Alexa的耳语模式，专门用在睡觉或是夜间等安静的场景，当人们在需要保持安静的地方，便会开始使用气音低声说话，而当Alexa侦测到人们使用气音说话，便会自动打开耳语模式轻声的回话。在2019年11月的时候，耳语模式已经全面部署到Alexa设备上，除了第一方Alexa设备，连支持Alexa的智能家电，都能使用耳语模式。

文本转语音服务Amazon Polly应用科学家Marius Cotescu提到，他们开发耳语模式的目标，要在自然和维持说话者身份的条件下，将普通语音转换成耳语语音。Amazon研究了三种方法，除了一种人工设计的数字信号处理（DSP）方法之外，还有高斯混合模型（GMM）与深度神经网络（DNN）两种机器学习方法。

Amazon以GMM以及DNN两种机器学习技术，实例语音转换（Voice Conversion）方法，语音转换是将一组声音特征标示成语音信号，并将普通语音的语音特征，映射到耳语的语音特征。GMM会尝试识别每个输出特征，寻找相符合的输入值分布，而DNN则是由简单处理节点所形成的密集网络，内部的设置会在训练过程进行调整，在训练的过程，网络会尝试预测与特定输入样本关联的输出。这两种方法都需要使用数据进行训练。

Amazon使用两种不同的数据集来训练语音转换系统，一种是由美国、澳大利亚、加拿大、德国和印度专业语音人士产生的语音数据集，另一种则是该领域的常用基准，两个语音数据集都包含普通语音和耳语语音所构成的成对语音组合。

Marius Cotescu表示，多数神经文本转语音系统，会将声音特征传递到人声编码器（Vocoder），以转换成连续的声音信号，而Amazon的方法也不例外，因此为了比较语音转换系统，研究团队比较原始录音（下图蓝）、通过人声编码器处理的原始录音（下图橘）、DNN（下图绿）、GMM（下图红）以及DSP（下图紫），以评估语音转换系统的性能。

评估实验除了针对同一位说话者的语音进行训练与测试，也以多位说话者语音数据集进行交叉训练与测试，Marius Cotescu表示，在单一说话者语音实验中，原始录音听起来最自然，而GMM和DNN合成的耳语，则比经人声编码器处理的录音还要自然，且在自然度、清晰度和说话者相似度都比DSP还要好，已经达到人生编码器和特称截取链的技术极限。

而GMM和DNN两者性能基本上差不多，不过DNN比GMM更容易扩展到多位说话者，在多个说话者的语音训练上，DNN模型可以学习独立于说话者的映射，对训练语音数据集之外的人进行泛化产生耳语语音，甚至当有足够多的训练数据，DNN的输出结果还堪比录音品质，不过DNN模型无法跨类型产生语音，因此需要创建性别平衡的语料库。经综合评估，Amazon最终在Alexa的耳语模式上，使用DNN方法。