微软供Azure用户定制化STT模型，改进语音转文本准确度

微软更新Azure认知服务的语音功能，通过定制化语音转文本功能，进一步提高应用程序和产品的语音转文本准确性。新的定制化语音模型，是以基础模型加以训练，用户可以利用文本资料来训练模型，强化特定领域字汇的识别能力，或是通过带有转录的音频资料，提高应用程序对特定音频条件的识别能力。

Azure Cognitive Services for Speech让用户可以简单地构建语音应用程序，该服务支持多达140种语言，使用户能高精确度地将语音转录成文本，或是将文本转成自然的语音，甚至进行翻译。而新的定制化语音功能，可供用户定制化语音转文本引擎，根据应用程序的常用词汇，定制化语音模型，并且自订声音模型适应用户的说话风格。

用户只要上传自定义语音文本或是音频资料，就能够简单创建定制化模型，这些模型会与微软的语音模型结合后，部署到定制化语音转文本端点，使终端用户从各种设备上访问。

微软提供用户以四种方式定制化语音模型，第一种是最简单的方式，用户能以词汇列表添加诸如参与者姓名、产品和行话列表，提高模型对这些词汇的识别能力，这是一种不需要模型训练，就能即时强化准确度的方式。

第二种方法则是使用纯文本，微软提到，这也是简单的定制化语音模型的方式，因为像是在各种体育赛事使用的词汇差距很大，因此通过纯文本就可针对特定运动构建定制化模型，提高赛事词汇精确度。

第三种是以结构化文本的形式，适用于强化语音中句子模式的文本资料，针对特定单词或是短语有所不同的话语。同时，用户也可以使用音频资料，训练定制化语音模型，这将能改善模型对于特定口音、说话风格或是背景噪音的识别能力。