微软供Azure用户定制化STT模型,改进语音转文本准确度

微软更新Azure认知服务的语音功能,通过定制化语音转文本功能,进一步提高应用程序和产品的语音转文本准确性。新的定制化语音模型,是以基础模型加以训练,用户可以利用文本资料来训练模型,强化特定领域字汇的识别能力,或是通过带有转录的音频资料,提高应用程序对特定音频条件的识别能力。

Azure Cognitive Services for Speech让用户可以简单地构建语音应用程序,该服务支持多达140种语言,使用户能高精确度地将语音转录成文本,或是将文本转成自然的语音,甚至进行翻译。而新的定制化语音功能,可供用户定制化语音转文本引擎,根据应用程序的常用词汇,定制化语音模型,并且自订声音模型适应用户的说话风格。

用户只要上传自定义语音文本或是音频资料,就能够简单创建定制化模型,这些模型会与微软的语音模型结合后,部署到定制化语音转文本端点,使终端用户从各种设备上访问。

微软提供用户以四种方式定制化语音模型,第一种是最简单的方式,用户能以词汇列表添加诸如参与者姓名、产品和行话列表,提高模型对这些词汇的识别能力,这是一种不需要模型训练,就能即时强化准确度的方式。

第二种方法则是使用纯文本,微软提到,这也是简单的定制化语音模型的方式,因为像是在各种体育赛事使用的词汇差距很大,因此通过纯文本就可针对特定运动构建定制化模型,提高赛事词汇精确度。

第三种是以结构化文本的形式,适用于强化语音中句子模式的文本资料,针对特定单词或是短语有所不同的话语。同时,用户也可以使用音频资料,训练定制化语音模型,这将能改善模型对于特定口音、说话风格或是背景噪音的识别能力。