Azure语音服务现在能够评估人类说话发音

微软在其Azure语音服务添加发音评估(Pronunciation Assessment)功能,该功能可以评估语音发音,提供说话者有关语音准确性和流畅度的反馈,现在该功能美国英语已经正式上市,其他语言则提供预览版本。

发音评估是Azure认知服务中,语音服务的一项功能,可提供主观与客观语音评估反馈,有助于以计算机辅助语言学习的效果,微软提到,对语言学习者来说,练习发音能够获得即时的反馈,可以有效提高语言技能。过去发音评估都需要交由老师进行,但这需要花费大量的时间和精力,学习者必需要付出较高的学习成本,而发音评估是一个由人工智能驱动的语音功能,让学习者可更容易地获得发音校正指导。

发音评估能够给出接近人类专家品质的综合评价,以不同精细度评估用户的发音,从单音素到完整段落输入。在音素层面,发音评估会提供每个音素的准确度分数,帮助学习者更好地理解语音发音细节,而在单词等级,发音评估可以自动检测错误提供准确度分数,以及遗漏、重复和错误发音等详细信息。

而在全文层级,发音评估提供额外的流畅度和完整度分数,流畅度则是和母语者比较,在单词之间中断无声的程度,而完整度则代表所输入的参考文本中,用户念出单词的比例,然后从准确度、流畅度和完整性汇总分数,给出整体的发音品质评估,学习者可以利用这些评估,改进口说弱点。

语音评估的核心,是使用发音错误检测和诊断(Mispronunciation Detection and Diagnose,MDD)技术,对单词层级的发音准确度进行评分,提供错误判断并且有助于整体评估,官方提到,为了提供准确且一致的结果,发音评估采用新的神经网络进行建模,利用分层架构从较低的单词粒度,处理到更高的单词粒度消息。官方提到,这样的设计让发音评估,可以从微小的模式中,充分利用详细的发音信息,使得错误发音检测更准确。

发音评估模型使用超过10万小时,来自不同口音、地区和年龄的语音训练资料,发音评估可以处理各种类型用户沟通的场景,像是成人到小孩,或是非母语人士到母语人士,提供一致的评估性能。官方提到,发音评估支持自由式谈话,也就是说话者在说话之前没有任何前缀参照,像是演讲或是口语考试,通过使用Azure Speech-to-Text服务,发音评估可以自动准确地转录语音,并提供各种粒度评估结果。

发表评论