Azure语音服务现在能够评估人类说话发音

微软在其Azure语音服务添加发音评估（Pronunciation Assessment）功能，该功能可以评估语音发音，提供说话者有关语音准确性和流畅度的反馈，现在该功能美国英语已经正式上市，其他语言则提供预览版本。

发音评估是Azure认知服务中，语音服务的一项功能，可提供主观与客观语音评估反馈，有助于以计算机辅助语言学习的效果，微软提到，对语言学习者来说，练习发音能够获得即时的反馈，可以有效提高语言技能。过去发音评估都需要交由老师进行，但这需要花费大量的时间和精力，学习者必需要付出较高的学习成本，而发音评估是一个由人工智能驱动的语音功能，让学习者可更容易地获得发音校正指导。

发音评估能够给出接近人类专家品质的综合评价，以不同精细度评估用户的发音，从单音素到完整段落输入。在音素层面，发音评估会提供每个音素的准确度分数，帮助学习者更好地理解语音发音细节，而在单词等级，发音评估可以自动检测错误提供准确度分数，以及遗漏、重复和错误发音等详细信息。

而在全文层级，发音评估提供额外的流畅度和完整度分数，流畅度则是和母语者比较，在单词之间中断无声的程度，而完整度则代表所输入的参考文本中，用户念出单词的比例，然后从准确度、流畅度和完整性汇总分数，给出整体的发音品质评估，学习者可以利用这些评估，改进口说弱点。

语音评估的核心，是使用发音错误检测和诊断（Mispronunciation Detection and Diagnose，MDD）技术，对单词层级的发音准确度进行评分，提供错误判断并且有助于整体评估，官方提到，为了提供准确且一致的结果，发音评估采用新的神经网络进行建模，利用分层架构从较低的单词粒度，处理到更高的单词粒度消息。官方提到，这样的设计让发音评估，可以从微小的模式中，充分利用详细的发音信息，使得错误发音检测更准确。

发音评估模型使用超过10万小时，来自不同口音、地区和年龄的语音训练资料，发音评估可以处理各种类型用户沟通的场景，像是成人到小孩，或是非母语人士到母语人士，提供一致的评估性能。官方提到，发音评估支持自由式谈话，也就是说话者在说话之前没有任何前缀参照，像是演讲或是口语考试，通过使用Azure Speech-to-Text服务，发音评估可以自动准确地转录语音，并提供各种粒度评估结果。