MLCommons发布多语言口语大型语音识别资料集

全球开放非营利组织MLCommons发布第一个多语言口语语料库(Multilingual Spoken Words Corpus,MSWC)版本,这个大规模资料集包含50种不同语言的口语音频资料,而且资料集容量还持续不断增加。MSWC的贡献者包含来自Coqui、Factored、Google、哈佛大学、英特尔、Landing AI、Nvidia和密西根大学的研究人员。

MSWC资料集内容包含的50种语言,涵盖全球50亿人口,对于不少语言来说,MSWC是第一个可用来训练语音接口的公开免费资料集,官方在MSWC使用CC-BY 4.0授权对外发布,来促进全球关键字探索、口语搜索和各种学术与商业应用,官方提到,他们的最终目标是要让基于语音的关键字识别接口,能够支持更多语言的关键字。

目前语音交互技术已经普及,无论是Apple Siri、Amazon Alexa,还是Google的语音助理,都已经搭载至用户的手机和智能设备上,关键字识别系统使用低功耗的硬件来持续监听关键短语,以触发像是开灯或是唤醒复杂接口的动作,对于视障人士等,更是足以改变其生活方式。

但官方提到,强大的语音交互功能,需要使用大型资料集来训练机器学习模型,这些关键字资料集需要付出大量的资源,从不同的说话者和背景环境中,收集并验证每个包含关键字的语句,而现在多数公共关键字资料集,都为单语言并且只包含少数关键字,许多常用的语言缺乏可用的公共资料集,使得要为这些语言用户,提供基本的语音功能更为困难。

MLCommons所开发和维护的MSWC资料集,便是要解决这个问题,MSWC是一个包含50种语言的口语大型语音识别资料集,该资料集总共包含超过34万个单词和2,300万个一秒音频样本,总共有超过6,000小时的语音,官方提到,他们利用开源工具,从Common Voice群众外包项目收集的句子中,截取单词来构建这个人信息料集,语音助理开发者便可以使用这个人信息料集,训练模型听懂各种语言的关键字。

在MSWC资料集中,有12种高资源语言,具有超过100小时的资料,12种中等资源语言,拥有10到100小时不等的音频资料,而其中26种是低资源语言,只有不到10小时的音频,而MSWC资料集中,有46种语言的资料,是该语言唯一的开源口语资料集。