MLCommons发布多语言口语大型语音识别资料集

全球开放非营利组织MLCommons发布第一个多语言口语语料库（Multilingual Spoken Words Corpus，MSWC）版本，这个大规模资料集包含50种不同语言的口语音频资料，而且资料集容量还持续不断增加。MSWC的贡献者包含来自Coqui、Factored、Google、哈佛大学、英特尔、Landing AI、Nvidia和密西根大学的研究人员。

MSWC资料集内容包含的50种语言，涵盖全球50亿人口，对于不少语言来说，MSWC是第一个可用来训练语音接口的公开免费资料集，官方在MSWC使用CC-BY 4.0授权对外发布，来促进全球关键字探索、口语搜索和各种学术与商业应用，官方提到，他们的最终目标是要让基于语音的关键字识别接口，能够支持更多语言的关键字。

目前语音交互技术已经普及，无论是Apple Siri、Amazon Alexa，还是Google的语音助理，都已经搭载至用户的手机和智能设备上，关键字识别系统使用低功耗的硬件来持续监听关键短语，以触发像是开灯或是唤醒复杂接口的动作，对于视障人士等，更是足以改变其生活方式。

但官方提到，强大的语音交互功能，需要使用大型资料集来训练机器学习模型，这些关键字资料集需要付出大量的资源，从不同的说话者和背景环境中，收集并验证每个包含关键字的语句，而现在多数公共关键字资料集，都为单语言并且只包含少数关键字，许多常用的语言缺乏可用的公共资料集，使得要为这些语言用户，提供基本的语音功能更为困难。

MLCommons所开发和维护的MSWC资料集，便是要解决这个问题，MSWC是一个包含50种语言的口语大型语音识别资料集，该资料集总共包含超过34万个单词和2,300万个一秒音频样本，总共有超过6,000小时的语音，官方提到，他们利用开源工具，从Common Voice群众外包项目收集的句子中，截取单词来构建这个人信息料集，语音助理开发者便可以使用这个人信息料集，训练模型听懂各种语言的关键字。

在MSWC资料集中，有12种高资源语言，具有超过100小时的资料，12种中等资源语言，拥有10到100小时不等的音频资料，而其中26种是低资源语言，只有不到10小时的音频，而MSWC资料集中，有46种语言的资料，是该语言唯一的开源口语资料集。