Mozilla公开全球最大公共领域转录语音数据集

Mozilla公开现今最大的多语言语音数据集,其中收集了18种语言的语音,包括英语、法语、德语和正体中文,另外还有威尔士语和卡比尔语等,新数据集收集了来自42,000人的声音,组成1,400小时的语音片段。

在2017年Mozilla启动了Common Voice群众外包计划,其目的是要收集多样语言的声音数据集,现已经成为全世界最大的人类语音数据库。虽然Google、苹果及亚马逊等都打造了自己的语音识别服务,但Mozilla认为,由大厂控制的语音识别生态圈,可能阻挡其他新进入者,而且大厂通常只注重主流语言,因此Mozilla希望通过向群众募集语音,以CC 0授权供给其他想要进行语音控制研究的学术单位或是创业公司公司使用。 Common Voice在2018年6月开始支持多语言,收集包括正体中文语音等22种语言。

Common Voice数据集不仅在数量上让其他语音数据集望尘莫及,而且语音来源遍及全球,让语音多样性更是独一无二的丰富。这些贡献者可以选择提供年龄、性别和口音等多样数据,以便提供更多的语音片段标签给训练语音引擎使用。

Mozilla提到,通常数据集都需要手动调整多样性以及男女人数比例,不然就会像TED talks的TEDLIUM语料库,因为男性演讲人是女性的3倍,导致数据集的多样性受到影响。

Common Voice在2018年启动多语言支持后,现在已经收集到了22种语言的语音,最新的包括荷兰语、世界语,波斯语,巴斯克语和西班牙语。最近Mozilla还与Deutsche Gesellschaft für Internationale Zusammenarbeit(GIZ)合作,在卢旺达首都吉佳利的举办黑客马拉松,为当地创建了语音数据库,帮助卢旺达开源语音技术开发。

而Mozilla启动Common Voice一部分的原因,也是要供给自家的DeepSpeech项目使用,开发语音转文本和文本转语音引擎以及训练模型使用。目前为止,DeepSpeech已经可以用人类的精准度,即时将语音转换成文本,可为串流语音进行即时转换,在演讲、电话交谈、电视节目、广播节目和其他网络直播节目都可以应用。

DeepSpeech现在已经被使用在多个Mozilla项目中,包括开源语音助理Mycroft、个人助理Leon以及用于私人组织转录电话消息的电话交换系统FusionPBX。 Mozilla提到,未来DeepSpeech还会上到较小的平台设备,像是智能手机或是车载系统。

Mozilla根据社群的反馈进行了可用性研究,以持续改善Common Voice网站,并设法让贡献过程更加有趣,以鼓励更多的人持续贡献他们的声音,因此贡献者可以在录制和验证的过程中,看到每种语言的进度,并改善了移动到剪辑片段的提示。贡献接口增加了审查、重新录制以及跳过剪辑等新功能,方便贡献者操作语音录制,另外,现在也可以创建存储配置文件,跨多语言关注贡献者自己的进度以及指标。