Google翻译添加对梵文等24种语言的支持

Google本周宣布,Google翻译(Google Translate)将添加包括梵文在内的24种语言的支持,让Google Translate所能翻译的语言类别达到133种。

此次添加的24种语言多半出现在印度或非洲,属于相对冷门的语言,其中最受欢迎的是拥有5,000万使用人口的Bhojpuri,而最少的则是只有2万人仍在使用的梵文。此外,这24种语言也是首批采用零样本机器翻译(Zero-Shot Machine Translation)而出炉的成品。

图片来源/Google

目前全球大约有3亿人口使用这24种语言,除了5,000万散落在北印、尼泊尔与斐济的人口说着Bhojpuri之外,非洲约有4,000万人口使用Lingala,非洲的埃塞俄比亚及肯尼亚有3,700万人口使用Oromo,北印有3,400万人口使用Maithili,印度东北方有2,500万人口使用Assamese。

Google表示,即使现有的翻译服务覆盖了全球大多数人使用的语言,但这些语言只有100种左右,约占全球所说语言的1%,况且热门的语言多半集中在欧洲,而非洲或美洲的许多语言都被忽略。

Google指出,要替这些冷门语言创建翻译模型并不容易,它们不仅缺乏数字资料,也因语言识别(LangID)模型品质不佳而难以自网络上搜集,再加上机器翻译(ML)模型通常需要在大量平行翻译文本上进行训练,在缺乏这类的资料时,ML模型只能自有限的单语文本学习。

对于让Google Translate添加对上述24种缺乏资源的语言的翻译能力,Google则是开发了专门的神经语言识别模型,再辅以新颖的过滤方式,来创建单语资料集。

Google先是针对超过1,000种语言训练了一个基于Transformer的半监督LangID模型。该模型利用MAsked Sequence-to-Sequence(MASS)来强化LangID的任务,MASS会随机移除所输入的标记串行,简单地混淆输入,并训练该模型来预测这些串行。Google把该LangID模型应用在一个已经由CLD3语言识别模型过滤的资料集,再训练它来识别类似的语言集群。

接着以权衡文本重要性的开源Term Frequency-Inverse Internet Frequency(TF-IIF)项目来过滤该资料集,去除属于高资源语言的句子,并开发各种特定语言的过滤器来移除异常。

经过层层的过滤之后,终于得到了支持上千种语言、具备单语文本的资料集,其中有400种语言拥有超过10万个句子,在以人力评估其中的68种语言后,发现有超过7成具备高品质的语言内容。

有了该资料集之后,Google开发了一种简单却实用的零资源翻译做法,所谓的零资源指的是它们既无平行翻译文本,也没有特定语言的翻译例子。不过,除了单语文本之外,该模型也搭配了所有丰富资源语言的平行翻译文本,借以训练模型的翻译能力,并通过MASS来让该模型如何仅自单语文本来学习这些语言的表示方法,这让Google得以训练出一个支持1,138种语言的大型翻译模型。

此次被Google Translate纳入的24种语言想必是其中品质相对较高的成品。Google指出,它们是该公司采用零样本机器翻译的首批语言,没有看过任何样本就能翻译成其它语言,只是就算该技术令人印象深刻,却不完美,未来将持续改善相关的各种模型,以让这些冷门语言的翻译效果足以媲美西班牙文或德文。

发表评论