Meta开源第一个适用于文本、声音和图片的高性能自我监督算法

Meta在自我监督学习技术上,取得最新进展,其所开发的Data2vec,是第一个适用于多模式的高性能自我监督算法,可以分别应用于语音、图像和文本,性能比过去仅针对计算机视觉和语音的算法更好,并且在NLP任务也具有一定的水准。

研究人员提到,现在大多数的人工智能技术,仍然是以监督学习作为基础,必须使用标记资料。不过有许多人类希望机器人做的事情,不可能收集到标记资料,像是虽然目前有许多研究人员,在收集英语语音和文本,来创建大规模标记资料集,但对于地球数以千计的语言来说,这种方法并不可行。

但自我监督技术,能够让计算机自己观察世界,并且弄清楚图像、语音和文本的结构,Meta提到,对于不用明确教导分类图像,或是理解口语的机器,可扩展性高上许多。

但现在自我监督学习的研究,几乎都集中在同一种模态上,Mata举例,像是文本,研究人员训练模型来填补句子的空白,语音模型则需要预测语句中缺失的声音,对计算机视觉任务而言,模型要从多张图像里,找到更为相关的照片。

算法在不同的模态使用不同的处理单位,视觉是以像素或是视觉标记为预测单位,文本是单词,而声音则是音频波形等。算法设计会与特定的模态关联在一起,算法底层的实例也不相同。

而Meta最新开发的Data2vec则简化了这个麻烦,无论模态为何,能够对不同的输入资料,预测各自的表示(Representation)。这些表示为神经网络的分层,而不是单词或是波形,这消除了学习任务中对特定模态目标的依赖。

Meta的方法是使用一个导师网络,计图像运算像、文本和声音中的表示,接着屏蔽部分输入,要学生模型重复该过程,并且预测导师网络的潜在表示,学生模型必须在只看过部分信息的情况下,预测完整输入资料的表示。导师网络和学生模型相同,但权重略为过时。

Meta使用ImageNet计算机视觉基准来测试Data2vec,在一般的模型大小中,Data2vec比现在所有方法表现都还要好,语音上的性能表现,更胜于wav2vec 2.0或HuBERT,在文本方面,性能与BERT重新实例的版本RoBERTa相同。

官方提到,Data2vec代表了一种新的自我监督学习范式,能够处理多模态,而非仅单一模态,而且Data2vec也不依赖对照学习(Contrastive Learning)或是重建输入的范例。

因此Data2vec除了能够加速人工智能的发展,也更加能够构建无缝学习周围环境的各种机器,使得人工智能更具适应性,并拥有执行更多任务的能力。现在Meta对外开源程序代码以及预训练模型,让其他研究人员可以继续Meta的研究。