OpenAI训练语言模型GPT-2生成图片

OpenAI研究人员运用人工智能语言模型来生成图片,他们以像素串行来训练GPT-2语言模型,使语言模型能够生成连续相关的图像,研究人员提到,这项研究缩小了计算机视觉和语言理解技术间的差距,不过,因为训练过程需要耗费大量的计算资源,且相关的算法性能也不断进步,影响了这项研究实际用于图像生成的价值。

近期非监督式和自我监督学习技术,在语言处理上,都获得极佳的成果,像是BERT、GPT-2、RoBERTa和T5等模型,在广泛的语言任务上,都有出色的性能表现,不过,目前这些模型的应用都仅限于语言处理,在图像分类上都还未有亮眼的成果。

研究人员提到,这些模型之所以在各种语言任务表现良好,其中一个重要原因,便是语言任务的实例,通常自然地出现在文本中,像是问题之后通常接着答案,或是有助于回答问题的文本,段落后通常会是摘要,或是有助于总结的文本,而相反地,像素串行中并不会明确包含所属图像的标签。

而BERT和GPT-2这类的Transformer模型,都是无关领域的,也就是说,这些模型可以应用在任何形式的一维串行上,研究人员表示,近期也有相关的研究,证明规模足够大的Transformer,在接受像素预测训练,最终也可以生成可辨认的物体样本。OpenAI研究人员在以长像素串行训练GPT-2或称为iGPT的模型,发现该模型似乎能够理解二维图像特征,像是物体的外观和类别,在没有人工标签的指引下,生成相关的图像。

生成串行建模是一种非监督式学习算法,由于所有资料类型都能以位元串行形式表达,因此可以直接将各种资料类型用在Transformer中,且不需要经过额外的处理工程。OpenAI研究人员便将用来训练自然语言的GPT-2基础架构,直接用于图像生成上,以测试这种通用性。

不过,这需要经过大量的运算,才能在非监督的情况下,展现出良好地成果,研究人员分别以ImageNet,训练了包含7,600万、4亿550万与14亿个参数的三个Transformer,模型分别为iGPT-S、iGPT-M以及iGPT-LM,并且还以ImageNet结合网络上的图像,训练了具68亿参数的iGPT-XL。

由于长串行建模的计算成本非常大,因此研究人员以32×32、48×48和64×64低分辨率进行训练,虽然他们试图使用更低的分辨率,但研究显示,在这些分辨率以下,性能将会大幅降低。研究人员还创建了特殊的调色板,不仅能忠实的呈现颜色,而且串行长度能比标准的RGB调色板短3倍。

研究显示,图像特征品质会随深度急剧增加,但在之后又会些微下降,研究人员表示,这可能是因为Transformer模型分两阶段执行而导致,在第一阶段时,模型从周围的上下文收集信息,以构建基于上下文的图像特征,而在第二阶段,模型会基于上下文的图像特征,来预测图像中的下一个像素。

 

研究人员提到,增加模型的规模和训练的迭代次数,可以提高图像品质,使用基准CIFAR-10、CIFAR -100和STL-10对结果进行评估,这些模型的表现比现存的所有监督式和非监督式算法还要好。不过,这个方法仍有其限制,iGPT模型只能处理低分辨率的图像,而且会因为训练资料而产生偏差,像是创建性别和角色关联,产生男性科学家这样的结果,另外,iGPT模型训练需要非常大量的时间,使用一张Nvidia V100显卡来训练iGPT-L,大约需要2,500天。

这项研究的主要目的,还是在于进行概念性验证,研究人员表示,由于需要耗费大量的计算资源,而且现有方法的准确度也不断进步,都是这项研究不会被实际用于计算机视觉应用中的原因,但是因为这种方法简单且通用,在具有足够运算能力的前提下,或许能改进其他领域学习特征的性能。