OpenAI训练语言模型GPT-2生成图片

OpenAI研究人员运用人工智能语言模型来生成图片，他们以像素串行来训练GPT-2语言模型，使语言模型能够生成连续相关的图像，研究人员提到，这项研究缩小了计算机视觉和语言理解技术间的差距，不过，因为训练过程需要耗费大量的计算资源，且相关的算法性能也不断进步，影响了这项研究实际用于图像生成的价值。

近期非监督式和自我监督学习技术，在语言处理上，都获得极佳的成果，像是BERT、GPT-2、RoBERTa和T5等模型，在广泛的语言任务上，都有出色的性能表现，不过，目前这些模型的应用都仅限于语言处理，在图像分类上都还未有亮眼的成果。

研究人员提到，这些模型之所以在各种语言任务表现良好，其中一个重要原因，便是语言任务的实例，通常自然地出现在文本中，像是问题之后通常接着答案，或是有助于回答问题的文本，段落后通常会是摘要，或是有助于总结的文本，而相反地，像素串行中并不会明确包含所属图像的标签。

而BERT和GPT-2这类的Transformer模型，都是无关领域的，也就是说，这些模型可以应用在任何形式的一维串行上，研究人员表示，近期也有相关的研究，证明规模足够大的Transformer，在接受像素预测训练，最终也可以生成可辨认的物体样本。OpenAI研究人员在以长像素串行训练GPT-2或称为iGPT的模型，发现该模型似乎能够理解二维图像特征，像是物体的外观和类别，在没有人工标签的指引下，生成相关的图像。

生成串行建模是一种非监督式学习算法，由于所有资料类型都能以位元串行形式表达，因此可以直接将各种资料类型用在Transformer中，且不需要经过额外的处理工程。OpenAI研究人员便将用来训练自然语言的GPT-2基础架构，直接用于图像生成上，以测试这种通用性。

不过，这需要经过大量的运算，才能在非监督的情况下，展现出良好地成果，研究人员分别以ImageNet，训练了包含7,600万、4亿550万与14亿个参数的三个Transformer，模型分别为iGPT-S、iGPT-M以及iGPT-LＭ，并且还以ImageNet结合网络上的图像，训练了具68亿参数的iGPT-XL。

由于长串行建模的计算成本非常大，因此研究人员以32×32、48×48和64×64低分辨率进行训练，虽然他们试图使用更低的分辨率，但研究显示，在这些分辨率以下，性能将会大幅降低。研究人员还创建了特殊的调色板，不仅能忠实的呈现颜色，而且串行长度能比标准的RGB调色板短3倍。

研究显示，图像特征品质会随深度急剧增加，但在之后又会些微下降，研究人员表示，这可能是因为Transformer模型分两阶段执行而导致，在第一阶段时，模型从周围的上下文收集信息，以构建基于上下文的图像特征，而在第二阶段，模型会基于上下文的图像特征，来预测图像中的下一个像素。

研究人员提到，增加模型的规模和训练的迭代次数，可以提高图像品质，使用基准CIFAR-10、CIFAR -100和STL-10对结果进行评估，这些模型的表现比现存的所有监督式和非监督式算法还要好。不过，这个方法仍有其限制，iGPT模型只能处理低分辨率的图像，而且会因为训练资料而产生偏差，像是创建性别和角色关联，产生男性科学家这样的结果，另外，iGPT模型训练需要非常大量的时间，使用一张Nvidia V100显卡来训练iGPT-L，大约需要2,500天。

这项研究的主要目的，还是在于进行概念性验证，研究人员表示，由于需要耗费大量的计算资源，而且现有方法的准确度也不断进步，都是这项研究不会被实际用于计算机视觉应用中的原因，但是因为这种方法简单且通用，在具有足够运算能力的前提下，或许能改进其他领域学习特征的性能。