OpenAI发布可用文本叙述产生合理图像的神经网络DALL·E

非营利人工智能研究组织OpenAI训练了一个称为DALL·E的神经网络,可让用户以自然语言文本注解,创建内容相符的图像。而DALL·E的名称由来,来自西班牙加泰隆尼亚超现实主义画家萨尔瓦多·达利(Salvador Dalí),以及皮克斯动画人物瓦力(WALL·E)的混合词。

DALL·E是一个具有120亿个参数的GPT-3语言模型,经过文本图像配对资料集训练,可以从文本叙述生成图像。DALL·E具有丰富的功能,除了创建拟人化动物与物体,还能以合理的方式组合不相关的概念,而渲染文本以及转换图像等工作,也都难不倒DALL·E。

研究人员提到,GPT-3的出现,代表语言已经可以用来指示大型神经网络,执行各种文本生成工作,而图像GPT代表着类似于GPT-3的神经网络,也可以用来产生高分辨率的图像,而OpenAI扩展了两者的概念,DALL·E的贡献在于证明人们已经可以通过语言,来操纵神经网络所产生的视觉概念。

就如同GPT-3一样,DALL·E是一个变换语言模型(Transformer Language Model),其以包含多达1,280个权限(Token)的单一流媒体,接收文本以及图像,并使用最大可能性,一个接一个地生成所有权限。由于这个训练过程,让DALL·E不仅能够以文本提示一致的方式,从头开始产生图像,还能够顺着既有图像,重新生成符合文本叙述的图像。

DALL·E能够探索语言结构的组成,从大量不同的句子中产生合理的图像。研究人员发现,DALL·E具有控制物体属性的能力,像是可渲染多边形物体,即便有些物体在现实世界不太可能出现,但DALL在搭建时,仍会考虑其合理性,例如DALL·E在搭建像框或是画框,会倾向避开七边形,而人孔盖或是停车标志,DALL·E较不会使用五边形等特殊形状。

除了单一物体之外,DALL·E也有能力以不同的视角,搭建完整的场景图片,像是输入文本an extreme close-up view of a capybara sitting in a field,则DALL·E就能产生大量近距离,水豚坐在空地上的图片,官方提到,DALL·E能以各种视角搭建动物,要从鸟瞰图和后视图视角搭建动物,DALL·E需要从不同角度了解动物的外观,而诸如像是特写镜头,则关乎DALL·E对动物毛皮细节的了解程度。为了测试DALL·E搭建不同视角物体的能力,研究人员让DALL·E以等角度间隔,搭建同一个头部图像,而这些图像串联起来,可以形成一个平顺的头部旋转动画。

而当收到的指令不够明确,DALL·E还会自动推断出背景细节,像是a painting of a capybara sitting on a field at sunrise这样的文本描述,依照搭建水豚的朝向,可能需要画出阴影,虽然文本叙述没有明确提及,但是DALL·E仍可以正确地画出合理的阴影。

DALL·E还有一个强大的能力,可以结合不同的概念搭建成合理物体图像,像是要DALL·E搭建出酪梨形状的扶手椅,DALL·E便能产生同时考量两者形状的椅子,酪梨形状外形通常会与椅背相关联,而酪梨的果核凹槽,则会与椅垫相关联。

由于DALL·E的能力过于强大,可能会对人类社会产生广泛的影响,因此OpenAI将计划分析像是DALL·E这样的模型,对社会所产生的影响,包括特定工作流程以及专业的经济冲击,还有这个技术所存在的潜在偏差,以及长期在道德上挑战。