OpenAI新模型把文本叙述变成超现实画作

一听到OpenAI或许你会先想到它的创始人Tesla的CEO马斯克,他在2015年于旧金山成立该非营利的AI研究组织,希望以安全的方式开发AI技术,并向公众开放专利与研究结果。

然而在近几年让OpenAI颇负盛名的是该团队通过不断更新的AI技术,创下许多惊人记录,像是2018年组成OpenAI Five战队在Dota年度国际赛事血虐职业选手、2019年OpenAI开发自动写作模型GPT-2用5秒就能生成一篇虚构文章,2020年英国《卫报》甚至刊登了一篇由GPT-3机器人生成,标题为“人类你害怕了吗?”的文章。

从上述的“丰功伟业中”可以发现,OpenAI在文本领域中已经相当成熟,但是OpenAI的首席科学家Ilya Sutskever也表示“人类是生活在可视化的世界中”,因此近几年团队也加强其在“图像领域”的开发,同时希望能让AI效仿人类学习语言的方式,借由图像强化对于字词语义的理解力,让未来生成的语句更有意义。

根据Tech Crunch、MIT Technology Review报道,OpenAI近期将“图像”和“语言”概念结合,创建了两个新模型,称为CLIP和DALL-E。

新版AI图像辨认模型,不再只能识别人脸、建筑物等单一对象

CLIP(Contrastive Language-Image Pre-training),主要和先前训练GPT -3辨认图像的功能相似,它们不是借由固定数据库中的单一标签进行训练,而是通过网络上众多的图像与该图像一连串的文本注解去培训。

团队会通过丢出32,768个文本叙述让CLIP挑选哪一个是与特定图像相符的,而要达到该目标“联想”将是训练关键,通过判读不限单一物种的图像与其文本叙述,让CLIP能跳脱以往从监视图片中找“人脸”或卫星图像中找“建筑物”等单一任务。

AI新模型DALL-E把文本叙述直接变成超现实画作!

DALL-E则不仅做到识别,它更让AI“画”图形!不过DALL-E不仅是画出单一物品,你可以提供它一串多个看似毫不相关的形容词进行物品描述,像是“穿着澎澎裙遛狗的白萝卜”,DALL-E就会进行一连串的联想思考,画出许多相似的图片

“对于AI开发而言,用文本生成图像其实是一件难以突破的创举!”一位乔治亚理工学院从事多年NLP研究的Mark Riedl表示。OpenAI团队也在博客分享,尽管目前DALL-E偶尔会出错,但它们不是用人工挑选,而是让CLIP模型从上百幅图像中,去排名出32则最符合文本叙述的图像。

现在就来看一些DALL-E的“惊世巨作”,例如文章首图的“酪梨形状的扶手椅”、“戴太阳眼镜的猫猫”,都是由两个看似不相关的物品组成,AI竟然能如此完美结合,还给出不同排列组合!

但偶尔出错的案例就像另一个“用竖琴做成的蜗牛”的叙述,不像上方酪梨座椅百分百合成出合理的图片,或许可以推测酪梨的剖面和扶手椅的外观相当类似,因此让DALL-E能更容易“联想”生出相关图像。

同时,如果你对DALL-E所生成的图像不满意,在图像生成后,你还能微调文本叙述中的字词,如从“正方形”变成“三角形”以生成不同类型的图像!

尽管对于DALL-E能如此快速的从毫不关联的字词生成图片,Riedl感到非常惊讶,但回头想DALL-E是根基于GPT-3技术而发展,而GPT- 3就以其擅于“记忆”闻名,因此像是“穿着澎澎裙散步的白萝卜”这些图像,可能也是参考网络上的艺术品图片。不过,这项“语言转换图像”的技术在未来发展仍相当令人期待!