OpenAI新模型把文本叙述变成超现实画作

一听到OpenAI或许你会先想到它的创始人Tesla的CEO马斯克，他在2015年于旧金山成立该非营利的AI研究组织，希望以安全的方式开发AI技术，并向公众开放专利与研究结果。

然而在近几年让OpenAI颇负盛名的是该团队通过不断更新的AI技术，创下许多惊人记录，像是2018年组成OpenAI Five战队在Dota年度国际赛事血虐职业选手、2019年OpenAI开发自动写作模型GPT-2用5秒就能生成一篇虚构文章，2020年英国《卫报》甚至刊登了一篇由GPT-3机器人生成，标题为“人类你害怕了吗？”的文章。

从上述的“丰功伟业中”可以发现，OpenAI在文本领域中已经相当成熟，但是OpenAI的首席科学家Ilya Sutskever也表示“人类是生活在可视化的世界中”，因此近几年团队也加强其在“图像领域”的开发，同时希望能让AI效仿人类学习语言的方式，借由图像强化对于字词语义的理解力，让未来生成的语句更有意义。

根据Tech Crunch、MIT Technology Review报道，OpenAI近期将“图像”和“语言”概念结合，创建了两个新模型，称为CLIP和DALL-E。

新版AI图像辨认模型，不再只能识别人脸、建筑物等单一对象

CLIP(Contrastive Language-Image Pre-training)，主要和先前训练GPT -3辨认图像的功能相似，它们不是借由固定数据库中的单一标签进行训练，而是通过网络上众多的图像与该图像一连串的文本注解去培训。

团队会通过丢出32,768个文本叙述让CLIP挑选哪一个是与特定图像相符的，而要达到该目标“联想”将是训练关键，通过判读不限单一物种的图像与其文本叙述，让CLIP能跳脱以往从监视图片中找“人脸”或卫星图像中找“建筑物”等单一任务。

AI新模型DALL-E把文本叙述直接变成超现实画作！

DALL-E则不仅做到识别，它更让AI“画”图形！不过DALL-E不仅是画出单一物品，你可以提供它一串多个看似毫不相关的形容词进行物品描述，像是“穿着澎澎裙遛狗的白萝卜”，DALL-E就会进行一连串的联想思考，画出许多相似的图片

“对于AI开发而言，用文本生成图像其实是一件难以突破的创举！”一位乔治亚理工学院从事多年NLP研究的Mark Riedl表示。OpenAI团队也在博客分享，尽管目前DALL-E偶尔会出错，但它们不是用人工挑选，而是让CLIP模型从上百幅图像中，去排名出32则最符合文本叙述的图像。

现在就来看一些DALL-E的“惊世巨作”，例如文章首图的“酪梨形状的扶手椅”、“戴太阳眼镜的猫猫”，都是由两个看似不相关的物品组成，AI竟然能如此完美结合，还给出不同排列组合！

但偶尔出错的案例就像另一个“用竖琴做成的蜗牛”的叙述，不像上方酪梨座椅百分百合成出合理的图片，或许可以推测酪梨的剖面和扶手椅的外观相当类似，因此让DALL-E能更容易“联想”生出相关图像。

同时，如果你对DALL-E所生成的图像不满意，在图像生成后，你还能微调文本叙述中的字词，如从“正方形”变成“三角形”以生成不同类型的图像！

尽管对于DALL-E能如此快速的从毫不关联的字词生成图片，Riedl感到非常惊讶，但回头想DALL-E是根基于GPT-3技术而发展，而GPT- 3就以其擅于“记忆”闻名，因此像是“穿着澎澎裙散步的白萝卜”这些图像，可能也是参考网络上的艺术品图片。不过，这项“语言转换图像”的技术在未来发展仍相当令人期待！