代写论文ChatGPT,背后Open AI揭秘

2022年11月开放使用,一周就涌进百万用户的聊天机器人ChatGPT,被全球网友运用发现,可以代学生写论文、老师看不出;还能代读研究报告选股;代回客服信函,甚至帮工程师写程序代码,并通中英文,简直要害文组理组一起失业。如此强大的AI工具,开发公司是Open AI。而这家公司马斯克竟是创办人之一。Open AI还有哪些厉害AI服务等着推?又为何被马斯克半途抛弃?一文完整揭密。

在向大众开放对话式语言模型ChatGPT以后,人工智能研究实验室OpenAI再度让普罗大众惊艳于人工智能的威力,并且记住它的名字。这也是自2020年推出GPT-3以来,OpenAI开发出的服务又一次席卷社群,也擦亮其在人工智能领域的领先招牌。不过,说起OpenAI的发展,这次ChatGPT的耀眼表现,并不适合用“十年寒窗苦心钻研无人问津,而后一夜成名”来描述,探究其发展经历,更可说是厚积而薄发。

究竟OpenAI是什么来头?为什么创办人之一最终退出?科技巨头微软看上它什么?除了ChatGPT以外,OpenAI还开发出什么人工智能的有趣应用?《远见》整理OpenAI的发展脉络,并盘点其面向人们贴近生活的服务,带你一次看。

OpenAI是什么背景?

OpenAI是一间专攻人工智能的企业,由非营利的OpenAI Inc.和盈利的OpenAI LP所组成。其创办人大有来头,分别是特斯拉首席执行官暨Twitter新老板马斯克(Elon Musk),以及素有创业公司孵化器美名的创投Y Combinator前总裁亚特曼(Sam Altman)。

根据官网所述,OpenAI希望能够让通用人工智能(artificial general intelligence,简称为AGI)造福所有人类,致力于打造出安全且对人类有帮助的AGI。

通用人工智能,又称为强人工智能(strong AI),指的是接近、甚至超越人类的人工智能。在预想中,通用人工智能能够像人类一样具备认知能力,能够进行逻辑推理,甚至拥有自我意识,因此能够执行不同种类的任务,用途非常广泛。其在概念上与应用人工智能(applied AI)或者弱人工智能(weak AI)相对,后者的用途相对狭隘,机器仅能学习具有明确目的的任务,例如识别人脸、下棋、医疗图片判读、自动导航等。

专攻西洋棋、由IBM开发的Deep Blue,还有专供围棋、由DeepMind开发的AlphaGo,都属于弱人工智能。(Source:视频截屏)

在人工智能的发展史上,开发出通用人工智能,一向是计算机科学界企求却始终无法实现的渴望。纵使近年来因为计算机运算能力的发展成功渡过AI的寒冬,深度学习便宜且有效的落地,主宰人工智能领域,但目前的众多应用仍在弱人工智能范畴,科幻电影里和人类培养深厚感情的通用人工智能,仍旧是研究者的失落圣杯。

不过,OpenAI并没有因此放弃,它挖掘顶尖人才、引入资金,挑战各类的AI任务,希望能够朝终焉之地迈进。

科技巨头微软看上它什么?

在创立之初,OpenAI属于非营利组织,2019年时OpenAI表示,未来希望能够增加对于运算能力和人才的投资,例如大规模的云计算、建造超级计算机等,同时又要平衡它对于梦想的追求,两者都需要资金,为了增加其募集资金能力,OpenAI决定成立盈利公司OpenAI LP。

虽然OpenAI LP重视盈利,但OpenAI当时表示,它相信自己能够专注于发展新的AI技术,而不是将重点放在商业产品,其同时具有非营利和盈利企业的组织架构,让它不用只看眼前利润,更能够深入研究,借此追求长期回应。

除了初创时投资者与创办人共同承诺投入的10亿美元以外,2019年微软(Microsoft)加码投资10亿美元,希望通过此次和OpenAI的合作共同发展通用人工智能,微软想利用OpenAI先进人工智能研究的力量,并且相关技术民主化。

当然,强强联手不只是做公益,微软不只成为OpenAI的独家云计算系统供应商,两者更合作开发微软公有云服务Azure的超级运算技术。而后微软也推出Azure OpenAI的相关服务,集成进Open AI开发的产品。举例来说,营销领域和媒体界的用户能借此工具,根据球赛的评论快速生成精华摘要,进而迅速发稿。不仅如此,微软也把“望文生图”的DALL-E加到旗下的创作服务和Microsoft 365其中,让微软的客户能够享受OpenAI的世界级产品。

利用DALL·E生成的图片风格各异,能写实也能童稚或者科幻。(Source:DALL·E by OpenAI)

为什么马斯克半路退出?

微软投资OpenAI时勾勒出的愿景如此动人:民主化人工智能技术、共同开发对人类有益的通用人工智能,然而,2020年9月时,OpenAI把集结科学家心血、耗费巨资开发的GPT-3独家授权给微软,引来外界的口诛笔伐。虽然走向商业化之路无可厚非,但因为OpenAI曾经承诺过要做到开放,因此不是所有人都能够接受与微软的合作。

事实上,创办人之一的马斯克在2019年2月宣布离开OpenAI,除了因为要专注于处理特斯拉和SpaceX的工程与制造问题以外,马斯克指出,特斯拉与OpenAI在争取相同人才,有潜在利益冲突,此外“我并不认同OpenAI团队想做的一些事情。”

2月马斯克前脚刚走,3月OpenAI便成立了盈利公司OpenAI LP,这很有可能就是马斯克所说的道不同不相为谋。也因此2020年时见到微软取得GPT-3的独家授权,马斯克在Twitter上发文抨击“OpenAI已被微软俘虏”,纵使微软首席技术官暨副总史考特(Kevin Scott)指出,外界仍可以持续使用GPT-3以及其他OpenAI开发出的模型,但马斯克仍说,如此行为看起来并不像誓言“开放”的组织会做的事。

OpenAI开发出什么有趣的人工智能服务?

OpenAI并没有让投资人和社会大众失望,它陆续开发人工智能创造内容(AI generated content)的模型,并且公开部分成果让大家使用。

以图像和文本来说,它们分别推出了输入文本便能输出图像的DALL-E,以及给定图片后产出描述文本的CLIP。DALL-E和Midjourney相似,用户输入各种指令(prompt)的组合,人工智能便会生产机制出精美程度甚高的图像,虽然有时候会出现和物理世界不符的情况,例如不符合人体工学的肢体角度、动物拥有四肢以外的躯干、出现不可能存在的光影等,但“以文产图”的结果早已能够符合大众的审美。

至于CLIP模型,是利用对比的方式,让计算机认识不同图片之间的差异,进而产生判断,再依此产出文本。它的实用性也不容小觑,平常人们在整理照片时,时常要花时间整理相册,像是将照片依照以往参加过的活动分类,甚至有些要重命名方便日后查找。然而,真的要找特定的照片还是很艰难,因为图片与文本并不公用,例如“自己与家中小狗的合照”或是“塞车街景”,即使在搜索字段中输入小狗或者塞车,也不会跳出正确的结果。

利用CLIP生成的模型,能够“以文找图”。(Source:GitHub)

以文搜图超方便

有了CLIP模型之后,我们便能够像Google图片搜索一样,利用以文搜图的方式查找自己的照片。听起来不是什么新发明,但CLIP其实已经做到了物体识别,它不再只是传统的“这张照片是狗”、“这张图里面有动物”,而是能够正确的认出单张图片中的不同概念,例如“狗在玩雪”、“夜晚的台北市交通打结”等。

不只图像上的突破,OpenAI陆续开发了MuseNet和Jukebox,前者能够依照用户输入的音乐,进一步融合不同风格的演奏,甚至增添乐器,产出新的音乐,它可以模仿莫札特与披头四,也能用乡村音乐或者Lady Gaga的风格作曲。

用户可以到OpenAI的官网使用MuseNet,除了自行上传MIDI文件以外,也能从默认的列表选择乐曲,接着还能改变风格与乐器。(Source:OpenAI)

Jukebox则往前跨了一步。用户连音乐都不用上传了,只要提供类型、音乐人、歌词,Jukebox便能够产出接近典型CD品质的音乐片段(即采样Sampling的“样”),时长约为4分钟。不过,因为Jukebox产出的品质相对较高,因此训练时间长达数小时,不像MuseNet仅花以秒计的时间便可完成。

除了音乐以外,OpenAI也开发了将文本描述转译为程序代码的Codex,还有擅长玩电动的OpenAI Five。不过,OpenAI最厉害的还是其开发出的GPT相关模型,例如第三代GPT-3,它能够理解人类语句并做出回应,同时也是这次ChatGPT的基石。

随着人工智能的逐步发展,人类在“以文生图”后反思创作、在“以字产乐”后回顾音乐风格,ChatGPT则让人们寻找机器与人类相似与相异之处。

有了科技巨头的鼎力相助,我们要问的问题或许不再是有生之年能否见到通用人工智能的到来,而要改问还要多久就会到来。到了彼时,人类应该如何自处?又要如何寻找或者认可生而为人的价值?借着他者,更能够观照自身。在科技奇点来临之前,我们还有时间能够不断反思。

(首图来源:shutterstock)