多模态的新版GPT-4来了,同时输入图文是新特色

就在付费API服务发布刚满2周,OpenAI就大动作发布了多模态的GPT-4模型,最大变革是可以同时输入文本和图片。OpenAI共同创办人Greg Brockman在直播中展示,拍摄他在笔记本上手绘的设计草图输入GPT-4后,GPT-4能自动生成对应网页的程序代码,不只画面几乎和手绘草图一样,还能产生按钮和对应的事件触发JavaScript程序,他强调,这会大大改变网站设计模式。

GPT-4目前先开放ChatGPT付费用户试用,也在OpenAI API支持模型中,开放限定对象选用。已经有少数企业或组织开始试用,例如全球最大财富管理公司摩根士丹利财管,冰岛政府,Stripe支付平台、可汗学院、Duolingo语言学习平台、Be My Eyes视障者辅助App等,而2月发布的微软新版Bing用的模型也是GPT-4新版。

可输入图文,回答正确率超过3.5

GPT-4最大特色是不只文本对话还能输入图片,让AI来解读,而且解答能力和正确率大幅超越了GPT-3.5,也更能控制GPT输出人设来符合企业想要的的形象,输入Token数量也将大幅增加到32,768个,相当于50页文本。目前先开放了文本输入API功能,ChatGPT Plus付费用户可优先排入试用新版。图片输入功能目前则只开放给特定合作伙伴。

GPT-4是一个多模态AI超大模型,可接受图片和文本输入,来生成文本的回复,可以提供人类等级的回答内容。根据OpenAI实测,在全美统一律师资格考检定上,3.5只能拿到倒数10%的名次,但GPT-4却能拿到前10%的高分。或像是在SAT数学测验或GRE测验等三十多项不同学科的主流检定测验上,GPT-4都大胜3.5版。

Open AI花了6个月时间,利用ChatGPT和其他多项对抗式测试计划来调整,终于打造出答案更真实、更可操控和更能防范滥用的新一代GPT-4。

虽然GPT-4和3.5版的训练资料同样都只使用到2021年9月为止的开放网络资料,但是4.0版模型在多项传统机器学习能力评比上,都超越了3.5版,在多项模型评比上都达到SOTA等级。尤其在14,000题的多选题测试MMLU(理解力)评比上,OpenAI宣称,GPT-4英文答题的正确率达到80.5%,高于3.5版的70.1%,甚至也高于Google日前的PaLM模型英文答题的69.3%正确率,不过,PaLM答题正确率是OpenAI自行实测的结果,而非Google官方数据。值得注意的是,GPT-4对翻译成中文版的MMLU答题正确率也达到了80.1%,日语和韩语版也都有70~80%的正确率。

除了答题能力更正确之外,第4版最大特色是能看图,而且可以同时输入指定图片和图片,GPT-4会以文本来解释图片内容,并且符合文本任务的要求。输入的图片可以是照片、图表或屏幕解图。未来,GPT-4还将持续强化解图能力,例如可以输入多组图片范例,或是提供分解动作解释的解图(chain-of-thought)能力。

不过目前图片输入功能还处于研究者预览版本,没有对外开放,OpenAI也没有透露开放进程。

GPT-4展示1:摘要图片重点可以从多张图组合的画面中,一一介绍每一张图各自的重点和特色,如上面3张不同角度的VGA连接线图片中提供产品说明。图片来源/OpenAI

GPT-4展示2:解读图表趋势可以输入图表让GPT-4解读每张图表中呈现的数据趋势变化,甚至可以进一步比较不同项目之间的数据差异。图片来源/OpenAI

GPT-4展示3:看图分解动作答题可以看图来回答试卷纸上的考题,不只给出正确答案,而且可以分解动作,说明如何一步步从图中资讯来解答问题。图片来源/OpenAI

可操控性强,能指定GPT-4扮演的角色来限定人设

另一个值得注意的新版特色是GPT-4的可操控性(Steerability),可以通过输入的提示或微调模型,来指定GPT-4的角色人设,例如回答的用语、风格、语调等条件,以便限制GPT-4的回复行为。例如在OpenAI API中使用System角色参数,来要求GPT-4扮演不能直接回答答案的数学课辅老师,在OpenAI发布的展示范例中可以看到,不管学生怎么问,甚至输入特殊提示指令试图越狱,也都无法得到直接的答案。这个新功能可用来限制和控制GPT-4所能回答的限制,可供企业用来设置想要GPT-4回答的内容范围,或者禁止回答的内容。

为了防范AI模型遭到滥用,OpenAI在GPT-4模型中也特别针对AI滥用或不当使用进行强化,根据OpenAI公布的实测数据,gpt-3.5-turbo对敏感指令(例如违反伦理的指令)的拦截失误率超过40%,但GPT-4降到20%出头,等于5次会误判一次,或不良行为指令的阻挡失误率更不到5%(如犯罪行为教学等)。

还有一个企业用户最在乎的新功能是,GPT-4大幅放宽了输入Token的上限,最大放宽到32K,比GPT-3.5的4k上限,多了8倍,达到32,768个Token之多。以每千次中文约700个Token来估算,32k的Token等于可以输入超过2万字中文的内容。

不过,目前开放的GPT-4版本只提供8K版本,也就是比原本3.5多了一倍,达到8,192个Token,32K版引擎目前先开放特定对象试用。不过,目前GPT-4性能只达到每分钟处理40K个Token或每分钟200次调用的能力,OpenAI正在持续优化中,改善后才会扩大开放API试用的用户规模。