多模态的新版GPT-4来了，同时输入图文是新特色

就在付费API服务发布刚满2周，OpenAI就大动作发布了多模态的GPT-4模型，最大变革是可以同时输入文本和图片。OpenAI共同创办人Greg Brockman在直播中展示，拍摄他在笔记本上手绘的设计草图输入GPT-4后，GPT-4能自动生成对应网页的程序代码，不只画面几乎和手绘草图一样，还能产生按钮和对应的事件触发JavaScript程序，他强调，这会大大改变网站设计模式。

GPT-4目前先开放ChatGPT付费用户试用，也在OpenAI API支持模型中，开放限定对象选用。已经有少数企业或组织开始试用，例如全球最大财富管理公司摩根士丹利财管，冰岛政府，Stripe支付平台、可汗学院、Duolingo语言学习平台、Be My Eyes视障者辅助App等，而2月发布的微软新版Bing用的模型也是GPT-4新版。

可输入图文，回答正确率超过3.5

GPT-4最大特色是不只文本对话还能输入图片，让AI来解读，而且解答能力和正确率大幅超越了GPT-3.5，也更能控制GPT输出人设来符合企业想要的的形象，输入Token数量也将大幅增加到32,768个，相当于50页文本。目前先开放了文本输入API功能，ChatGPT Plus付费用户可优先排入试用新版。图片输入功能目前则只开放给特定合作伙伴。

GPT-4是一个多模态AI超大模型，可接受图片和文本输入，来生成文本的回复，可以提供人类等级的回答内容。根据OpenAI实测，在全美统一律师资格考检定上，3.5只能拿到倒数10%的名次，但GPT-4却能拿到前10%的高分。或像是在SAT数学测验或GRE测验等三十多项不同学科的主流检定测验上，GPT-4都大胜3.5版。

Open AI花了6个月时间，利用ChatGPT和其他多项对抗式测试计划来调整，终于打造出答案更真实、更可操控和更能防范滥用的新一代GPT-4。

虽然GPT-4和3.5版的训练资料同样都只使用到2021年9月为止的开放网络资料，但是4.0版模型在多项传统机器学习能力评比上，都超越了3.5版，在多项模型评比上都达到SOTA等级。尤其在14,000题的多选题测试MMLU（理解力）评比上，OpenAI宣称，GPT-4英文答题的正确率达到80.5%，高于3.5版的70.1%，甚至也高于Google日前的PaLM模型英文答题的69.3%正确率，不过，PaLM答题正确率是OpenAI自行实测的结果，而非Google官方数据。值得注意的是，GPT-4对翻译成中文版的MMLU答题正确率也达到了80.1%，日语和韩语版也都有70～80%的正确率。

除了答题能力更正确之外，第4版最大特色是能看图，而且可以同时输入指定图片和图片，GPT-4会以文本来解释图片内容，并且符合文本任务的要求。输入的图片可以是照片、图表或屏幕解图。未来，GPT-4还将持续强化解图能力，例如可以输入多组图片范例，或是提供分解动作解释的解图（chain-of-thought）能力。

不过目前图片输入功能还处于研究者预览版本，没有对外开放，OpenAI也没有透露开放进程。

GPT-4展示1：摘要图片重点可以从多张图组合的画面中，一一介绍每一张图各自的重点和特色，如上面3张不同角度的VGA连接线图片中提供产品说明。图片来源／OpenAI

GPT-4展示2：解读图表趋势可以输入图表让GPT-4解读每张图表中呈现的数据趋势变化，甚至可以进一步比较不同项目之间的数据差异。图片来源／OpenAI

GPT-4展示3：看图分解动作答题可以看图来回答试卷纸上的考题，不只给出正确答案，而且可以分解动作，说明如何一步步从图中资讯来解答问题。图片来源／OpenAI

可操控性强，能指定GPT-4扮演的角色来限定人设

另一个值得注意的新版特色是GPT-4的可操控性（Steerability），可以通过输入的提示或微调模型，来指定GPT-4的角色人设，例如回答的用语、风格、语调等条件，以便限制GPT-4的回复行为。例如在OpenAI API中使用System角色参数，来要求GPT-4扮演不能直接回答答案的数学课辅老师，在OpenAI发布的展示范例中可以看到，不管学生怎么问，甚至输入特殊提示指令试图越狱，也都无法得到直接的答案。这个新功能可用来限制和控制GPT-4所能回答的限制，可供企业用来设置想要GPT-4回答的内容范围，或者禁止回答的内容。

为了防范AI模型遭到滥用，OpenAI在GPT-4模型中也特别针对AI滥用或不当使用进行强化，根据OpenAI公布的实测数据，gpt-3.5-turbo对敏感指令（例如违反伦理的指令）的拦截失误率超过40%，但GPT-4降到20%出头，等于5次会误判一次，或不良行为指令的阻挡失误率更不到5%（如犯罪行为教学等）。

还有一个企业用户最在乎的新功能是，GPT-4大幅放宽了输入Token的上限，最大放宽到32K，比GPT-3.5的4k上限，多了8倍，达到32,768个Token之多。以每千次中文约700个Token来估算，32k的Token等于可以输入超过2万字中文的内容。

不过，目前开放的GPT-4版本只提供8K版本，也就是比原本3.5多了一倍，达到8,192个Token，32K版引擎目前先开放特定对象试用。不过，目前GPT-4性能只达到每分钟处理40K个Token或每分钟200次调用的能力，OpenAI正在持续优化中，改善后才会扩大开放API试用的用户规模。