OpenAI发布完整具15亿个参数的GPT-2文本产生模型

OpenAI在今年2月的时候,原本要发布完整的GPT-2模型,但因为该模型功能强大,能够产生极度真实的假新闻,因此最后只发布小部分的模型和范例,但是经过这几个月的观察,OpenAI认为当初担心的事并没有发生,因此现在决定公开最大具有15亿个参数的GPT-2模型、程序代码和模型权重。

这个GPT-2模型利用了800万页的网页作为训练数据,以预测文本的下一个字作为训练目标,因为庞大且多样的训练数据集,因此该模型不需要对特定任务进行训练,就能应用于多个领域,目前该模型可以执行机器翻译、问答、阅读理解和总结段落等语文任务。Open AI期望GPT-2能够被用来开发成,写作人工智能助理或是语言理解系统等应用。

OpenAI公开这项技术引来了极大的争议,因为只要给GPT-2模型一段文本,模型就能产生继续段落的文本,甚至是假以乱真的假新闻,简直就是文本版的Deepfake,一般人无法识别真伪。OpenAI也在随后表示,由于考量技术可能遭到滥用,产生误导性的文本、冒充他人身份,以及在社群网站传播假新闻等问题,因此OpenAI不会发布已经训练完成的完整模型,仅发布较小型的模型、范例和技术白皮书,供外部研究人员使用。

研究恐怖主义、极端主义的明德大学蒙特雷国际研究学院和反恐中心(CTEC)发现,极端主义团体可以滥用GPT-2,特别可对白人至上、马靠丝主义、圣战伊斯兰教和无政府主义四个意识形态进行微调,CTEC与也展示了创建模型来宣达这些意识形态的可能性,他们同时也提到,虽然检测合成文本的精确度较低,但是基于机器学习的方法,仍可让专家发现恶意人士所产生的合成文本。

研究人员发展出了一种检测模型,可以侦测1.5B GPT-2模型所产生的文本,精确度达95%,他们认为,这样的精确度仍然还不够,还需要综合元数据方法,加上人为判断以及公共教育,才能有效防范模型产生的造假文本。1.5B GPT-2模型的发布,可以用来帮助合成文本侦侧的研究,OpenAI提到,虽然这也可以让恶意人士更好地规避侦测。

OpenAI提到,到目前为止,他们还没有发现GPT-2模型遭滥用的有力证据,尽管网络上有一些将模型用于网络钓鱼以及垃圾邮件的讨论,但都未实际发现撰写的程序代码、文件和滥用的实例,而研究人员认为,当文本生成器的输出变得更成熟时,被滥用的可能性就会提高。