OpenAI发布完整具15亿个参数的GPT-2文本产生模型

OpenAI在今年2月的时候，原本要发布完整的GPT-2模型，但因为该模型功能强大，能够产生极度真实的假新闻，因此最后只发布小部分的模型和范例，但是经过这几个月的观察，OpenAI认为当初担心的事并没有发生，因此现在决定公开最大具有15亿个参数的GPT-2模型、程序代码和模型权重。

这个GPT-2模型利用了800万页的网页作为训练数据，以预测文本的下一个字作为训练目标，因为庞大且多样的训练数据集，因此该模型不需要对特定任务进行训练，就能应用于多个领域，目前该模型可以执行机器翻译、问答、阅读理解和总结段落等语文任务。Open AI期望GPT-2能够被用来开发成，写作人工智能助理或是语言理解系统等应用。

OpenAI公开这项技术引来了极大的争议，因为只要给GPT-2模型一段文本，模型就能产生继续段落的文本，甚至是假以乱真的假新闻，简直就是文本版的Deepfake，一般人无法识别真伪。OpenAI也在随后表示，由于考量技术可能遭到滥用，产生误导性的文本、冒充他人身份，以及在社群网站传播假新闻等问题，因此OpenAI不会发布已经训练完成的完整模型，仅发布较小型的模型、范例和技术白皮书，供外部研究人员使用。

研究恐怖主义、极端主义的明德大学蒙特雷国际研究学院和反恐中心（CTEC）发现，极端主义团体可以滥用GPT-2，特别可对白人至上、马靠丝主义、圣战伊斯兰教和无政府主义四个意识形态进行微调，CTEC与也展示了创建模型来宣达这些意识形态的可能性，他们同时也提到，虽然检测合成文本的精确度较低，但是基于机器学习的方法，仍可让专家发现恶意人士所产生的合成文本。

研究人员发展出了一种检测模型，可以侦测1.5B GPT-2模型所产生的文本，精确度达95％，他们认为，这样的精确度仍然还不够，还需要综合元数据方法，加上人为判断以及公共教育，才能有效防范模型产生的造假文本。1.5B GPT-2模型的发布，可以用来帮助合成文本侦侧的研究，OpenAI提到，虽然这也可以让恶意人士更好地规避侦测。

OpenAI提到，到目前为止，他们还没有发现GPT-2模型遭滥用的有力证据，尽管网络上有一些将模型用于网络钓鱼以及垃圾邮件的讨论，但都未实际发现撰写的程序代码、文件和滥用的实例，而研究人员认为，当文本生成器的输出变得更成熟时，被滥用的可能性就会提高。