Deepmind开发具有2,800亿参数的语言模型,探索模型规模对性能的影响

Google旗下人工智能研究公司Deepmind最近发布了数篇关于语言模型的论文,其中重要的论文包括训练具有2,800亿参数的语言模型Gopher,还提出一个改进的语言模型架构,来降低训练模型的能源成本。

之所以DeepMind团队致力于研究人工智能的语言处理和沟通,他们提到,语言是人类说明和促进理解的基本,能够让人们交流思想、表达想法、创造记忆并且相互理解,而这同时也是社交智能的基础部分。研究人员认为,开发更强大的语言模型,对于人工智能系统的研究具有很大的潜力,能够有效率地总结信息、提供专家建议,并且以自然语言提供指引。

在DeepMind的新论文中,训练了大大小小的Transformer语言模型,从4,400万个参数到2,800亿个参数的模型都有,最大的模型被命名为Gopher。研究人员通过调查这些不同大小模型的优势和缺点,找出能够借由增加规模,继续提高性能的领域,像是在阅读理解、事实核实和有毒语言识别上,而研究人员也发现,在逻辑推理和常识性任务中,模型的规模并无法明显改善结果。

经过DeepMind的研究,他们发现Gopher的能力,在许多重要的任务上都超过现有的语言模型,例如大规模多任务语言理解(Massive Multitask Language Understanding,MMLU)基准测试,Gopher在许多方面都胜过当前先进的语言模型GPT-3和UnifiedQA,包括人性、社会科学和医疗等。

研究人员除了对Gopher进行定量评估之外,也通过实际交互探索模型,发现Gopher在被提示进行对话交互时,能够提供良好的连贯性,即便开发人员没有对特定对话微调,但是Gopher竟然可以讨论细胞生物学,并且引用正确的文献。

除了大模型带来的优点之外,研究人员也探讨了几种在任何模型大小中,都持续存在的故障模式,诸如反复倾向(Tendency for Repetition)、刻板印象和传播不正确信息。研究人员提到,这些研究之所以重要,是因为可以借由理解和记录故障模式,来进一步掌握大型语言模型对下游应用造成的危害,并且知道该朝哪个方向前进,来缓解这些问题。

除此之外,DeepMind还提出了一种改进的语言模型架构,该架构能够降低训练能源成本,并且使模型输出更容易追溯至训练语料库中的来源。研究人员受大脑在学习时,依赖专用记忆机制的启发,开发出了RETRO(Retrieval-Enhanced Transformer),借由使用互联网规模的检索机制,来预训练模型,RETRO能够有效地查询文本段落来改进预测,并且通过将生成的文本和RETRO生成所依赖的段落进行比较,研究人员可以解释模型做出部分预测时的原因和来源。