Deepmind开发具有2,800亿参数的语言模型，探索模型规模对性能的影响

Google旗下人工智能研究公司Deepmind最近发布了数篇关于语言模型的论文，其中重要的论文包括训练具有2,800亿参数的语言模型Gopher，还提出一个改进的语言模型架构，来降低训练模型的能源成本。

之所以DeepMind团队致力于研究人工智能的语言处理和沟通，他们提到，语言是人类说明和促进理解的基本，能够让人们交流思想、表达想法、创造记忆并且相互理解，而这同时也是社交智能的基础部分。研究人员认为，开发更强大的语言模型，对于人工智能系统的研究具有很大的潜力，能够有效率地总结信息、提供专家建议，并且以自然语言提供指引。

在DeepMind的新论文中，训练了大大小小的Transformer语言模型，从4,400万个参数到2,800亿个参数的模型都有，最大的模型被命名为Gopher。研究人员通过调查这些不同大小模型的优势和缺点，找出能够借由增加规模，继续提高性能的领域，像是在阅读理解、事实核实和有毒语言识别上，而研究人员也发现，在逻辑推理和常识性任务中，模型的规模并无法明显改善结果。

经过DeepMind的研究，他们发现Gopher的能力，在许多重要的任务上都超过现有的语言模型，例如大规模多任务语言理解（Massive Multitask Language Understanding，MMLU）基准测试，Gopher在许多方面都胜过当前先进的语言模型GPT-3和UnifiedQA，包括人性、社会科学和医疗等。

研究人员除了对Gopher进行定量评估之外，也通过实际交互探索模型，发现Gopher在被提示进行对话交互时，能够提供良好的连贯性，即便开发人员没有对特定对话微调，但是Gopher竟然可以讨论细胞生物学，并且引用正确的文献。

除了大模型带来的优点之外，研究人员也探讨了几种在任何模型大小中，都持续存在的故障模式，诸如反复倾向（Tendency for Repetition）、刻板印象和传播不正确信息。研究人员提到，这些研究之所以重要，是因为可以借由理解和记录故障模式，来进一步掌握大型语言模型对下游应用造成的危害，并且知道该朝哪个方向前进，来缓解这些问题。

除此之外，DeepMind还提出了一种改进的语言模型架构，该架构能够降低训练能源成本，并且使模型输出更容易追溯至训练语料库中的来源。研究人员受大脑在学习时，依赖专用记忆机制的启发，开发出了RETRO（Retrieval-Enhanced Transformer），借由使用互联网规模的检索机制，来预训练模型，RETRO能够有效地查询文本段落来改进预测，并且通过将生成的文本和RETRO生成所依赖的段落进行比较，研究人员可以解释模型做出部分预测时的原因和来源。