Meta公布ChatGPT竞争AI模型LLaMA

在OpenAI、微软及Google的语言生成AI（generative AI）模型搏得世人目光之际，身为发展AI模型先驱的Meta也公布了能产生文本的最新AI模型，也准备将之开源。

Meta首席执行官Mark Zuckerberg周五（2/24）通过脸书公布AI大型语言模型LLaMA（Large Language Model Meta AI）。他表示，大型语言模型已显示产生文本、对话、为文章做摘要、以及其他更复杂任务如解决数学定理或预测蛋白质结构的潜力。Meta将把LLaMA模型开放给AI研究社群，供研究人员进行不同领域研究。

LLaMA是一种较小型基础模型，可用作训练更大语言模型。这些模型以大量未标注的资料训练而成，很适合微调后用于多种任务，减少后续大型模型测试、验证及探索新使用场景的计算资源需求。

Meta解释，过去数十亿参数的大型自然语言处理（natural language processing，NLP）模型发展出产生创意文本、解决数学定理问题、预测蛋白质结构、回答阅读理解问题等能力。但是训练和执行这类大型模型的资源，不是所有人都有，也限制了研究的进展，并造成语言模型的偏见、毒性（toxicity）和产生错误资讯。相对的，小型模型是以更多token（小段字词）训练，比较容易为特定使用场景重训练及微调。

Meta最小的模型LLaMA 7B以一兆token训练、LLaMA 65B及33B则以1.4兆token训练。此外，他们选择从20种使用人口最多的语言之文本字词为训练输入，其中以拉丁和西里尔（Cyrillic，一种斯拉夫语）字母为主。

以参数而言，Meta的LLaMA有多种规模，分成70亿、130亿、330亿及650亿个参数。Meta也提供了LLaMA模型卡（model card）透明度工具，像是基准测试模型对模型偏差和毒性的评估值，供研究人员了解模型的限制。

有兴趣的研究人员需在Meta网页申请使用LLaMA。