Meta公布ChatGPT竞争AI模型LLaMA

在OpenAI、微软及Google的语言生成AI(generative AI)模型搏得世人目光之际,身为发展AI模型先驱的Meta也公布了能产生文本的最新AI模型,也准备将之开源。

Meta首席执行官Mark Zuckerberg周五(2/24)通过脸书公布AI大型语言模型LLaMA(Large Language Model Meta AI)。他表示,大型语言模型已显示产生文本、对话、为文章做摘要、以及其他更复杂任务如解决数学定理或预测蛋白质结构的潜力。Meta将把LLaMA模型开放给AI研究社群,供研究人员进行不同领域研究。

LLaMA是一种较小型基础模型,可用作训练更大语言模型。这些模型以大量未标注的资料训练而成,很适合微调后用于多种任务,减少后续大型模型测试、验证及探索新使用场景的计算资源需求。

Meta解释,过去数十亿参数的大型自然语言处理(natural language processing,NLP)模型发展出产生创意文本、解决数学定理问题、预测蛋白质结构、回答阅读理解问题等能力。但是训练和执行这类大型模型的资源,不是所有人都有,也限制了研究的进展,并造成语言模型的偏见、毒性(toxicity)和产生错误资讯。相对的,小型模型是以更多token(小段字词)训练,比较容易为特定使用场景重训练及微调。

Meta最小的模型LLaMA 7B以一兆token训练、LLaMA 65B及33B则以1.4兆token训练。此外,他们选择从20种使用人口最多的语言之文本字词为训练输入,其中以拉丁和西里尔(Cyrillic,一种斯拉夫语)字母为主。

以参数而言,Meta的LLaMA有多种规模,分成70亿、130亿、330亿及650亿个参数。Meta也提供了LLaMA模型卡(model card)透明度工具,像是基准测试模型对模型偏差和毒性的评估值,供研究人员了解模型的限制。

有兴趣的研究人员需在Meta网页申请使用LLaMA。