彭博开发BloombergGPT，提供专用金融AI资讯服务

美国财经资讯公司彭博（Bloomberg）近日宣布研发自有聊天机器人BloombergGPT，盼推出专用金融领域的人工智能（AI）资讯处理应用，以提供客户和记者更多功能与服务。

美国新闻业网站尼曼实验室（Nieman Lab）报道，彭博3月31日发布研究论文详述BloombergGPT开发。彭博介绍，BloombergGPT是“新大规模生成式AI模型。这个大型语言模型（LLM）专门锁定范围广泛的金融资料训练产生，目的为了支持多样化的金融产业自然语言处理（NLP）任务集”。

彭博表示，近期以大型语言模型为基础的人工智能发展，已在许多领域展示令人振奋的新应用；但金融领域因复杂性及专门术语，必需有专属模型。BloombergGPT的推出，代表将聊天机器人新科技开发应用到金融产业的第一步。

彭博指出，BloombergGPT将协助改善现有金融相关自然语言任务，如文本情感分析、命名实体识别（NER）、新闻分类、回答问题和其他功能。此外，它也创造新机会排列可从彭博终端机取得的巨量资料，以提供客户更多协助。

至于BloombergGPT的训练规模，彭博表示语料库有7千亿余个token（字词碎片）。相较热门聊天机器人ChatGPT开发公司OpenAI在2020年模型GPT-3，训练语料库约有5千亿个token。

据彭博说法，BloombergGPT语料库有3,630亿个token取自彭博自有金融资料，也就是来自彭博终端机数据库，彭博称这是“至今最大特定领域资料集（dataset）”；其余3,450亿个token则取自其他来源通用资料集。

训练资料分为财金类FinPile和一般The Pile两类。FinPile包括彭博文件库各类英文金融文件，如新闻文章、公告、新闻稿、网页内容和社群媒体资料，以及彭博记者撰写的新闻以外所有新闻来源。

至于The Pile则是庞杂语料库，来源从YouTube画面截取、文艺数字化的古腾堡计划（Project Gutenberg）到AI训练常见的安然公司（Enron）电邮缓存。

而BloombergGPT如何使用？尼曼实验室文章表示，照训练原理，应有像ChatGPT的功能，此外也能处理与彭博需求更相关的任务，如将自然语言指令翻译成彭博查询语言（Bloomberg Query Language）终端机的用户偏好功能。

BloombergGPT也能为新闻文章提议具有彭博新闻风格的标题。彭博还说，BloombergGPT更能回答与商业有关的提问，无论文本情感分析、分类、资料截取或任何任务。

（首图来源：shutterstock）