NASA联手IBM打造大型AI基础模型,推进地球科学研究

NASA和IBM合作,要使用未标记的资料集训练人工智能基础模型,并将基础模型用于各种地球科学任务中,NASA表示,这项项目的合作目标,是要提供研究人员更简单的方法,从学术论文或是NASA资料集中,分析并了解地球气候奥秘。

地球气候变迁对人类和生态系带来许多影响,像是因为近年许多地区更热更干,因而助长了野火,科学家想知道,野火产生的烟雾会对空气品质产生什么样的影响?而干热的天气又会不会影响玉米和小麦的产量。过去要研究这些问题,科学家除了需要阅读大量的论文,还需要来回查看大量的卫星图像来寻求解答。

而NASA和IBM的合作,便是要创建人工智能基础模型,借由分析PB级文本和遥测资料,研究各式的地球科学议题。基础模型将消化大量原始资料,在没有明确指示下,找到这些资料的底层架构。IBM研究人员提到,虽然预训练基础模型可以使用人工标记的范例,教导模型一项特定任务,但是要将机器学习应用在遥测资料上,最主要的瓶颈就是缺乏训练范例,因为要产生训练范例,人类专家需要花费大量的时间标记卫星图像中的树木或农作物,以便让模型知道应该关注哪些特征。

而这项障碍在Transformer模型或许可以获得解决,使得遥测资料分析更为可行。NASA拥有70 PB的地球科学资料,而且这些资料还会随着NASA科学计划的发展越来越多,所以通过基础模型,将有望使这些NASA资料集发挥更大的作用。

NASA和IBM预计创建两个基础模型,第一个模型接受大量地球科学期刊训练,使这些文献能够按照主题组织,让科学家更容易搜索和探索。第二个模型会以HLS资料集训练,该资料集是由地球轨道卫星所捕捉的土地利用变化,能够被用于侦测自然灾害、植被关注,以及野生动物栖息地变化等自然资源管理。

IBM已经创建了地球科学期刊基础模型,包含来自各个科学组织出版近30万篇期刊文章,目前正在微调中,待训练完成后,该模型将会集成至IBM开源多语言问答系统PrimeQA,届时该系统将能够回答特定科学问题,并且提供引用论文的连接和相关脉络资料。

IBM提到,基础模型已经在自然语言处理上成功,而现在他们正着手将其扩展至其他领域上,分析地理空间、事件串行、时间串行和其他非语言因素,解决目前最急迫的气候问题。NASA和IBM在基础模型上的合作,也包括之后使用大气观测资料集MERRA-2,构建气候预测基础模型。