NASA联手IBM打造大型AI基础模型，推进地球科学研究

NASA和IBM合作，要使用未标记的资料集训练人工智能基础模型，并将基础模型用于各种地球科学任务中，NASA表示，这项项目的合作目标，是要提供研究人员更简单的方法，从学术论文或是NASA资料集中，分析并了解地球气候奥秘。

地球气候变迁对人类和生态系带来许多影响，像是因为近年许多地区更热更干，因而助长了野火，科学家想知道，野火产生的烟雾会对空气品质产生什么样的影响？而干热的天气又会不会影响玉米和小麦的产量。过去要研究这些问题，科学家除了需要阅读大量的论文，还需要来回查看大量的卫星图像来寻求解答。

而NASA和IBM的合作，便是要创建人工智能基础模型，借由分析PB级文本和遥测资料，研究各式的地球科学议题。基础模型将消化大量原始资料，在没有明确指示下，找到这些资料的底层架构。IBM研究人员提到，虽然预训练基础模型可以使用人工标记的范例，教导模型一项特定任务，但是要将机器学习应用在遥测资料上，最主要的瓶颈就是缺乏训练范例，因为要产生训练范例，人类专家需要花费大量的时间标记卫星图像中的树木或农作物，以便让模型知道应该关注哪些特征。

而这项障碍在Transformer模型或许可以获得解决，使得遥测资料分析更为可行。NASA拥有70 PB的地球科学资料，而且这些资料还会随着NASA科学计划的发展越来越多，所以通过基础模型，将有望使这些NASA资料集发挥更大的作用。

NASA和IBM预计创建两个基础模型，第一个模型接受大量地球科学期刊训练，使这些文献能够按照主题组织，让科学家更容易搜索和探索。第二个模型会以HLS资料集训练，该资料集是由地球轨道卫星所捕捉的土地利用变化，能够被用于侦测自然灾害、植被关注，以及野生动物栖息地变化等自然资源管理。

IBM已经创建了地球科学期刊基础模型，包含来自各个科学组织出版近30万篇期刊文章，目前正在微调中，待训练完成后，该模型将会集成至IBM开源多语言问答系统PrimeQA，届时该系统将能够回答特定科学问题，并且提供引用论文的连接和相关脉络资料。

IBM提到，基础模型已经在自然语言处理上成功，而现在他们正着手将其扩展至其他领域上，分析地理空间、事件串行、时间串行和其他非语言因素，解决目前最急迫的气候问题。NASA和IBM在基础模型上的合作，也包括之后使用大气观测资料集MERRA-2，构建气候预测基础模型。