Meta打造全球最快AI超级计算机,预计年中完成

Meta昨(24)日宣布正在打造全球最快AI超级计算机,志在用以训练数万亿参数的大型模型,加速实现元宇宙(metaverse)愿景。

名为AI Research SuperCluster(RSC)的超级计算机预计2022年中打造完成。Meta首席执行官Mark Zuckerberg表示目前RSC是全球运行中最快AI超级计算机之一,但等建造完成时将成为全球最快。

目前Meta研究人员已经用RSC来训练自然语言处理(NLP)及计算机视觉(computer vision)研究使用的大型模型。他们希望RSC未来可以处理数万亿参数的模型。

Meta表示由于有些实验要进行好几个星期,且涉及数千个GPU,因此RSC架构必须极稳定,此外又必须好操作以支持研究人员进行各种AI模型的训练。

RSC由数个运算节点组成,并以高速网络串联而成。Meta表示RSC目前已包含760个Nvidia DGX A100系统节点,总和达6,080颗GPU。和Meta现有训练系统相较,早期基准测试显示RSC的计算机视觉作业运算速度提升20倍,执行Nvidia Collective Communication Library(NCCL)的速度快9倍有余,而训练大型NLP模型的性能则提升3倍。这表示一个拥有数百亿参数的模型训练完成时间,可以从过去的9个星期缩短为3周。

其他规格方面,RSC每座DGX节点通过Nvidia Quantum 1600 Gb/s InfiniBand二层Clos网络架构串联,以减少网络超载(oversubscription)问题。RSC存储系统将采用175 PB的Pure Storage FlashArray、46 PB的Penguin Altus缓存存储及10 PB Pure Storage FlashBlade。

等年中打造完成时,RSC将搭载1.6万颗GPU,而混合精度运算(mixed precision compute)性能达到将近5 Exaflops,使其成为全球最快超级计算机AI。RSC的缓存及存储系统设计,未来计划可提供16TB/s带宽及1 Exabyte存储容量。

目前RSC已经和去年5月美国国家能源研究科学计算中心(National Energy Research Scientific Computing Center,NERSC)揭示的劳伦斯伯克利国家实验室的AI超级计算机Perlmutter相当,后者采用了6,159颗Nvidia A100 GPU。

HPCwire估计,据现行Top500超级计算机排名,Meta RSC第一阶段约为第4名,完成后浮点运算速度约为227 petaflop/s,有望跃居全球第2快。