IBM在自家云上打造相当全球第15快的AI超级计算机

IBM已经有2座全球前10大的超级计算机系统,如Summit和Sierra,但随着企业转向以云计算为主的IT基础架构,蓝色巨人也亟欲展示其云计算服务的能力。IBM研究院本周公布去年在自家IBM Cloud上创建专为执行人工智能(AI)应用的云计算超级计算机Vela,其速度相当于全球第15大的超级计算机。

IBM指出,超级计算机和AI本来属于两种不同领域;超级计算机多半是创建在裸机节点、高性能网络硬件(如InfiniBand、Omnipath和Slingshot)、平行文件系统及其他高性能计算(HPC)组件。但超级计算机并非为AI设计,而是为了建模或模拟任务,如执行大气变化模拟、材料开发或蛋白质折叠等医疗研究。如果要用于执行AI模型创建,传统设计会使这类“AI超级计算机”的建造成本大为增加,且限制部署弹性。IBM研究院去年就在IBM Cloud上打造了第一台云计算原生、为AI优化的“AI超级计算机”Vela,专门用于大量部署AI应用任务,而且已在2022年5月上线运行。

图片来源/IBM

IBM说明,Vela解决了性能及部署弹性的两难。在选择AI超级计算机基础架构上,IBM选择将节点配置为VM(virtual machine),而非配置为裸机,理由是前者更有弹性,可利用OpenShift在几分钟内动态扩大或缩减AI集群或将计算资源在不同工作负载之间转移。但团队面临的挑战是在VM环境下配置出裸机般的性能。

Vela每个节点具备80GB A100 GPU,2颗第2代Intel Xeon Scalable处理器(Cascade Lake)、1.5TB DRAM及4个3.2 TB NVMe磁盘,IBM表示,超大内存及存储空间是为了能训练大型模型。为支持分布式训练,运算节点之间以多道100G网络适配器相连,且使用IBM Cloud的VPN网络功能,确保连接安全性。

IBM表示,在IBM研究院和PyTorch的合作项目中,使用80GB内存使团队得以使用更大批次资料,以及Meta的FSDP(Fully Shared Date Parallel)训练策略,进行分布式训练任务,效率提升到高达90%以上,总参数超过100亿个。

此外,由于支持VM扩展(Virtual Machine Extensions,VMX)、Single-root IO virtualization(SR-IOV)及大量页面的裸机配置,使Vela的VM整体性能耗损减到低于5%。IBM说这是他们已知最低的耗损率,也让其AI超级计算机性能逼近裸机。IBM研究院希望展现,在标准的以太网络云计算基础架构上,也能轻易执行数十亿参数的AI模型。

The Next Platform估计,以Vela现有规格,其基准测试的性能可达每秒27.9 petaflops,若按2022年11月最新的全球五百大计算机排行,约等同于全球第15大。