IBM在自家云上打造相当全球第15快的AI超级计算机

IBM已经有2座全球前10大的超级计算机系统，如Summit和Sierra，但随着企业转向以云计算为主的IT基础架构，蓝色巨人也亟欲展示其云计算服务的能力。IBM研究院本周公布去年在自家IBM Cloud上创建专为执行人工智能（AI）应用的云计算超级计算机Vela，其速度相当于全球第15大的超级计算机。

IBM指出，超级计算机和AI本来属于两种不同领域；超级计算机多半是创建在裸机节点、高性能网络硬件（如InfiniBand、Omnipath和Slingshot）、平行文件系统及其他高性能计算（HPC）组件。但超级计算机并非为AI设计，而是为了建模或模拟任务，如执行大气变化模拟、材料开发或蛋白质折叠等医疗研究。如果要用于执行AI模型创建，传统设计会使这类“AI超级计算机”的建造成本大为增加，且限制部署弹性。IBM研究院去年就在IBM Cloud上打造了第一台云计算原生、为AI优化的“AI超级计算机”Vela，专门用于大量部署AI应用任务，而且已在2022年5月上线运行。

图片来源／IBM

IBM说明，Vela解决了性能及部署弹性的两难。在选择AI超级计算机基础架构上，IBM选择将节点配置为VM（virtual machine），而非配置为裸机，理由是前者更有弹性，可利用OpenShift在几分钟内动态扩大或缩减AI集群或将计算资源在不同工作负载之间转移。但团队面临的挑战是在VM环境下配置出裸机般的性能。

Vela每个节点具备80GB A100 GPU，2颗第2代Intel Xeon Scalable处理器（Cascade Lake）、1.5TB DRAM及4个3.2 TB NVMe磁盘，IBM表示，超大内存及存储空间是为了能训练大型模型。为支持分布式训练，运算节点之间以多道100G网络适配器相连，且使用IBM Cloud的VPN网络功能，确保连接安全性。

IBM表示，在IBM研究院和PyTorch的合作项目中，使用80GB内存使团队得以使用更大批次资料，以及Meta的FSDP（Fully Shared Date Parallel）训练策略，进行分布式训练任务，效率提升到高达90%以上，总参数超过100亿个。

此外，由于支持VM扩展（Virtual Machine Extensions，VMX）、Single-root IO virtualization（SR-IOV）及大量页面的裸机配置，使Vela的VM整体性能耗损减到低于5%。IBM说这是他们已知最低的耗损率，也让其AI超级计算机性能逼近裸机。IBM研究院希望展现，在标准的以太网络云计算基础架构上，也能轻易执行数十亿参数的AI模型。

The Next Platform估计，以Vela现有规格，其基准测试的性能可达每秒27.9 petaflops，若按2022年11月最新的全球五百大计算机排行，约等同于全球第15大。