AMD与HPE联手打造性能达2 exaFLOPS的全球最快超级计算机

AMD与慧与科技(HPE;Hewlett Packard Enterprise)于周三表示将联手打造主要用来测试核子武器的全球最快超级计算机。这台名为“El Capitan”的美国能源部(Department of Energy,DOE)超级计算机将会安装在劳伦斯利佛摩国家实验室(Lawrence Livermore National Laboratory,LLNL),运算速度可达每秒2百万万亿次浮点运算(2 exaFLOPS),比当前性能最强大的超级计算机快了10倍,预计2023年正式上线服役。

早在去年8月,美国能源部和克雷公司(Cray,现属HPE的一部分)就宣布了名为El Capitan的第三台美国百万万亿级(Exascale)超级计算机计划。该系统预定于2023年初安装在LLNL实验室中,主要供美国国家核子安全总局(National Nuclear Security Administration,NNSA)使用,该单位将超级计算机用于核子武器建模。

DOE和HPE周三下午宣布了这台超级计算机的架构细节,表明AMD将同时提供CPU和加速器(GPU),并对这台超级计算机的性能估计进行修正。7个月前,“El Capitan”原本的性能估计为1.5 exaFLOPS,如今因为一些配置变更,DOE预估该系统在完全安装后将能达到2 exaFLOPS,成为美国当前最快的百万万亿级系统。

El Capitan是Frontier的衍生物,但青出于蓝胜于蓝

整体而言,El Capitan是DOE旗下CORAL-2超级计算机计划的第二套系统。与类似的Frontier系统一样,El Capitan价格也高达6亿美元,其目的是为了确保美国在百万万亿级时代之超级计算机的领先地位。LLNL实验室将使用该系统来取代他们目前的IBM Power 9 + NVIDIA Volta超级计算机Sierra。在性能上,El Capitan将比其所取代的系统快16倍。LLNL实验室将它主要用在核子武器建模上(以取代真枪实弹的实际测试),同时也会应用到其他领域研究系统之“再利用”(Secondary Use)上,特别是会应用到机器学习的领域上。

El Capitan是AMD成功拿下第二回百万万亿级超级计算机大单的代表作,该公司还为橡树岭国家实验室(Oak Ridge National Laboratory,ORNL)提供了1.5 exaFLOPS“Frontier”系统的CPU和GPU。实际上,从硬件的角度来看,高水准的El Capitan看起来与Frontier非常相似。Cray是El Capitan和Frontier这两个系统的主要承承包商,两者皆属Cray Shasta系统,采用AMD处理器、Cray机柜和Slingshot互连技术。

在CPU方面,AMD将提供标准版的Zen 4架构Genoa EPYC处理器,由于它是比当前AMD产品还要晚两代的最新处理器,所以目前相关技术细节仍然很少,但可以确定的是,该处理器将支持Infinity Fabric 3次世代内存,并承诺能提供更前瞻的单线程与多线程性能。

在GPU方面,AMD和Cray仍在继续密切合作,虽然确定将支持采用新架构的次世代AMD GPU,但目前仍然没有新GPU名称及其他技术细节的信息。目前可以确定的是,该GPU将支持次世代高带宽内存(High Bandwidth Memory,HBM)技术,并支持混合式精确运算(Mixed Precision Computing),以提高深度学习性能。

支持采用统一内存架构的IF 3.0及Cray Slingshot互连技术

在互连性上,和Frontier一样的,El Capitan将以4:1的配置运行,每颗CPU连接4颗GPU。通过Infinity Fabric 3.0(IF 3.0)的支持,AMD承诺将进一步改善芯片间带宽与延迟。然而,最有趣的声明莫过于IF 3.0设备节点将支持跨CPU与GPU的统一内存架构(Unified Memory),其不仅能促进系统程序设计效益,还能在运行异质工作负载时提升系统性能。

如同前述的,Cray自家的Slingshot互连技术能将节点串联在一起。不仅如此,Slingshot并支持自适性路由、拥塞管理和服务品质(QoS)功能。其互连速度可达每端口200Gb / s的性能表现,通过个别刀锋服务器为刀锋上每颗GPU提供整合的单一连接端口,其他节点便能直接对GPU内存进行数据的读写。此外,在系统布局上,El Capitan预计使用的电力不到40百万瓦(MW),DOE透露届时的实际耗电量将会更低。

整体而言,El Capitan标志着AMD在百万万亿级超级计算机订单争夺战中的第二回重大胜利,AMD去年才刚刚凭借Frontier首次拿下超级计算机大单,而Cray则同时涉足美国3项百万万亿级系统的构建作业。因此,这对两家供应商来说都是展现并宣传自己坚强实力与品牌的巨大胜利。

(首图来源:LLNL实验室)