Azure超级计算机等级的Nvidia A100 GPU云计算服务正式上线

微软周三宣布Azure ND A100 v4 Cloud GPU的云计算服务,正式在Azure公有云平台上线,号称是速度最快的超级计算机。

去年11月以预览版问世的ND A100 v4搭载Nvidia A100 Tensor Core GPU,具备高扩展性提供超级计算机的运算性能,满足高性能计算(HPC)及AI运算等高速需求的任务。A100 GPU性能是前代V100 GPU的1.7到3.2倍,而在加入新架构功能,像是混合精度模式、稀疏性处理(Sparsity)及多执行实例GPU(multi-instance GPU,MIG)后,则可达20倍。

微软指出,在一项HPL(High-Performance Linkpack,HPL)基准测试下,运行于公有云集群上的164个ND A100 v4 VM,其运算速度达16.59 petaflops。若和去年11月公布的全球500大超级计算机来比较,这个HPL基准测试约等同世界第20大,或欧洲第10大的超级计算机。

若以AI和HPC的HPL分项测试项目,这164 VM测试结果为142.8 petaflop,更可跻身已知AI超级计算机的前五大。

ND A100 v4基本服务是1VM 8颗Nvidia Ampere-based A100 Tensor Core GPU起,单一集群甚至可扩展到数千颗GPU,搭载Nvidia HDR 200Gb/s InfiniBand连接,每VM互联带宽可达到1.6T/s。此外,每8GPU的1VM还具备第3代Nvidia NVlink直接互联技术,使VM内的GPU和GPU连接速度,超过每秒600 Gigabytes。

微软强调,ND A100 v4采用产业标准的HPC和AI工具及函数库(Nividia NCCL 2函数库),用户不需具备特别软件或框架,就可使用它的GPU强大运算及互联能力。此外,如果企业在Azure原生部署AI或HPC应用,则Azure Machine Learning服务可提供专为ND A100 v4优化的VM及容器环境,内有范例、Jupyter Notebooks可方便快速使用PyTorch、Tensor等框架,用于训练BERT等模型,和微软内部工程团队使用的是相同的Azure工具。

ND A100 v4今天起在美东、美西、美中南及西欧4个Azure区域上线。