Azure超级计算机等级的Nvidia A100 GPU云计算服务正式上线

微软周三宣布Azure ND A100 v4 Cloud GPU的云计算服务，正式在Azure公有云平台上线，号称是速度最快的超级计算机。

去年11月以预览版问世的ND A100 v4搭载Nvidia A100 Tensor Core GPU，具备高扩展性提供超级计算机的运算性能，满足高性能计算（HPC）及AI运算等高速需求的任务。A100 GPU性能是前代V100 GPU的1.7到3.2倍，而在加入新架构功能，像是混合精度模式、稀疏性处理（Sparsity）及多执行实例GPU（multi-instance GPU，MIG）后，则可达20倍。

微软指出，在一项HPL（High-Performance Linkpack，HPL）基准测试下，运行于公有云集群上的164个ND A100 v4 VM，其运算速度达16.59 petaflops。若和去年11月公布的全球500大超级计算机来比较，这个HPL基准测试约等同世界第20大，或欧洲第10大的超级计算机。

若以AI和HPC的HPL分项测试项目，这164 VM测试结果为142.8 petaflop，更可跻身已知AI超级计算机的前五大。

ND A100 v4基本服务是1VM 8颗Nvidia Ampere-based A100 Tensor Core GPU起，单一集群甚至可扩展到数千颗GPU，搭载Nvidia HDR 200Gb/s InfiniBand连接，每VM互联带宽可达到1.6T/s。此外，每8GPU的1VM还具备第3代Nvidia NVlink直接互联技术，使VM内的GPU和GPU连接速度，超过每秒600 Gigabytes。

微软强调，ND A100 v4采用产业标准的HPC和AI工具及函数库（Nividia NCCL 2函数库），用户不需具备特别软件或框架，就可使用它的GPU强大运算及互联能力。此外，如果企业在Azure原生部署AI或HPC应用，则Azure Machine Learning服务可提供专为ND A100 v4优化的VM及容器环境，内有范例、Jupyter Notebooks可方便快速使用PyTorch、Tensor等框架，用于训练BERT等模型，和微软内部工程团队使用的是相同的Azure工具。

ND A100 v4今天起在美东、美西、美中南及西欧4个Azure区域上线。