NVIDIA A100登陆AWS,象征加速云计算领域未来十年的开端

当时以CUDA为基础的应用程序主要集中在加速科学模拟,而AI和深度学习的兴起还遥遥无期。此后AWS又陆续加入稳定的云计算GPU执行实例,包括K80 (p2)、K520 (g3)、M60 (g4)、V100 (p3/ p3dn) 和T4 (g4)。随着全新P4d执行实例今日正式上路,AWS将在最新NVIDIA A100 Tensor Core GPU的支持下,为加速运算领域的下一个十年打稳基础。

全新P4d执行实例为机器学习训练与高性能计算应用程序,提供AWS上采用GPU之最高性能、最具成本效益的平台。与默认的FP32精准度相比,使用FP16的执行实例训练机器学习模型的时间缩短了三倍,使用TF32进行训练的时间缩短了六倍。

这些执行实例也提供了极为卓越的推论表现。上个月,NVIDIA A100 GPU于MLPerf Inference基准测试项目中所向披靡,其性能较CPU快上237倍。每个P4d执行实例皆搭载8个NVIDIA A100 GPU,客户可以通过AWS UltraClusters使用AWS Elastic Fabric Adaptor (EFA),以及提供可扩展高性能存储设备的Amazon FSx,每次依需求调整规模以取得超过4,000个GPU。

P4d提供400Gbps网络,并且使用NVIDIA的NVLink、NVSwitch、NCCL及GPUDirect RDMA等技术,进一步加速处理深度学习训练的作业负载。EFA上的NVIDIA GPUDirect RDMA在服务器之间将资料从GPU传递到GPU,无需通过CPU和系统内存,确保低延迟的网络。

此外,许多AWS服务都支持P4d执行实例,包括Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster及Amazon SageMaker。P4d还能使用NGC所提供的各种经过优化的容器化软件,包括高性能计算应用程序、AI框架、预先训练模型、Helm chart,以及TensorRT和Triton推论服务器等推论软件。

现在可于美国东部和西部地区使用P4d执行实例,很快地将会开放给其它地区使用。用户能够以随需执行实例(On-Demand)、Savings Plans、预留执行实例 (Reserved Instance) 或Spot执行实例等方式来购买。

GPU云计算的第一个十年,已经将超过100 exaflops的AI运算能力带入市场。现在有了NVIDIA A100 GPU支持的Amazon EC2 P4d执行实例,将为GPU云计算领域的下一个十年开创美好的开端。

发表评论