NVIDIA A100登陆AWS，象征加速云计算领域未来十年的开端

当时以CUDA为基础的应用程序主要集中在加速科学模拟，而AI和深度学习的兴起还遥遥无期。此后AWS又陆续加入稳定的云计算GPU执行实例，包括K80 (p2)、K520 (g3)、M60 (g4)、V100 (p3/ p3dn) 和T4 (g4)。随着全新P4d执行实例今日正式上路，AWS将在最新NVIDIA A100 Tensor Core GPU的支持下，为加速运算领域的下一个十年打稳基础。

全新P4d执行实例为机器学习训练与高性能计算应用程序，提供AWS上采用GPU之最高性能、最具成本效益的平台。与默认的FP32精准度相比，使用FP16的执行实例训练机器学习模型的时间缩短了三倍，使用TF32进行训练的时间缩短了六倍。

这些执行实例也提供了极为卓越的推论表现。上个月，NVIDIA A100 GPU于MLPerf Inference基准测试项目中所向披靡，其性能较CPU快上237倍。每个P4d执行实例皆搭载8个NVIDIA A100 GPU，客户可以通过AWS UltraClusters使用AWS Elastic Fabric Adaptor (EFA)，以及提供可扩展高性能存储设备的Amazon FSx，每次依需求调整规模以取得超过4,000个GPU。

P4d提供400Gbps网络，并且使用NVIDIA的NVLink、NVSwitch、NCCL及GPUDirect RDMA等技术，进一步加速处理深度学习训练的作业负载。EFA上的NVIDIA GPUDirect RDMA在服务器之间将资料从GPU传递到GPU，无需通过CPU和系统内存，确保低延迟的网络。

此外，许多AWS服务都支持P4d执行实例，包括Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster及Amazon SageMaker。P4d还能使用NGC所提供的各种经过优化的容器化软件，包括高性能计算应用程序、AI框架、预先训练模型、Helm chart，以及TensorRT和Triton推论服务器等推论软件。

现在可于美国东部和西部地区使用P4d执行实例，很快地将会开放给其它地区使用。用户能够以随需执行实例(On-Demand)、Savings Plans、预留执行实例 (Reserved Instance) 或Spot执行实例等方式来购买。

GPU云计算的第一个十年，已经将超过100 exaflops的AI运算能力带入市场。现在有了NVIDIA A100 GPU支持的Amazon EC2 P4d执行实例，将为GPU云计算领域的下一个十年开创美好的开端。