AWS发布搭载Nvidia A100 GPU的P4执行实例

AWS发布了最新配备Nvidia A100 Tensor Core GPU的P4执行实例，P4搭载英特尔Cascade Lake处理器，并且拥有8个A100 GPU，每个GPU以NVLink相连，并且支持可提升GPU加载大型资料集速度的GPUDirect存储技术。

P4执行实例因为拥有高达2.5 PetaFLOPS的浮点运算性能，以及320 GB的高带宽GPU内存，因此能够获得的深度学习性能，是P3执行实例的2.5倍，还能降低60%的训练成本。而且P4执行实例有1.1 TB的系统内存，和8 TB支持NVMe技术的SSD存储，每秒可提供16 GB的资料吞吐量，在网络方面，P4执行实例可以连接4个100 Gbps网络线路，AWS提到，这些网络线路专为P4设计，是PB等级无阻塞网络结构，可以支持19 Gbps EBS带宽，最高支持可达80K IOPS。

综合A100 GPU、GPUDirect的支持、400 Gbps网络、PB级网络架构，还有AWS ParallelCluster和S3等AWS服务的支持，用户可以创建具有4,000个，甚至更多GPU的EC2超级集群（UltraClusters），执行大规模地震分析、天气预报和财务建模等工作负载。

P4执行实例只有一个规格p4d.24xlarge，现在已经可以在美东北维吉尼亚和美西俄勒冈使用，在今年稍晚，AWS还会推出使用P4执行实例运行的AWS服务，诸如Amazon SageMaker和AEK等。