MLPerf最新测试结果:Google即将推出的TPU v4

ML基准测试组件MLPerf最新训练评比在6月30日出炉。这次MLPerf Training v1.0的测试中,将近四分之三参与评测企业所使用的硬件,都是以Nvidia的AI产品为基础,Nvidia本次也以DGX SuperPOD参加评测,分别在8项AI工作负载测试中,都获得不错的成绩。Google这次则是以近期发布的AI加速芯片TPU v4参加评比,在特定AI模型训练的任务中,性能表现甚至超越了Nvidia产品评测结果,不过TPU v4还在预览阶段,预计今年才会开始提供GCP客户使用。

这次MLPerf Training v1.0测试的AI应用类别有8种,除了过去就有的6种应用类别,分别是用于排名与推荐的DLRM、用于NLP的BERT、可在移动设备上执行的轻量级物体侦测模型SSD、重量级对象侦测模型Mask RNN-T、用于强化学习的MiniGo,以及广泛用于图像分类的ResNet-50 v1.5,今年更添加了用于语音识别的RNN-T与医疗图片分割的UNet-3D,来对各家产品进行性能评比。

今年共有13个组织参与评测,相较于去年来看,今年参与评比的组织更多了。Nvidia资深加速运算产品管理与营销资深经理Paresh Kharya指出,近年来有越来越多用户看重MLPerf评比的结果,比如台积电OPC部门主管就曾表示,MLPerf基准测试,就是影响内部决策的一项重要因素。

这次参与评测的组织中,有将近四分之三的企业提交的AI加速平台,都是以Nvidia产品为基础,显示Nvidia在AI加速领域的领先地位。Nvidia这次也以市售的DGX SuperPOD,参加了全部8项AI项目的测试,且在多个项目中获得最佳成绩。不过,Google这次提交的TPU v4,虽然还是预览版本,但在特定领域的性能表现更优于Nvidia,显示他们未来将用于GCP的AI加速芯片,对于特定类型的AI应用有其优势所在。

大多企业提交了已经商用的产品(Available),部分企业提交的是预览类(preview)产品,如Google使用的TPU v4,可能几个月后才会上市,也有组织使用可能长久都不会上市的研究类产品来评测,如中国鹏城实验室。

Nvidia也提供了更多数据,来说明这次评测的结果。

Nvidia图表披露了两个总评比的指标,分别是模型训练速度与单一芯片的性能比较。在训练速度的评比上,训练时间越短,代表该硬件拥有更好的表现,由此来看,Nvidia DGX SuperPOD在半数的AI应用类别中拔得头筹,比如花费最久训练时间的MiniGo类别,Nvidia也只花了16分钟就完成训练。但在SSD、ResNet-50 v1.5、BERT与DLRM的训练速度评比上,Google TPU v4取得了更好的成绩,换句话说,TPU v4参与的6个AI应用类别的评比中,就有4种类别的表现优于DGX SuperPOD。

不过,由于各家企业的产品配置不同,使用核心处理器的数量也不同,因此在性能评比上,单一芯片的性能也是一大评比指标。Nvidia DGX SuperPOD是以A100组合而成,若以A100为基准来比较其他AI芯片性能,可以发现A100在大多AI应用中,都具有稳定的高性能表现,单一芯片性能更是Graphcore或Habana的2~7倍以上。而Google尚未上市的TPU v4,则在其中3项应用中取得更好的表现,分别是SSD、ResNet-50 v1.5、DLRM。

Google的TPU v4也非第一次参加评比。去年Google就曾经以TPU v3与v4提交MLPerf测试。当时的评测结果,TPU v4平均性能比TPU v3提升2.7倍,最大的性能差异是用于训练Mask R-CNN,TPU v4的性能是TPU v3的3.7倍。

去年,Nvidia同样以DGX SuperPOD参与评测。若以Nvidia去年6种AI应用评测的成绩,来比较两年来产品性能的差异,可以发现无论是DGX SuperPOD或是单一芯片A100的性能表现,几乎在每个AI应用上都有显著增长。比如DGX SuperPOD今年用于训练DLRM的性能,就达到去年的3.5倍之多,A100用于Bert训练的单一芯片性能,也达到去年的2倍以上,显示Nvidia的同一种产品,也随着时间不断进步、优化。

Paresh Kharya指出,性能提升的原因,包括Nvidia通过软件套装CUDA Graphs,消除过去GPU与CPU沟通遇到的性能瓶颈,以及在大规模测试时使用Nvidia SHARP,来集成网络交换机中的多项资料传输作业、减少网络流量与等待CPU处理时间,其他还有增加内存带宽等做法。

Paresh Kharya也根据Nvidia历年评测结果提出一项数据,指出从MLPerf训练评比推出至今不过2.5年,Nvidia GPU的性能已经是当时的6.5倍,且在每一种AI应用的性能表现都有长足进步,几乎以摩尔定律的两倍速度在增长。他也强调,带动性能快速增长的原因,除了依赖硬件技术的进步,“Nvidia拥有完整的软件堆栈来加速模型运算,也是一大关键。”

至于许多用户都会关心的产品价格,为何没有在MLPerf中进行性价比的评比?Paresh Kharya指出,MLPerf评测的目的,是为了展示了各种AI平台和许多创新AI系统的性能,并非价格的比较。而且,参与MLPerf评比的产品从入门级到超级计算机皆有,产品价格变化大,加上各家企业会搭配软硬件推出不同的解决方案,产品金额并非MLPerf评测的焦点。