Google刷新MLPerf基准测试训练速度记录

Google发布了自主机器学习加速器TPU的新消息,新一代TPU v4的性能将是前一代TPU v3的2倍以上,同时Google也发布了在机器学习的最新进展,于MLPerf基准测试6个模型打破了目前的训练速度记录,在DLRM模型训练上,速度甚至是之前记录维持者的2.8倍。

Google表示,他们打造了目前世界最快的机器学习训练超级计算机,使用专为人工智能设计的张量处理单元(TPU),在6项MLPerf基准测试中,与其他非Google最快的记录相比,Google刷新了性能记录。

这6个模型分别是用于排名与推荐的DLRM模型;常用于自然语言处理的Transformer;还有Google搜索所使用的BERT模型;广泛用于图像分类的ResNet-50模型;可在移动设备上执行的轻量级物体侦测模型SSD;以及图像分割模型Mask R-CNN。

这次Google所使用的超级计算机,规格是Cloud TPU v3 Pod的4倍,具有4,096个TPU v3芯片,与搭载数百颗CPU的主机,这些计算资源以超高速大规模的专用网络相连,最高可以输出430 PFLOPs高峰性能。

Google使用TensorFlow、JAX和Lingvo中的机器学习模型实例,从零开始训练Transformer、SSD、BERT以及ResNet-50模型,训练时间皆在30秒之内,之所以这件事值得一提,Google表示,在2015年时,即便用最快的硬件加速器,训练其中一种模型,都需要花费3个多星期,而Google所使用的超级计算机,相当于把相同模型的训练速度提升5个数量级。

而Google最新的第4代TPU,较前一代TPU v3,拥有两倍的矩阵乘法性能,而且内存带宽大幅增加,内部相连技术也获得改善,利用MLPerf基准测试比较TPU v4和TPU v3,TPU v4平均性能提升2.7倍,最大的性能差异是用于训练Mask R-CNN,TPU v4的性能是TPU v3的3.7倍。