Google刷新MLPerf基准测试训练速度记录

Google发布了自主机器学习加速器TPU的新消息，新一代TPU v4的性能将是前一代TPU v3的2倍以上，同时Google也发布了在机器学习的最新进展，于MLPerf基准测试6个模型打破了目前的训练速度记录，在DLRM模型训练上，速度甚至是之前记录维持者的2.8倍。

Google表示，他们打造了目前世界最快的机器学习训练超级计算机，使用专为人工智能设计的张量处理单元（TPU），在6项MLPerf基准测试中，与其他非Google最快的记录相比，Google刷新了性能记录。

这6个模型分别是用于排名与推荐的DLRM模型；常用于自然语言处理的Transformer；还有Google搜索所使用的BERT模型；广泛用于图像分类的ResNet-50模型；可在移动设备上执行的轻量级物体侦测模型SSD；以及图像分割模型Mask R-CNN。

这次Google所使用的超级计算机，规格是Cloud TPU v3 Pod的4倍，具有4,096个TPU v3芯片，与搭载数百颗CPU的主机，这些计算资源以超高速大规模的专用网络相连，最高可以输出430 PFLOPs高峰性能。

Google使用TensorFlow、JAX和Lingvo中的机器学习模型实例，从零开始训练Transformer、SSD、BERT以及ResNet-50模型，训练时间皆在30秒之内，之所以这件事值得一提，Google表示，在2015年时，即便用最快的硬件加速器，训练其中一种模型，都需要花费3个多星期，而Google所使用的超级计算机，相当于把相同模型的训练速度提升5个数量级。

而Google最新的第4代TPU，较前一代TPU v3，拥有两倍的矩阵乘法性能，而且内存带宽大幅增加，内部相连技术也获得改善，利用MLPerf基准测试比较TPU v4和TPU v3，TPU v4平均性能提升2.7倍，最大的性能差异是用于训练Mask R-CNN，TPU v4的性能是TPU v3的3.7倍。