Google研发第四代运算加速器，强化Google各项服务性能

在19日凌晨举办的Google I / O 2021上，Google正式宣布了其第四代运算加速器（TPU）的计划。Google表示，第四代运算加速器可以在接近记录的时间内完成AI和机器学习训练的工作量。另外，在针对对象检测、图像分类、自然语言处理、机器翻译等工作负载方面，第四代运算加速器集群运算都可以超越上一代的产品。

Google表示，第四代运算加速器提供的矩阵算法TFLOP是第三代运算加速器的两倍以上，而一个TFLOP相当于每秒1万亿个浮点运算。至于，矩阵算法通常用于AI模型的资料运算上。另外，受益于互联技术进步，第四代运算加速器还提供了明显的内存带宽提升。Google表示，总体而言，在相同的64位元芯片基础下，不考虑软件带来的改善，第四代运算加速器的性能平均要比第三代运算加速器提升2.7倍。

而Google的运算加速器是专用于加速AI运算的专用ASIC定制化芯片，并且采用水冷机制，主要用于机架式的服务器其中，可提供多达100 petaflops的计算能力，并进一步能强化Google产品的功能，包括Google搜索，Google相册，Google翻译，Google语音助理，Gmail和Google Cloud AI API等。只是，目前的第四代运算加速器现阶段处于最后的研究阶段。

至于，针对Google第四代运算加速器的集群运算架构，Google指出其中将会有4,096个芯片，相互联接的带宽是大多数其他网络技术的10倍规模，这使得Google第四代运算加速器的集群运算架构可以提供超过exaflop的计算能力，这相当于大约1,000万台平均运算时慢达到最高性能的笔记本处理器运算能力。

Google首席执行官Sundar Pichai在大会的主题演讲中表示，第四代运算加速器计划这对Google来说是一个历史性的里程碑。这是因为以前要获得exaflop的功能，需要定制化的超级计算机。但是，如今在Google的数据中心中安装4个第四代运算加速器的集群之后，其中许多将以90%，或接近90%的无碳排放方式运行，并且提供强大的运算能力。

Google也提出实际运用案例表示，例如在采用ImageNet资料算法（ResNet-50 v1.5）进行至少75.9%的准确度的训练图像分类任务中，Google全新运算加速在1.82分钟内完成了256个。这几乎与768个Nvidia A100显卡，192个AMD Epyc 7742 CPU，以及512个AI优化的Ascend910芯片，加上128个英特尔Xeon Platinum 8168处理器组合在一起的速度一样快。

另外，在进行大型维基百科数据库的训练模型时，第四代运算加速器的得分也很高。也就是使用256个第四代运算加速器进行培训只需要1.82分钟，仅比使用4,096个第三代运算加速进行培训所需的0.39分钟稍长。同时，使用Nvidia硬件要达到0.81分钟的培训时间，则需要2,048个A100显卡和512个AMD Epyc 7742 CPU来完成，如此可以看出Google第四代运算加速器的优异性。而根据Google的说法，预计在2021年之内就可以使用到第四代运算加速器提供的服务。

（首图来源：科技新报摄）