Google研发第四代运算加速器,强化Google各项服务性能

在19日凌晨举办的Google I / O 2021上,Google正式宣布了其第四代运算加速器(TPU)的计划。Google表示,第四代运算加速器可以在接近记录的时间内完成AI和机器学习训练的工作量。另外,在针对对象检测、图像分类、自然语言处理、机器翻译等工作负载方面,第四代运算加速器集群运算都可以超越上一代的产品。

Google表示,第四代运算加速器提供的矩阵算法TFLOP是第三代运算加速器的两倍以上,而一个TFLOP相当于每秒1万亿个浮点运算。至于,矩阵算法通常用于AI模型的资料运算上。另外,受益于互联技术进步,第四代运算加速器还提供了明显的内存带宽提升。Google表示,总体而言,在相同的64位元芯片基础下,不考虑软件带来的改善,第四代运算加速器的性能平均要比第三代运算加速器提升2.7倍。

而Google的运算加速器是专用于加速AI运算的专用ASIC定制化芯片,并且采用水冷机制,主要用于机架式的服务器其中,可提供多达100 petaflops的计算能力,并进一步能强化Google产品的功能,包括Google搜索,Google相册,Google翻译,Google语音助理,Gmail和Google Cloud AI API等。只是,目前的第四代运算加速器现阶段处于最后的研究阶段。

至于,针对Google第四代运算加速器的集群运算架构,Google指出其中将会有4,096个芯片,相互联接的带宽是大多数其他网络技术的10倍规模,这使得Google第四代运算加速器的集群运算架构可以提供超过exaflop的计算能力,这相当于大约1,000万台平均运算时慢达到最高性能的笔记本处理器运算能力。

Google首席执行官Sundar Pichai在大会的主题演讲中表示,第四代运算加速器计划这对Google来说是一个历史性的里程碑。这是因为以前要获得exaflop的功能,需要定制化的超级计算机。但是,如今在Google的数据中心中安装4个第四代运算加速器的集群之后,其中许多将以90%,或接近90%的无碳排放方式运行,并且提供强大的运算能力。

Google也提出实际运用案例表示,例如在采用ImageNet资料算法(ResNet-50 v1.5)进行至少75.9%的准确度的训练图像分类任务中,Google全新运算加速在1.82分钟内完成了256个。这几乎与768个Nvidia A100显卡,192个AMD Epyc 7742 CPU,以及512个AI优化的Ascend910芯片,加上128个英特尔Xeon Platinum 8168处理器组合在一起的速度一样快。

另外,在进行大型维基百科数据库的训练模型时,第四代运算加速器的得分也很高。也就是使用256个第四代运算加速器进行培训只需要1.82分钟,仅比使用4,096个第三代运算加速进行培训所需的0.39分钟稍长。同时,使用Nvidia硬件要达到0.81分钟的培训时间,则需要2,048个A100显卡和512个AMD Epyc 7742 CPU来完成,如此可以看出Google第四代运算加速器的优异性。而根据Google的说法,预计在2021年之内就可以使用到第四代运算加速器提供的服务。

(首图来源:科技新报摄)