Cerebras Systems发布具有1,350万核心的AI超级计算机Andromeda

人工智能芯片创业公司Cerebras Systems,开发拥有1,350万核心的人工智能超级计算机Andromeda,Andromeda针对大型语言模型优化,能拥有接近完美的线性缩放性能,提供超过1 Exaflop的人工智能运算和120 Petaflops的密集运算,是目前最大的人工智能超级计算机。

Andromeda由16个Cerebras CS-2系统集群构成,并且使用了Cerebras MemoryX和SwarmX技术,是唯一一台只依赖简单的资料平行化,就达到几乎完美线性扩展的人工智能超级计算机,拥有1,350万经人工智能优化的计算核心,使用18,176第三代AMD EPYC处理器,其核心数是目前最大超级计算机Frontier 870万核心的1.6倍。

Andromeda与GPU集群不同,Andromeda只靠简单的资料平行性,就可跨GPT大型语言模型,包括GPT-3、GPT-J和GPT-NeoX达到接近完美的线性扩展。官方解释,接近完美的线性缩放意味只要使用额外的CS-2,训练时间就会以接近完美的比例减少,而这是目前GPU系统的弱点,因为GPU内存和内存带宽的限制,使得GPU目前无法达到相同的成果。

Cerebras Wafer Scale Engine(WSE-2)处理器是CS-2的核心,其内存带宽是GPU的1,000倍,同时也是目前最大的处理器(下图),每个WSE-2芯片拥有2.6亿个晶体管。而Cerebras的MemoryX技术,让单个CS-2可支持数兆参数模型,而SwarmX技术则可以将MemoryX连接到CS-2集群,使Cerebras的大型集群可避免平行化程序开发的复杂性,以及分布式运算性能下降这两个人工智能传统集群会遭遇的问题。

官方提到,Andromeda能够同时获得结构化和非结构化稀疏性,还有静态和动态稀疏性,这是其他硬件加速器无法做到的,因此Andromeda可以训练超过90%稀疏性的模型,达到目前最先进的准确度。

用户可以使用Jupyter Notebook简单地向Andromeda交付人工智能工作,只需要简单操作就可切换模型,并且自由选择要使用的CS-2数量。Andromeda能同时服务多个用户,也就是说,Andromeda中的16个CS-2超级计算机集群,可以共同被用以执行单一工作,或是被分为16个单独的CS-2系统,服务16个不同的用户执行16种不同的工作。