创业公司独角兽Cerebras推出AI单芯片超级计算机，大型AI学习训练可从数月降至数分钟

位于加州的创业公司独角兽公司Cerebras于19日公布据称是世界最大的计算机芯片──芯片级引擎（Wafer-Scale Engine，WSE），以及有关这片保密约3年之久的芯片级AI芯片细节。尽管仍有许多悬而未决的问题，但这种新方法可能标志半导体产业的重要里程碑，毕竟在这个产业，历来就受单一芯片遮罩尺寸的限制。

由Cerebras设计的WSE芯片外观尺寸比标准iPad稍大。Cerebras表示，从自动驾驶汽车到监控软件，单一芯片就能驱动复杂的AI系统。然而某专家却表示，在许多数据中心里，安装这种创新证实是不切实际。

Cerebras设计了一个由84颗互连芯片组成的芯片，以当作用于计算与内存存储的设备，并由超高速晶粒结构（ON-die Fabric）互连。虽然在芯片上打造一个超级计算机听起来是个极棒的主意，但制造芯片级的芯片数组并不适合胆小或才智一般的人。

此外，如果Cerebras的方向及做法是对的，那么AI可能只是芯片级集成的开始；因为目前应用程序对性能的要求越来越高，并超过CPU能提供的性能。如果Cerebras完成第一个AI导向实例后，能将注意力转向浮点运算核心，那么芯片级方法就可能彻底改造当前的高性能计算。

Cerebras内置400,000颗核心，以台积电娴熟16纳米制程为后盾

Cerebras是由现任硬件架构师的Sean Lie和曾经担任微服务器创业公司Sea Micro（2011年被AMD购并）创办人兼首席执行官与现任首席执行官的Andrew Feldman共同创办。Feldman的新公司现在雇用近200名工程师，其中许多人都是Sea Micro的旧员工。Cerebras已募集超过1.2亿美元资金，最近的市场估值达8.6亿美元。当大多数AI半导体创业公司专注于构建适用执行深度神经网络所需矩阵和矢量处理的更高效运算核心数组和芯片内内存（On-chip Memory）时，Cerebras决定直接跳过数学优化，反而全心全意努力实现极端的可扩展性。

如同百度资深研究人员Greg Daimos所言，在超大数据集训练大型模型将花费数月或数年的关键路径（Critical Path）运算时间，这使这类训练对现有系统的任何真实世界问题都不切实际。但Cerebras宣称，其WSE芯片能将复杂数据的处理时间，从几个月降低到几分钟。

目前最强的桌面计算机使用CPU约有30颗运算核心，至于功能最强大的GPU有多达5,000颗核心。Cerebras推出的新芯片内置400,000颗核心，所有核心皆通过高带宽连接相互链结。Cerebras表示，这使它在处理复杂的机器学习挑战方面更具优势，与其他方案选项的组合相比，延迟更小、功耗更低。

Feldman表示，Cerebras已“克服了几十年来一直让芯片尺寸受到限制的技术挑战”，他更进一步指出，训练学习时间的减少，更将整个产业进展的一大瓶颈彻底消除。目前Cerebras已开始供货给少数客户，但尚未透露芯片的价格。

Cerebras在本周于斯坦福大学举行的年度Hot Chip大会，分享了一些设计细节。芯片是由台积电采用成熟16纳米制程打造的300mm芯片切割而成。

（首图来源：Cerebras）