Nvidia推出破百Peta级DGX SuperPOD超级计算机集群云计算订阅服务

在今年Computex期间,Nvidia正式推出了订阅制的DGX SuperPOD超级计算机集群云计算新服务,让企业用户不用购买整套超级计算机集群,就能使用其提供的破百Peta级的运算能力,来训练庞大的AI应用模型,该服务预计今夏稍晚推出上线,但仅开放北美用户先采用。另外该公司也宣布将扩大Nvidia Certified认证适用范围,不只是内置GPU的AI服务器,还包括了内置DPU的设备,明年更要扩大提供基于Arm架构的设备认证。

DGX SuperPOD是Nvidia去年所推出最新的AI超级计算机集群系统,在单一模块集成了至少20台DGX A100创建高性能计算集群,其AI运算性能可达100 petaFLOPS,甚至最高可扩展至700 petaFLOPS运算性能。但其价格也相当昂贵,一套系统至少数百万美元起,门槛与进入成本很高,因此,迄今只有少数大型企业才能够采用。

新推出订阅制的DGX SuperPOD云计算服务,则是对于有超大型AI模型训练需求的AI创业公司或中小型企业,带来了一些新的机会,现在也能用它提供的高性能计算,加快完成如大型自然语言AI模型的训练与应用开发,加速将服务推向市场。

至于订阅收费机制,Nvidia表示,未来将采用按月计费方式,每月收费90,000美元起,相当于台币约240万元,大约是单机DGX A100的一半价格,但是具备更高算力及扩展能力,甚至不仅能整套租,企业用户一次也可以DGX SuperPOD里一部分运算集群做租用,而不用租整套集群,在节省成本的同时,也有助于降低进入门槛。

另外,所有硬件设备皆托管于Equinix云计算数据中心,该集群运算服务也使用了存储厂商NetApp提供的全快闪存储设备,作为大量资料存储和管理之用。DGX SuperPOD集群云计算服务,预计今年夏季稍晚推出上线。目前已开放早期测试,但仅在北美提供。

为方便管理DGX SuperPOD运算集群,Nvidia还推出了一个Base Command软件管理新接口,不仅提供多租户、多团队AI应用开发的支持,企业用户在使用与调度DGX SuperPOD资源用于AI开发也更容易,同时简化SuperPOD的集群管理。Base Command接口操作起来相当容易,不仅提供GUI接口,还配备了Jupyter Notebook等各种工具,能使用专属Registry和训练模型,以及还集成AI生命周期人员协作的MLOps API。另外还提供一个监控和报告的可视化仪表板,方便用户管理。

此外,Base Command接口本身也可支持在AWS和Google两大公有云平台上来使用,让用户用单一接口就能够提交AI任务,并且跨本地端或多云混合云。

另外,Nvidia这次还发起新的Nvidia Certified硬件认证项目计划,让系统制造商可以参考它所提供的设计蓝图,开发出符合Nvidia认证的AI专用服务器或系统,并提供官方认证,作为企业未来在添购AI服务器设备时可参考的依据。

除了有通过其认证的AI硬件,在AI软件方面,Nvidia也发布Nvidia AI Enterprise软件集成平台,主要是将该公司多年来推出的众多AI软件、开发工具或框架,集成到单一平台,让企业更容易用它做视觉或语音AI应用开发。

进一步来看,该平台集成了许多企业常用AI软件或开发工具,像是在基础架构管理优化工具方面,提供了Nvidia vGPU、Nvidia Magnum IO、Nvidia Cuda-X AI、Nvidia DOCA等软件堆栈或开发工具。而在AI与资料科学应用方面,也集成了如Nvidia Triton Inference Server、Nvidia TensorRT函数库组件与GPU加速函数库Rapids等。还有加入各种主流AI框架,如TensorFlow、PyTorch,以及Nvidia Transfer Learning Toolkit等都包含在内。该软件平台也可架构在通过Nvidia认证的AI服务器上,并支持完整VMware vSphere虚拟化环境。

除了提供通过Nvidia认证的AI设备HGX、EGX,Nvidia表示,接下来,更将其认证适用范围,扩大涵盖到内置有DPU的服务器设备,预计将于今年秋天开始提供,包括Asus、Dell、技嘉、云达、Supermicro都将推出搭载Bluefield-2 DPU的服务器产品,目前都与Nvidia正在展开合作,以取得其认证,另外不只x86架构,Nvidia明年也扩大提供基于Arm架构的设备认证。

由于Nvidia的Arm CPU将于2023年推出,为了早一步创建成熟生态系统,Nvidia也与技嘉合作,宣布推出以Arm为基础的加速运算开发组件,除了提供软件,硬件部分则内置有Arm CPU与GPU,可提供全球250万名Cuda平台开发者,来提前针对Arm架构运算环境,进行相关开发与应用测试。