Nvidia推出破百Peta级DGX SuperPOD超级计算机集群云计算订阅服务

在今年Computex期间，Nvidia正式推出了订阅制的DGX SuperPOD超级计算机集群云计算新服务，让企业用户不用购买整套超级计算机集群，就能使用其提供的破百Peta级的运算能力，来训练庞大的AI应用模型，该服务预计今夏稍晚推出上线，但仅开放北美用户先采用。另外该公司也宣布将扩大Nvidia Certified认证适用范围，不只是内置GPU的AI服务器，还包括了内置DPU的设备，明年更要扩大提供基于Arm架构的设备认证。

DGX SuperPOD是Nvidia去年所推出最新的AI超级计算机集群系统，在单一模块集成了至少20台DGX A100创建高性能计算集群，其AI运算性能可达100 petaFLOPS，甚至最高可扩展至700 petaFLOPS运算性能。但其价格也相当昂贵，一套系统至少数百万美元起，门槛与进入成本很高，因此，迄今只有少数大型企业才能够采用。

新推出订阅制的DGX SuperPOD云计算服务，则是对于有超大型AI模型训练需求的AI创业公司或中小型企业，带来了一些新的机会，现在也能用它提供的高性能计算，加快完成如大型自然语言AI模型的训练与应用开发，加速将服务推向市场。

至于订阅收费机制，Nvidia表示，未来将采用按月计费方式，每月收费90,000美元起，相当于台币约240万元，大约是单机DGX A100的一半价格，但是具备更高算力及扩展能力，甚至不仅能整套租，企业用户一次也可以DGX SuperPOD里一部分运算集群做租用，而不用租整套集群，在节省成本的同时，也有助于降低进入门槛。

另外，所有硬件设备皆托管于Equinix云计算数据中心，该集群运算服务也使用了存储厂商NetApp提供的全快闪存储设备，作为大量资料存储和管理之用。DGX SuperPOD集群云计算服务，预计今年夏季稍晚推出上线。目前已开放早期测试，但仅在北美提供。

为方便管理DGX SuperPOD运算集群，Nvidia还推出了一个Base Command软件管理新接口，不仅提供多租户、多团队AI应用开发的支持，企业用户在使用与调度DGX SuperPOD资源用于AI开发也更容易，同时简化SuperPOD的集群管理。Base Command接口操作起来相当容易，不仅提供GUI接口，还配备了Jupyter Notebook等各种工具，能使用专属Registry和训练模型，以及还集成AI生命周期人员协作的MLOps API。另外还提供一个监控和报告的可视化仪表板，方便用户管理。

此外，Base Command接口本身也可支持在AWS和Google两大公有云平台上来使用，让用户用单一接口就能够提交AI任务，并且跨本地端或多云混合云。

另外，Nvidia这次还发起新的Nvidia Certified硬件认证项目计划，让系统制造商可以参考它所提供的设计蓝图，开发出符合Nvidia认证的AI专用服务器或系统，并提供官方认证，作为企业未来在添购AI服务器设备时可参考的依据。

除了有通过其认证的AI硬件，在AI软件方面，Nvidia也发布Nvidia AI Enterprise软件集成平台，主要是将该公司多年来推出的众多AI软件、开发工具或框架，集成到单一平台，让企业更容易用它做视觉或语音AI应用开发。

进一步来看，该平台集成了许多企业常用AI软件或开发工具，像是在基础架构管理优化工具方面，提供了Nvidia vGPU、Nvidia Magnum IO、Nvidia Cuda-X AI、Nvidia DOCA等软件堆栈或开发工具。而在AI与资料科学应用方面，也集成了如Nvidia Triton Inference Server、Nvidia TensorRT函数库组件与GPU加速函数库Rapids等。还有加入各种主流AI框架，如TensorFlow、PyTorch，以及Nvidia Transfer Learning Toolkit等都包含在内。该软件平台也可架构在通过Nvidia认证的AI服务器上，并支持完整VMware vSphere虚拟化环境。

除了提供通过Nvidia认证的AI设备HGX、EGX，Nvidia表示，接下来，更将其认证适用范围，扩大涵盖到内置有DPU的服务器设备，预计将于今年秋天开始提供，包括Asus、Dell、技嘉、云达、Supermicro都将推出搭载Bluefield-2 DPU的服务器产品，目前都与Nvidia正在展开合作，以取得其认证，另外不只x86架构，Nvidia明年也扩大提供基于Arm架构的设备认证。

由于Nvidia的Arm CPU将于2023年推出，为了早一步创建成熟生态系统，Nvidia也与技嘉合作，宣布推出以Arm为基础的加速运算开发组件，除了提供软件，硬件部分则内置有Arm CPU与GPU，可提供全球250万名Cuda平台开发者，来提前针对Arm架构运算环境，进行相关开发与应用测试。