最绿色环保的一代:NVIDIA、Intel及合作伙伴合作提高AI运算效率

在人类推动各项改写时代的颠覆性创新项目中,人工智能 (AI) 是其中的核心 – 以前所未有的速度开发新冠病毒 (COVID) 疫苗及诊断癌症,再到支持自动驾驶车和了解气候变迁。

几乎各行各业都能受益于采用AI,但随着神经网络日渐变得复杂,AI技术也需要极为庞大密集的资源。为避免因运行这类运算基础设施,而对发电造成需索无度的情况,必须尽量提高底层基础技术的运行效率。

在NVIDIA GPU和NVIDIA AI平台的支持下,加速运算的效率提高,使数据中心能够持续推动取得更新一代的突破性成果。

现随着Intel推出第四代Xeon可扩展处理器,NVIDIA及其合作伙伴已开始为高能效AI打造新一代的加速运算系统。这些系统搭载NVIDIA H100 Tensor Core GPU,能够提供较上一代产品更出色的运行性能、更佳的扩展性及更高的执行效率,每瓦有更亮眼的运算表现及解决问题的能力。

NVIDIA DGX H100系统及由NVIDIA全球合作伙伴推出的六十余款搭载H100 GPU的服务器产品,都将搭载Intel的新款CPU。

这些即将推出并搭载NVIDIA及Intel产品的系统,将协助企业运行各项作业负载,其效率比仅搭载CPU的传统数据中心服务器平均高出25倍。如此优异的每瓦性能代表完成工作所需的电力更少,这有助于确保让数据中心尽量高效运用电力来完成最重要的工作。

与前一代加速系统相比,新一代的NVIDIA加速服务器将训练速度和推论的能源使用效率提高3.5倍,这么一来便能真正降低成本,AI数据中心的总持有成本降低3倍以上。

全新第四代Intel Xeon CPU的特色之一便是支持PCIe Gen 5规格,可以将CPU到NVIDIA GPU及网络的资料传输速率提高一倍。添加的PCIe信道让每台服务器内可以部署更高密度的GPU和高速网络。

更高速的内存带宽也提高处理AI等资料密集型作业负载的表现,而每个连接高达每秒400 GB (Gbps) 的网络速度,则是让服务器与存储设备之间能更快传输资料。

搭载H100 PCIe GPU的NVIDIA DGX H100系统及NVIDIA合作伙伴的服务器产品,都有NVIDIA AI Enterprise的使用授权,NVIDIA AI Enterprise是一款采用端对端技术且安全的云计算原生AI开发和部署软件,为高效开发企业AI提供一个完整的卓越平台。

NVIDIA DGX H100是全球首款专用AI基础设施第四代产品,在加速数据中心操作系统NVIDIA Base Command软件的支持下,成为一个完全优化的平台。

每个DGX H100系统搭载八个NVIDIA H100 GPU、十张NVIDIA ConnectX-7以太网络适配器及两个第四代Intel Xeon可扩展处理器,可提供打造大型生成式AI模型、大型语言模型、推荐系统等所需的性能。

这个架构加上NVIDIA网络技术,能够大规模提升运算效率,在训练AI及处理高性能计算(HPC) 作业负载方面,其性能较前一代产品高出9倍,比未加速的X86双插槽服务器高出20至40倍。要是过去在单纯X86架构服务器集群上训练一个语言模型要40天的时间,在搭载Intel Xeon CPU及ConnectX-7网络技术的NVIDIA DGX H100上训练同一个语言模型,只要短短的一到两天便可完成。

NVIDIA DGX H100系统是适用于企业的一站式NVIDIA DGX SuperPOD的构成单元,其提供高达1 exaflop的AI运算性能,显著提升大规模部署企业AI的效率。

对于处理AI数据中心的作业负载,NVIDIA H100 GPU让企业能够更高效地打造及部署应用程序。

华硕 (ASUS)、源讯科技 (Atos)、思科 (Cisco)、戴尔科技 (Dell Technologies)、富士通 (Fujitsu)、技嘉 (GIGABYTE)、慧与科技 (Hewlett Packard Enterprise)、联想 (Lenovo)、云达科技 (QCT) 及美超微 (Supermicro) 等NVIDIA的合作伙伴,即将推出搭载H100 GPU和第四代Intel Xeon可扩展CPU的多款系统组合,将为全球企业带来新一代的执行性能和能源使用效率。

作为未来效率提升的领头羊,Flatiron Institute搭载NVIDIA H100 GPU的Lenovo ThinkSystem超级计算机,荣登Green500榜单最节能计算机之冠,而在榜单的前三十名超级计算机系统里,有23套系统采用NVIDIA的技术。Flatiron的超级计算机系统使用的是Intel的前一代CPU产品,预计目前即将上市的系统会带来更高的效率。

此外,用NVIDIA ConnectX-7网络技术及Intel第四代Xeon可扩展处理器连接服务器,将提高服务器的运行效率、减少基础设施的数量及耗电量。

NVIDIA ConnectX-7以太网络适配器支持PCIe Gen 5及每秒400 GB的InfiniBand和以太网络连接,将服务器之间及至存储设备的网络输送量增加一倍。这些以太网络适配器支持先进的网络、存储设备和安全卸载。ConnectX-7网络技术减少了所需的电线和交换机连接端口的数量,为大型GPU加速的高性能计算和AI集群的网络省下17%以上的电力,有助于提高这些新服务器的能源使用效率。

这些下一代系统还为NVIDIA AI Enterprise软件组件进行优化调整,大幅提升运行效率。

在NVIDIA H100上运行的NVIDIA AI Enterprise加快推动数据科学工作流,也让开发和部署预测性AI模型的作业变得更简单,自动执行基本流程又快速从资料里获得洞察。

有着完整堆栈软件库的NVIDIA AI Enterprise,其中包括参考应用程序、框架、预先训练好的模型及基础设施优化的AI工作流程,是顺利扩大企业AI的一个理想基础。