NVIDIA全新Grace Hopper架构H100 GPU,采台积电4纳米具800亿个晶体管

GPU大厂英伟达(NVIDIA) 的年度重头戏GTC 2022正式展开,在创办人暨首席执行官黄仁勋的主题演讲其中,正式亮相了多项产品,其中最首瞩目的即是由台积电4纳米制程代工,以美国计算机科学家先驱Grace Hopper命名的全新架构,其也将接替两年前推出的NVIDIA Ampere架构。

NVIDIA指出,新推出首款采用Hopper架构的GPU产品NVIDIA H100,这款GPU封装了800亿个晶体管,是全球最大且性能最强大的加速器,具突破性的功能,例如革命性的Transformer Engine及具高度扩展性的NVLink互联技术,可用于推动极大规模的AI语言模型、深度推荐系统、基因组学和复杂的数字孪生等领域的发展。NVIDIA创办人暨首席执行官黄仁勋表示,数据中心将成为AI工厂,用来处理海量资料并从中提炼出宝贵的智慧。NVIDIA H100是全球AI基础设施的引擎,让企业得以加速推动各项AI业务的进展。

NVIDIA强调,采用Hopper架构的H100 GPU为加速大规模AI及高性能计算树立了新标准,并带来六项突破性创新:

1. H100拥有800亿个晶体管,采用台积电4N制程、专为满足NVIDIA加速运算需求而设计,在加速AI、高性能计算、内存带宽、互联和通信方面具有重大进展,包括每秒近5TB的外部连接速度。H100是首款支持PCIe Gen5及首款使用HBM3的GPU产品,提供每秒3TB的内存带宽。20个H100 GPU便足以支撑全世界的网络流量,让客户得以运行先进的推荐系统和大型语言模型,即时使用各项资料进行推论。

2. Transformer已是自然语言处理的首选标准模型,是史上最重要的深度学习模型之一。相较于前一代产品,H100加速器的Transformer Engine能够将这些网络的速度提高六倍,又不失其精度。

3. 多执行实例GPU (Multi-Instance GPU;MIG) 技术可以将一个GPU分割成七个较小、完全隔离的执行实例以处理各类工作。Hopper架构在云计算环境里为每个GPU执行实例提供安全的多租户配置,将MIG的能力较前一代扩大高达七倍。

4. H100是全球首款具有机密运算能力的加速器,可以在处理AI模型和客户资料时加以保护。对于医疗看护和金融服务等对隐私极为敏感的产业,在进行联邦学习时同样能运用机密运算,在共享的云计算基础设施上也同样可行。

5. 为加快最大型AI模型的运行速度,以NVLink搭配全新的外部NVLink交换机,将NVLink当成服务器以外的垂直扩展网络,相较于使用NVIDIA HDR Quantum InfiniBand的前一代产品,能以超过九倍的带宽连接多达256个H100 GPU。

6. 与使用CPU相比,全新DPX指令将用于众多算法(包括路线优化及基因组学) 的动态规划执行速度加快高达40倍;而与使用前一代的GPU相比,速度加快了七倍。这包括为动态仓库环境中的自主机器人车队寻找最佳路线的Floyd-Warshall算法,以及用于DNA和蛋白质分类及折叠的串行比对Smith-Waterman算法。

NVIDIA进一步指出,H100的多项技术创新扩大了NVIDIA在AI推论和训练的领先地位,使NVIDIA能够利用巨大的AI模型做到即时和沉浸式应用。H100让聊天机器人可以使用全球最强大的单体transformer语言模型Megatron 530B,其传输量超过前一代产品达30倍,同时满足即时对话式AI所需的次秒级延迟。H100同时让研究人员和开发人员能够训练像是Mixture of Experts这类大规模模型,包含3,950亿个参数,能将速度提高达九倍,将训练时间从过去所需的数周减少到数日便能完成。

H100预计将有SXM和PCIe两种规格,以满足各种服务器的设计要求。同时也将推出一款融合加速器,将H100 GPU搭配NVIDIA ConnectX-7 400Gb/s InfiniBand及Ethernet SmartNIC。而H100可以部署在各类型的数据中心内,包括企业内部、云计算、混合云和边缘。预计2022年第三季通过全球各大云计算服务供应商及计算机制造商供货,也可以直接向NVIDIA购买。

(首图来源:NVIDIA)