NVIDIA全新Grace Hopper架构H100 GPU，采台积电4纳米具800亿个晶体管

GPU大厂英伟达(NVIDIA) 的年度重头戏GTC 2022正式展开，在创办人暨首席执行官黄仁勋的主题演讲其中，正式亮相了多项产品，其中最首瞩目的即是由台积电4纳米制程代工，以美国计算机科学家先驱Grace Hopper命名的全新架构，其也将接替两年前推出的NVIDIA Ampere架构。

NVIDIA指出，新推出首款采用Hopper架构的GPU产品NVIDIA H100，这款GPU封装了800亿个晶体管，是全球最大且性能最强大的加速器，具突破性的功能，例如革命性的Transformer Engine及具高度扩展性的NVLink互联技术，可用于推动极大规模的AI语言模型、深度推荐系统、基因组学和复杂的数字孪生等领域的发展。NVIDIA创办人暨首席执行官黄仁勋表示，数据中心将成为AI工厂，用来处理海量资料并从中提炼出宝贵的智慧。NVIDIA H100是全球AI基础设施的引擎，让企业得以加速推动各项AI业务的进展。

NVIDIA强调，采用Hopper架构的H100 GPU为加速大规模AI及高性能计算树立了新标准，并带来六项突破性创新：

1. H100拥有800亿个晶体管，采用台积电4N制程、专为满足NVIDIA加速运算需求而设计，在加速AI、高性能计算、内存带宽、互联和通信方面具有重大进展，包括每秒近5TB的外部连接速度。H100是首款支持PCIe Gen5及首款使用HBM3的GPU产品，提供每秒3TB的内存带宽。20个H100 GPU便足以支撑全世界的网络流量，让客户得以运行先进的推荐系统和大型语言模型，即时使用各项资料进行推论。

2. Transformer已是自然语言处理的首选标准模型，是史上最重要的深度学习模型之一。相较于前一代产品，H100加速器的Transformer Engine能够将这些网络的速度提高六倍，又不失其精度。

3. 多执行实例GPU (Multi-Instance GPU；MIG) 技术可以将一个GPU分割成七个较小、完全隔离的执行实例以处理各类工作。Hopper架构在云计算环境里为每个GPU执行实例提供安全的多租户配置，将MIG的能力较前一代扩大高达七倍。

4. H100是全球首款具有机密运算能力的加速器，可以在处理AI模型和客户资料时加以保护。对于医疗看护和金融服务等对隐私极为敏感的产业，在进行联邦学习时同样能运用机密运算，在共享的云计算基础设施上也同样可行。

5. 为加快最大型AI模型的运行速度，以NVLink搭配全新的外部NVLink交换机，将NVLink当成服务器以外的垂直扩展网络，相较于使用NVIDIA HDR Quantum InfiniBand的前一代产品，能以超过九倍的带宽连接多达256个H100 GPU。

6. 与使用CPU相比，全新DPX指令将用于众多算法(包括路线优化及基因组学) 的动态规划执行速度加快高达40倍；而与使用前一代的GPU相比，速度加快了七倍。这包括为动态仓库环境中的自主机器人车队寻找最佳路线的Floyd-Warshall算法，以及用于DNA和蛋白质分类及折叠的串行比对Smith-Waterman算法。

NVIDIA进一步指出，H100的多项技术创新扩大了NVIDIA在AI推论和训练的领先地位，使NVIDIA能够利用巨大的AI模型做到即时和沉浸式应用。H100让聊天机器人可以使用全球最强大的单体transformer语言模型Megatron 530B，其传输量超过前一代产品达30倍，同时满足即时对话式AI所需的次秒级延迟。H100同时让研究人员和开发人员能够训练像是Mixture of Experts这类大规模模型，包含3,950亿个参数，能将速度提高达九倍，将训练时间从过去所需的数周减少到数日便能完成。

H100预计将有SXM和PCIe两种规格，以满足各种服务器的设计要求。同时也将推出一款融合加速器，将H100 GPU搭配NVIDIA ConnectX-7 400Gb/s InfiniBand及Ethernet SmartNIC。而H100可以部署在各类型的数据中心内，包括企业内部、云计算、混合云和边缘。预计2022年第三季通过全球各大云计算服务供应商及计算机制造商供货，也可以直接向NVIDIA购买。

(首图来源：NVIDIA)