微软深度学习函数库DeepSpeed开始支持ROCm平台

微软与AMD合作，使得深度学习优化函数库DeepSpeed，能运用支持ROCm平台的GPU加速运算，这也包含AMD自家的Instinct GPU。这项更新使得DeepSpeed得以获得运算、内存和通信优化技术加持，能够用于训练高达5,300亿参数的语言生成Transformer模型，并在真实的使用场景中，加快训练和推理速度达2倍到20倍。

大规模深度学习模型，在自然语言处理和计算机视觉等应用表现出色，但是要训练这些具有数亿甚至是数百亿参数的大型模型并不简单，微软提到，由于模型的规模过于庞大，需要分散到多个节点上，调度运算和通信才能训练完成。

为了让这个工作更将容易，微软开发了DeepSpeed，这是一个PyTorch开源函数库，能够极大程度提高大型模型训练和推理的规模、速度和可用性，开发者可以使用最少的程序代码，在应用程序中运用运算、内存和通信优化技术。而DeepSpeed现在进一步支持兼容ROCm的GPU，使大型模型训练更加有效率。

AMD从2006年开始，发展用于高性能计算（HPC）和机器学习运算的GPU硬件与软件技术，AMD的开放软件平台ROCm，提供函数库、编译器、执行环境和工具，让研究人员得以使用AMD Instinct GPU，或是其他支持ROCm技术的GPU加速运算。目前主要的机器学习框架诸如PyTorch与TensorFlow，都提供ROCm支持，因此开发者不需要执行任何移植工作，便可以直接在兼容的GPU硬件上，执行这些框架的程序代码。

微软与AMD密切合作，在DeepSpeed上支持这套平行化和优化技术，借由兼容ROCm的GPU上，高性能地训练大型模型，这使得到AMD Instinct MI100/MI200单一GPU或是分布式集群，都可被用来训练千亿参数的模型。

DeepSpeed提供了一套平行化与内存优化方法，如ZeRO、ZeRO-Offload、ZeRO-Infinity和3D平行，这些方法将可让开发者，显著地在AMD GPU上扩展模型规模，远远超出纯资料的平行化限制。在8个节点128个MI100 GPU上训练模型，跟资料平行方法的15亿参数限制比起来，每个DeepSpeed优化方法都可以使模型扩展两个数量级，在更极端的情况，ZeRO-Infinity甚至可以训练接近2万亿参数的模型。

在微软与AMD的合作下，DeepSpeed 0.6开始原生支持兼容ROCm的GPU，而且这个新版本与旧版本使用相同的API，因此开发者不需要更改任何程序代码，就可以直接在支持ROCm的GPU上，使用DeepSpeed的所有功能。