GCP的HPC工作负载管理器Slurm现支持先占式虚拟机

Google为GCP上的HPC工作负载管理器Slurm加上新功能,包括先占式虚拟机、自定义机器类型、镜像文件执行实例扩展、可附加GPU,以及可自定义的NFS挂载,另外,这个版本还改进了布署的可扩展性和弹性。

Slurm是开源HPC工作负载管理器,全球TOP500超级计算机中有约60%采用,Slurm能够为用户分配专用以及非专用的资源,并提供一个能启动、执行以及监控节点任务运行的框架,也能为任务队列合理地分配资源。 Google在Compute Engine上提供的Slurm集群,能根据工作需求以及队列深度自动扩展集群,并且可以使用Slurm将本地集群的工作,联合云计算Compute Engine执行的Slurm集群一同工作。

GCP用户现在可以使用先占式虚拟机以及Slurm来扩展Compute Engine集群,对自定义的机器类型,也能以优化的CPU以及内存资源,在执行实例上运行用户的工作负载,Google表示,这两项功能可以帮助用户,降低HPC工作负载的成本,因为先占式虚拟机比一般执行实例便宜80%,和预定义的机器类型相比,自定义机器类型又可以节省50%以上的成本。

用户还能根据Google提供的磁盘镜像文件创建Slurm执行实例,比起从互联网安装组件并应用脚本配置,可以大幅缩短配置每个节点的时间,同时也提高布署弹性。镜像文件是通过配置镜像文件创建节点自动生成的,并作为其他自动扩展执行节​​点的基础,Google表示,这样的方法可以在7分钟内产生5,000个节点。

由于Compute Engine支持各种GPU,用户可以根据区域可用性,附加到执行实例中。这次的更新,Slurm会根据GPU的型号和兼容性,自动安装适当的驱动程序和软件,使得Slurm能在Compute Engine上扩展GPU工作负载。另外,用户也可以为NFS主机选择存储服务,并指定既存VPC或是共享VPC来托管集群。