Google发布新TPU加速器VM,训练模型性能更好且使用成本更低

Google发布了最新的Cloud TPU虚拟机,供用户以更简单的方式,访问云计算TPU计算资源,新的Cloud TPU虚拟机特色在于,让用户直接访问TPU主机,并且使开发者能在TPU上,使用TensorFlow、PyTorch和JAX进行开发和部署。

过去,用户只能远程访问Cloud TPU,通常必需要创建一个或是多个虚拟机,并且使用gRPC以网络与Cloud TPU主机通信,但在新的Cloud TPU虚拟机中,用户不再以远程的方式访问Cloud TPU,而是能在每台TPU主机上,配置自己的交互式开发环境,因此用户可以在单一TPU虚拟机中,逐行编写机器学习模型并且进行调试,也能依照需要使用Cloud TPU Pod扩展规模,与其他TPU高速互联。

用户拥有每个TPU虚拟机的根访问权限,所以可以在TPU加速器中安装和执行任何程序,并且使用本地端存储,在输入的工作管线中自定义程序代码,甚至是将Cloud TPU集成到研究和生产的工作流程中。

Google提到,这种全新的Cloud TPU系统架构,带来更简单和更灵活的使用方式,而且除了可用性的改善之外,也能提升性能,因为用户的程序代码不需要在数据中心间往返,另外,用户还会看到明显的成本节省,由于过去用户需要额外创建一组强大的Compute Engine虚拟机,来准备资料发送给Cloud TPU Pod切片中的远程主机,但现在可以直接在Cloud TPU主机上处理资料,因而消除额外虚拟机的成本。

现在us-central1和europe-west4地区已经提供Cloud TPU虚拟机预览,用户可以使用单个Cloud TPU设备,以及Cloud TPU Pod切片,并且选用TPU v2或TPU v3加速器硬件。

发表评论