Uber贡献其分布式训练框架Horovod给LF深度学习基金会

Uber宣布将其为TensorFlow、Keras和PyTorch开发的分布式训练框架Horovod开源项目,贡献给深度学习基金会。深度学习基金会则是在Linux基金会旗下,负责进行人工智能、机器学习和深度学习领域创新。

Horovod在2017年10月,Uber以Apache 2.0授权许可开源发布,Horovod能让人工智能开发者轻松的使用TensorFlow、Keras和PyTorch机器学习框架,训练分布式深度学习模型。不少云计算服务都已经集成了Horovod,包括AWS深度学习服务AMI、Azure数据科学虚拟机、Databricks Runtime、GCP深度学习虚拟机、IBM FfDL、IBM Watson Studio和NVIDIA GPU Cloud等。

Horovod使用Open MPI在节点间传递消息,得力于Nvidia的集体通信函数库(Nvidia Collective Communications Library,NCCL)为其提供的优化高性能通信算法,让Horovod可以使用多达512个Nvidia Pascal GPU,在Inception V3和ResNet-101达到了90%的扩展效率,而VGG-16也有68%的扩展效率。

Horovod项目负责人Alex Sergeev表示,Uber开发了Horovod,让各行各业的人工智能研究人员,能以更快且更主动的方式进行深度学习模型训练,而在贡献给深度学习基金会之后,随着Horovod功能和应用方面的成熟,将进一步扩展其在开源生态系统的影响力。