Nvidia推出端到端机器人增强学习模拟环境

Nvidia发布用于增强学习(Reinforcement Learning)研究的物理模拟环境Isaac Gym预览版,借助GPU的平行运算能力,可以将过去需要数千个CPU核心参与训练的任务,移植到GPU上,使用单个GPU就能完成训练。

运用增强学习技术的人工智能,无论是在经典策略游戏,像是围棋或是西洋棋,或是星际争霸与DOTA等即时战略游戏,都能与人类玩家匹敌,且在机器人领域的应用,增强学习也被研究来解开魔术方块,和通过模仿动物学习动作。该技术被证实具有解决复杂问题的潜力,成了目前热门的研究领域。

但Nvidia提到,目前大多数增强学习机器人技术人员,都是使用CPU核心集群来训练增强学习算法。以OpenAI团队解决魔术方块项目为例,使用单一机器人手掌反转物体,涉及复杂的物理和动力学,以及多维度连续控制空间,因此该项目一共使用了6,144个CPU核心,以及8个GPU,训练超过30个小时,才能让算法达到最佳的结果。而Nvidia利用Isaac Gym,供研究人员重新创建OpenAI的实验,仅使用单个A100 GPU花费10小时,就能获得相当于OpenAI以超级计算机运算的结果。

Isaac Gym利用Nvidia的PhysX GPU加速模拟引擎,收集机器人增强学习所需要的经验资料,除了更快的物理模拟之外,Isaac Gym还让增强学习的观察和奖励运算,得以在GPU上执行,而这能明显消除运算性能瓶颈,特别是GPU和CPU之间高成本的资料传输。Isaac Gym通过实例这两大功能,得以提供完整端到端GPU增强学习工作管线。

Isaac Gym提供了一个用机器人和对象来填充场景的基本API,能够读取URDF和MJCF文件格式,按研究人员需要复制模拟环境,并在每个环境不互相干扰的情况下,独立进行模拟。Isaac Gym还有一个基于PyTorch张量的API,以访问物理模拟工作的结果,让用户可以使用PyTorch JIT Runtime系统,构建增强学习观察和奖励运算,该系统能够动态地将执行这些运算的Python程序代码,编译成为CUDA程序代码,放到GPU中执行。所有的观察和奖励运算,都能够完全在GPU中执行,也就不需要从CPU读取资料,因此可以省去CPU和GPU间资料传输的时间。

这样的配置,让用户可以在单个GPU上,创建数万个环境,同时进行模拟,也就是说,只要在台式机本机,就能够执行过去需要整个人信息料中心计算资源的实验。未来Isaac Gym会集成到Nvidia Omniverse,以及Nvidia Isaac Sim机器人模拟平台中,目前在预览阶段提供独立版本,以展示端到端GPU增强学习的可能性。