Nvidia推出端到端机器人增强学习模拟环境

Nvidia发布用于增强学习（Reinforcement Learning）研究的物理模拟环境Isaac Gym预览版，借助GPU的平行运算能力，可以将过去需要数千个CPU核心参与训练的任务，移植到GPU上，使用单个GPU就能完成训练。

运用增强学习技术的人工智能，无论是在经典策略游戏，像是围棋或是西洋棋，或是星际争霸与DOTA等即时战略游戏，都能与人类玩家匹敌，且在机器人领域的应用，增强学习也被研究来解开魔术方块，和通过模仿动物学习动作。该技术被证实具有解决复杂问题的潜力，成了目前热门的研究领域。

但Nvidia提到，目前大多数增强学习机器人技术人员，都是使用CPU核心集群来训练增强学习算法。以OpenAI团队解决魔术方块项目为例，使用单一机器人手掌反转物体，涉及复杂的物理和动力学，以及多维度连续控制空间，因此该项目一共使用了6,144个CPU核心，以及8个GPU，训练超过30个小时，才能让算法达到最佳的结果。而Nvidia利用Isaac Gym，供研究人员重新创建OpenAI的实验，仅使用单个A100 GPU花费10小时，就能获得相当于OpenAI以超级计算机运算的结果。

Isaac Gym利用Nvidia的PhysX GPU加速模拟引擎，收集机器人增强学习所需要的经验资料，除了更快的物理模拟之外，Isaac Gym还让增强学习的观察和奖励运算，得以在GPU上执行，而这能明显消除运算性能瓶颈，特别是GPU和CPU之间高成本的资料传输。Isaac Gym通过实例这两大功能，得以提供完整端到端GPU增强学习工作管线。

Isaac Gym提供了一个用机器人和对象来填充场景的基本API，能够读取URDF和MJCF文件格式，按研究人员需要复制模拟环境，并在每个环境不互相干扰的情况下，独立进行模拟。Isaac Gym还有一个基于PyTorch张量的API，以访问物理模拟工作的结果，让用户可以使用PyTorch JIT Runtime系统，构建增强学习观察和奖励运算，该系统能够动态地将执行这些运算的Python程序代码，编译成为CUDA程序代码，放到GPU中执行。所有的观察和奖励运算，都能够完全在GPU中执行，也就不需要从CPU读取资料，因此可以省去CPU和GPU间资料传输的时间。

这样的配置，让用户可以在单个GPU上，创建数万个环境，同时进行模拟，也就是说，只要在台式机本机，就能够执行过去需要整个人信息料中心计算资源的实验。未来Isaac Gym会集成到Nvidia Omniverse，以及Nvidia Isaac Sim机器人模拟平台中，目前在预览阶段提供独立版本，以展示端到端GPU增强学习的可能性。