Google与DeepMind联手发布增强学习代理Dreamer,能通过想象力学习行为

Google与DeepMind合作,开发出了一个称为Dreamer的增强学习代理,可利用图像习得世界模型,并用来进一步学习目光较长远(Long-sighted)的行为。Dreamer利用图像输入,就能解决连续控制任务,还能掌握游玩Atari游戏技巧,应对需要反应、远见、空间感知和场景理解的操作。

人工智能的增强学习研究正蓬勃的发展,增强学习无模型方法可以通过反复试错,学习预测成功的行动,使得人工智能能够在即时战略游戏中打赢人类,但Google提到,增强学习需要代理人与环境进行大量交互之后,才能达到良好的成果,但这同时也限制了将其应用在现实世界中的机会,因为在现实世界中出错,可能导致不可弥补的伤害。

比起无模型增强学习,基于模型的增强学习方法可以学习精简化的环境模型,而这样的世界模型使代理能够预测潜在行动串行的结果,使其能在各种假设情况下做出反应,并在新场景下做出比较明智的决定,进而减少为了实现目标,所需要进行反复试错次数。

近期的增强学习研究,是通过学习精准的世界模型,让代理学习成功行为,像是Google自家深度计划网络PlaNet,便是利用图像来训练世界模型,而所谓的世界模型,便是能够明确表示代理知识的参数模型。但是Google提到,基于模型的增强学习方法,因为缺乏效率,或者计划机制的运算成本过于高昂,是其一直无法被用来解决困难的问题。

现在Google与DeepMind合作所发展的Dreamer,是一种增强学习代理,通过经训练过的世界模型,所提供的潜在想象力,帮助代理解决长时间任务,也就是说,Dreamer会预测模型状态的串行,学习较长远的行为。Dreamer由3个典型程序构成,首先是学习世界模型,接着是通过世界模型,从预测中学习行为,第三个程序则是执行在环境中学习的行为,以收集新的经验。

在学习世界模型的部分,Dreamer利用Google之前开发的PlaNet世界模型,该模型根据输入的图像,计算出一系列压缩模型状态串行来预测结果,这些模型状态指的是,对预测未来结果有帮助的概念,像是对象的类型、位置和对象与周围环境的相互作用,Google称这个能计算未来的能力为想象力。

Google提到,PlaNet世界模型的优点之一,便是使用压缩模型状态,而非直接使用图像进行预测,这个做法改进了计算效率,使得模型可以在单个GPU中,平行预测数千个行动串行,这个方法促进了方法的一般化,使得对时间较长的视频预测更加精确。

使用压缩模型状态进行预测,可让代理在复杂环境中进行长期预测。下图的两个串行,代理皆没有在事前经历过,但只要输入5个图像,模型便能进行重建,并且预测未来45步。

另一个Dreamer的重点,在于高效率的学习行为,过去基于模型的代理,不是利用多个模型预测来制定计划,不然就是利用世界模型来代替模拟器,并且续用既有的无模型技术,这两种方法需要的运算要求都很高,而且也不能最大化世界模型带来的优势。

更重要的是,即便使用了功能强大的世界模型,也无法进行精确的预测,因为过去基于模型的代理无法预测太久之后的行为。而Dreamer利用反向传播(Backpropagation)算法来解决代理短视近利的问题,使世界模型能有效地学习行为。

整体来说,Dreamer在20个连续控制任务基准测试中(下图),在性能、资料效率和计算时间都突破过去的水准。Google提到,他们利用世界模型的预测串行,就能让代理学习行为,不仅以图像输入解决视觉控制任务,且性能超越过去的无模型方法。在Atari游戏上,Dreamer也能良好地掌握离散的动作,和存在多个对象的3D环境的多样化场景。