Google与DeepMind联手发布增强学习代理Dreamer，能通过想象力学习行为

Google与DeepMind合作，开发出了一个称为Dreamer的增强学习代理，可利用图像习得世界模型，并用来进一步学习目光较长远（Long-sighted）的行为。Dreamer利用图像输入，就能解决连续控制任务，还能掌握游玩Atari游戏技巧，应对需要反应、远见、空间感知和场景理解的操作。

人工智能的增强学习研究正蓬勃的发展，增强学习无模型方法可以通过反复试错，学习预测成功的行动，使得人工智能能够在即时战略游戏中打赢人类，但Google提到，增强学习需要代理人与环境进行大量交互之后，才能达到良好的成果，但这同时也限制了将其应用在现实世界中的机会，因为在现实世界中出错，可能导致不可弥补的伤害。

比起无模型增强学习，基于模型的增强学习方法可以学习精简化的环境模型，而这样的世界模型使代理能够预测潜在行动串行的结果，使其能在各种假设情况下做出反应，并在新场景下做出比较明智的决定，进而减少为了实现目标，所需要进行反复试错次数。

近期的增强学习研究，是通过学习精准的世界模型，让代理学习成功行为，像是Google自家深度计划网络PlaNet，便是利用图像来训练世界模型，而所谓的世界模型，便是能够明确表示代理知识的参数模型。但是Google提到，基于模型的增强学习方法，因为缺乏效率，或者计划机制的运算成本过于高昂，是其一直无法被用来解决困难的问题。

现在Google与DeepMind合作所发展的Dreamer，是一种增强学习代理，通过经训练过的世界模型，所提供的潜在想象力，帮助代理解决长时间任务，也就是说，Dreamer会预测模型状态的串行，学习较长远的行为。Dreamer由3个典型程序构成，首先是学习世界模型，接着是通过世界模型，从预测中学习行为，第三个程序则是执行在环境中学习的行为，以收集新的经验。

在学习世界模型的部分，Dreamer利用Google之前开发的PlaNet世界模型，该模型根据输入的图像，计算出一系列压缩模型状态串行来预测结果，这些模型状态指的是，对预测未来结果有帮助的概念，像是对象的类型、位置和对象与周围环境的相互作用，Google称这个能计算未来的能力为想象力。

Google提到，PlaNet世界模型的优点之一，便是使用压缩模型状态，而非直接使用图像进行预测，这个做法改进了计算效率，使得模型可以在单个GPU中，平行预测数千个行动串行，这个方法促进了方法的一般化，使得对时间较长的视频预测更加精确。

使用压缩模型状态进行预测，可让代理在复杂环境中进行长期预测。下图的两个串行，代理皆没有在事前经历过，但只要输入5个图像，模型便能进行重建，并且预测未来45步。

另一个Dreamer的重点，在于高效率的学习行为，过去基于模型的代理，不是利用多个模型预测来制定计划，不然就是利用世界模型来代替模拟器，并且续用既有的无模型技术，这两种方法需要的运算要求都很高，而且也不能最大化世界模型带来的优势。

更重要的是，即便使用了功能强大的世界模型，也无法进行精确的预测，因为过去基于模型的代理无法预测太久之后的行为。而Dreamer利用反向传播（Backpropagation）算法来解决代理短视近利的问题，使世界模型能有效地学习行为。

整体来说，Dreamer在20个连续控制任务基准测试中（下图），在性能、资料效率和计算时间都突破过去的水准。Google提到，他们利用世界模型的预测串行，就能让代理学习行为，不仅以图像输入解决视觉控制任务，且性能超越过去的无模型方法。在Atari游戏上，Dreamer也能良好地掌握离散的动作，和存在多个对象的3D环境的多样化场景。