OpenAI打造特殊ML量化指标训练平台,要来修正过度学习的AI难题

OpenAI近日发布一个特别的训练环境CoinRun,该平台借由游戏设计,能够提供关键的量化指标,让程序将过去学习到的经验,转移到全新环境中,也解决了强化学习长久以来的难题,CoinRun的环境比起传统的游戏平台简单许多,像是音速小子(Sonic the Hedgehog),但是却保有丰富且广泛的挑战,提供给最新的算法程序来解决。

打造出适用于不同任务的通用模型,对现今的深度强化学习算法,还是一大难题,虽然受过训练的程序可以解决复杂的任务,但是换到新的环境时,该程序就会面临转移经验的挑战,尤其强化学习程序常常会有过度学习(overfittng)的问题,模型学习成果贴近训练数据,换成别的测试数据效果就会大打折扣,无法学习到通用的技能。

CoinRun模仿音速小子游戏平台,设计成让现有的算法容易被训练的环境,提供可量化的大量训练数据,CoinRun每个关卡的目标即是在有障碍物的环境中,收集硬币,如果程序代理人撞到障碍物,在游戏中就会死亡,唯一的奖励机制是收集硬币,且这项奖励机制是固定的,若程市代理人死亡、集满硬币,或是移动1,000步之后,该游戏关卡就会结束。

为了评价该模型的通用程度,OpenAI用常见的3层式卷积构架,OpenAI也称之为Nature-CNN,训练了9个程序代理人在CoinRun平台玩游戏,其中8个程序代理人在第100~16,000关卡中训练,另外一个程序代理人的训练,则是不限制任何关卡,因此,该程序代理人便不会看见同一个关卡两次,每个关卡对该代理人而言,都是全新的环境,程序代理人是通过近端策略优化(Proximal Policy Optimization,PPO)算法来训练,在固定关卡学习的程序,每个关卡会玩成千上万次,而不固定训练关卡的程序,每个关卡只会玩一次。

OpenAI收集了单独训练的AI程序表现结果,在少于4,000个关卡的训练配置中,该程序出现过度学习的问题,超过16,000个关卡,问题依旧存在,接着,OpenAI利用CoinRun固定的500个关卡来训练AI程序,发现通过多项范式技术,可以改善训练结果,像是Dropout和L2范式、数据扩张和环境随机性。

除此之外,OpenAI也开发了另外2个环境来研究过度学习的问题,分别是CoinRun的变化版CoinRun-Platforms和简单迷宫导航环境RandomMazes,在这些实验中,研究人员采用原本的IMPALA-CNN构架,通过长短期记忆模型(long short-term memory,LSTM)来进行实验,在CoinRun-Platforms的环境中,AI程序要在1,000步的时间限制内收集硬币,硬币随机分散在不同的关卡中,因此,程序必须积积极探索。

OpenAI表示,该研究成果提供打造强化学习通用模型更多研究方向,通过CoinRun环境,精准地量化过度学习的问题,有了这项指标后,研究人员可以更准确地评价,要用哪个构架和算法,OpenAI也提出几个建议的未来研究方向,像是研究环境复杂度和关卡数的关系、重复的构架对通用型AI是否合适、探索多种范式组合最有效的方法。