DeepMind以多重代理增强学习策略,让AI在星际争霸2天梯爬上大师等级

在7月的时候,DeepMind宣布其《星际争霸2》(StarCraft II)人工智能AlphaStar将上天梯与玩家对战,而现在DeepMind公布最新的结果,AlphaStar的排名在天梯活跃玩家99.8%之上,而且人类、神族和虫族三大种族都达到大师(Grandmaster)等级。

自我对战(Self-play)和学习系统是不少游戏人工智能系统的强化策略,像是围棋与象棋的人工智能AlphaGo和AlphaZero,还有游戏《Dota 2》的人工智能OpenAI Five,都以自我对战方法达到一定程度的水准。

但是DeepMind表示,自我对战存在明显的缺点,一个与自己竞争的人工智能代理会不停的进步,但也可能会忘记与先前自己对战的能力,而形成无尽的循环,导致结果无法收敛或是无法达到真正的进步,就以剪刀石头布的游戏为例,一开始代理可能喜欢使用石头,随着自我对战,代理可能会转为使用剪刀,但是后来又发现使用布可以提升胜率,而进入一个循环。

DeepMind最新的研究认为,自我对战策略不足以产生一个真正强大的代理,因此着手研究新的通用解决方案,而DeepMind最新发布在Nature上的论文,将自我对战的的概念,扩展成一群代理战队。研究人员解释,通常在自我对战中,每个代理都会尽最大程度的努力赢对手,但这仅是解决方案的一部分,在真正的世界中,想要在《星际争霸2》获胜的玩家,会选择与朋友搭档,并且训练特定的策略。

也就是说,训练的伙伴并不是要赢所有潜在的玩家,而是帮助朋友发现自己的缺点,改进各自的游戏技术,而代理联盟也是利用这个想法,目标不仅是要让主要的代理在游戏中获胜,同时辅助代理则要通过披露主要代理的缺点,最大程度帮助主要代理增长。通过这样的方式,代理联盟自己学会了所有《星际争霸2》中的复杂策略。

另外,DeepMind还提到,由于《星际争霸2》的动作空间太大,每个时间点可执行的动作高达1,026个,每场游戏要执行数千次的动作才可能决定胜负,而巨大的动作空间让许多增强学习方法无效,因此AlphaStar现在使用一种称为Off-Policy的增强学习算法,可有效率地从旧游戏策略更新成新策略。

最新的AlphaStar代理,在Battle.net上匿名进行游戏,并且现在操作人类、神族和虫族三个种族都达到了大师等级。DeepMind强调,AlphaStar没有靠作弊来赢得比赛,经专业玩家认可,其使用的摄影机接口提供类似人类玩家可取得的信息,而且AlphaStar也被限制了手速与人类玩家相当。