DeepMind以多重代理增强学习策略，让AI在星际争霸2天梯爬上大师等级

在7月的时候，DeepMind宣布其《星际争霸2》（StarCraft II）人工智能AlphaStar将上天梯与玩家对战，而现在DeepMind公布最新的结果，AlphaStar的排名在天梯活跃玩家99.8％之上，而且人类、神族和虫族三大种族都达到大师（Grandmaster）等级。

自我对战（Self-play）和学习系统是不少游戏人工智能系统的强化策略，像是围棋与象棋的人工智能AlphaGo和AlphaZero，还有游戏《Dota 2》的人工智能OpenAI Five，都以自我对战方法达到一定程度的水准。

但是DeepMind表示，自我对战存在明显的缺点，一个与自己竞争的人工智能代理会不停的进步，但也可能会忘记与先前自己对战的能力，而形成无尽的循环，导致结果无法收敛或是无法达到真正的进步，就以剪刀石头布的游戏为例，一开始代理可能喜欢使用石头，随着自我对战，代理可能会转为使用剪刀，但是后来又发现使用布可以提升胜率，而进入一个循环。

DeepMind最新的研究认为，自我对战策略不足以产生一个真正强大的代理，因此着手研究新的通用解决方案，而DeepMind最新发布在Nature上的论文，将自我对战的的概念，扩展成一群代理战队。研究人员解释，通常在自我对战中，每个代理都会尽最大程度的努力赢对手，但这仅是解决方案的一部分，在真正的世界中，想要在《星际争霸2》获胜的玩家，会选择与朋友搭档，并且训练特定的策略。

也就是说，训练的伙伴并不是要赢所有潜在的玩家，而是帮助朋友发现自己的缺点，改进各自的游戏技术，而代理联盟也是利用这个想法，目标不仅是要让主要的代理在游戏中获胜，同时辅助代理则要通过披露主要代理的缺点，最大程度帮助主要代理增长。通过这样的方式，代理联盟自己学会了所有《星际争霸2》中的复杂策略。

另外，DeepMind还提到，由于《星际争霸2》的动作空间太大，每个时间点可执行的动作高达1,026个，每场游戏要执行数千次的动作才可能决定胜负，而巨大的动作空间让许多增强学习方法无效，因此AlphaStar现在使用一种称为Off-Policy的增强学习算法，可有效率地从旧游戏策略更新成新策略。

最新的AlphaStar代理，在Battle.net上匿名进行游戏，并且现在操作人类、神族和虫族三个种族都达到了大师等级。DeepMind强调，AlphaStar没有靠作弊来赢得比赛，经专业玩家认可，其使用的摄影机接口提供类似人类玩家可取得的信息，而且AlphaStar也被限制了手速与人类玩家相当。