AI会踢足球了！ Deepmind最新力作：让AI学会彼此“协作”

借由牺牲个人利益来极大化团队利益，追求团队的目标，是人类社会进步的关键。然而，合作不再是人类的专利， DeepMind 用 2 对 2 足球赛训练 AI ，要让 AI 学会团队协作。起初个别的 AI 也是以极大化自己利益，后来学会了合作，以最大化团队利益为目标。虽然这项研究只有 4 个 AI 参与，但它的意义是让 AI 学会协作，为未来的更多 AI 协作与应用打下基础。

从足球竞技到战争，团队合作一直被认为是人类社会进步的基石。基于长远的共同目标，弱化甚至牺牲个人利益，促成了人类作为共同体的最大利益。

DeepMind 也正尝试让人工智能学会这一点，并且选择了最有可能显示团队合作的考核方式——足球比赛。

22 日凌晨， DeepMind 发布了最新研究：证明了在足球场景下，一种基于分布式代理的连续控制培训框架，结合奖励渠道的自动优化，可以实现多智能体（multi- agent）端到端的学习。这篇论文被ICLP 2019 收录。

简单来说就是， DeepMind 设置了场景，让多个 AI 一起踢足球赛。并且提前设置了规则，奖励整支“足球队”而不去鼓励某个“AI 球员”的个人成绩，以促成整个球队的进步。用这种方式证明了， AI 也是可以相互合作的！

通过踢足球竞争，训练AI 多方协作

多智能体通过协作，完成团队最优目标并不是一个陌生的话题，去年，OpenAI 就曾发布了由五个神经网络组成的DOTA 团战AI 团队—— OpenAI Five ，并在5v5 中击败了顶级人类玩家团队。比赛中， OpenAI Five 也展示了，在胜利是以摧毁防御塔为前提的游戏中，牺牲“小兵”利益是可以被接受的，也就是说， AI 是可以朝着长期目标进行优化的。

DeepMind 的最新研究进一步专注于多智能体这一领域。

他们组织了无数场 2v2 的 AI 足球比赛，并设置了规则，一旦有一方得分或者比赛超过 45 秒，比赛就结束。

DeepMind 称，通过去中心化的、基于群体的训练可以使得代理人的行为不断发展：从随机，简单的追球，到最后的简单“合作”。他们的研究还强调了在连续控制的大规模多智能体训练中遇到的几个挑战。

值得一提的是， DeepMind 通过设置自动优化的简单奖励，不鼓励实例，而去鼓励合作行为和团队整体的成绩，可以促增长期的团队行为。

在研究中通过引入一种“基于单独折扣因素来形成自动优化奖励的思想”，可以帮助他们的代理从一种短视的训练方式，过渡到一种长时间但更倾向于团队合作的训练模式其中。

DeepMind 也进一步提出了一个以博弈论原理为基础的评估方案，可以在没有预定义的评估任务或人类基线的情况下评估代理的表现。

多智能体强化学习的行为，取决于报酬奖励的设置

将足球比赛看做一个多智能体强化学习（MARL）的过程，仿真一个可交互的环境，智能主体通过学习与环境交互，然后优化自己累计奖励。 MARL 的主题思想是协作或竞争，也或两者皆有。选择什么样的行为，完全取决于“报酬奖励”的设置。 MARL 的目标是典型的马可夫完美均衡（Markov perfect equilibrium）。大致意思是寻找随机博弈中达到均衡条件的混合策略集合。

具体意思是：博弈参与者的行动策略有马可夫特点，这意味着每个玩家的下一个动作是根据另一个玩家的最后一个动作来预测的，而不是根据先前的行动历史来预测的。马可夫完美均衡是：基于这些玩家的动作寻找动态均衡。

DeepMind 在github 上发布了他们使用的MuJoCo Soccer 环境，这是一个竞争协作多智能体交互的开源研究平台，在机器学习社区已经得到了相当广泛的使用。

DeepMind 采用优化评估，提升AI 表现

为了有效地评估学习团队，DeepMind 选择优化评估方法，所选团队都是以前由不同评估方法产生的10 个团队，每个团队拥有250 亿次的学习经验。他们在 10 个团队中收集了一百万种比赛情况。

上图显示了支持团队的3 个智能体显示的成对预期目标差异。纳许均衡要求3 个团队的权重都是非零的，这些团队协作展示了具有非传递性能的不同策略，这是评估方案中并不存在的：团队A 在59.7% 的比赛中赢得或打平团队B ；团队B 在71.1% 的比赛中赢得或打平团队C ；团队C 在65.3% 的比赛中赢得或打平团队A 。他们展示了团队 A、B 和 C 之间的示例比赛的记录，可以定性地量化其策略的多样性。

在上图中， DeepMind 展示了代理行为的典型轨迹：在5B 步骤中，当代理更个性化地行动时，我们观察到无论blue1 的位置如何， blue0 总是试图自己运球。但在训练的后期， blue0 则积极寻求团队合作，其行为呈现出由其队友驱动的特点，显示出高水平的协调精神。特别是在“8e10_left”这一场比赛中中， DeepMind 称他们观察到了两次连续传球（blue0 到 blue1 和后卫），这是在人类足球比赛中经常出现的 2 对 1 撞墙式配合。

研究意义：训练AI 的协调行为

DeepMind 此项研究意义重大，将2v2 足球领域引入多智能体协作是以前没有过的研究，通过强化学习研究，利用竞争与合作来训练独立智能实例，展示了团队的协调行为。

这篇论文也证明了一种基于连续控制的分布式集群训练框架，可以结合奖励路径自动优化，因此，在这种环境下可以进行进行端到端的学习。

其引入了一种思想，将奖励方向从单策略行为转变为长期团队合作。引入了一种新的反事实政策评估来分析主题策略行为。评估强调了匹配结果中的非传递性和对稳健性的实际需求。

DeepMind 开源的训练环境可以作为多智能体研究的平台，也可以根据需要扩展到更复杂的智能体行为研究，这为未来的研究打下坚实的基础。