Deepmind新AI精通复杂度高过围棋的西洋陆军棋Stratego

Deepmind发布能够精通西洋陆军棋Stratego的人工智能代理DeepNash，Stratego是一款经典的棋盘游戏，比象棋和围棋更复杂，而且因为玩家无法看到对方的旗，因此具有不完全消息，大幅增加人工智能游玩的难度，但DeepNash在线上Stratego平台Gravon，与人类专家比赛排名进入前三名。

研究人员提到，棋盘游戏一直是衡量人工智能进步的指标，因为可以在受控环境中，研究人类和机器的策略制定和执行。但是Stratego与象棋和围棋不同，玩家无法直接观察对手的棋子，因此复杂度极高，使得一般人工智能难以超越业余玩家的水准。

过去应用在象棋和围棋的游戏树搜索技术，在Stratego已经不管用，Deepmind所开发的人工智能DeepNash，则是使用结合博弈理论和无模型深度强化学习方法的新技术，来精通Stratego赢过人类专家。

研究人员解释，所谓的无模型，代表DeepNash不会试图在游戏过程明确地模拟对手的私密游戏状态，而且因为Stratego的游戏树太过复杂，DeepNash无法使用典型的蒙地卡罗树搜索法，因为该方法只适用于不太复杂的棋盘游戏或是扑克牌游戏。

研究人员参考博弈论算法，使用称为R-NaD（Regularised Nash Dynamics）的方法，使DeepNash的学习行为朝向纳什均衡（Nash Equilibrium）发展，这项策略使DeepNash拥有超高盛率，最差的胜率是50%。

DeepNash与最先进的Stratego机器人比赛，DeepNash的胜率高达97%，而且经常处在100%胜率的状态，而在Gravon游戏平台对抗顶尖玩家时，DeepNash胜率是84%，最后还进入排名前三。

为了不被破解，DeepNash制定了一种不可预测的策略，这代表人工智能会进行一系列初始部署，防止对手在游玩的时候发现模式，另外，DeepNash也会仔细评估对手试图隐藏的资讯，即便局面呈现劣势，也能加以利用高端情报获得胜利。Stratego是一个需要虚张声势的游戏，DeepNash学会各种虚张声势的策略，甚至能够运用小棋子引诱间谍进入伏击位置，消灭关键的棋子。