Deepmind新AI精通复杂度高过围棋的西洋陆军棋Stratego

Deepmind发布能够精通西洋陆军棋Stratego的人工智能代理DeepNash,Stratego是一款经典的棋盘游戏,比象棋和围棋更复杂,而且因为玩家无法看到对方的旗,因此具有不完全消息,大幅增加人工智能游玩的难度,但DeepNash在线上Stratego平台Gravon,与人类专家比赛排名进入前三名。

研究人员提到,棋盘游戏一直是衡量人工智能进步的指标,因为可以在受控环境中,研究人类和机器的策略制定和执行。但是Stratego与象棋和围棋不同,玩家无法直接观察对手的棋子,因此复杂度极高,使得一般人工智能难以超越业余玩家的水准。

过去应用在象棋和围棋的游戏树搜索技术,在Stratego已经不管用,Deepmind所开发的人工智能DeepNash,则是使用结合博弈理论和无模型深度强化学习方法的新技术,来精通Stratego赢过人类专家。

研究人员解释,所谓的无模型,代表DeepNash不会试图在游戏过程明确地模拟对手的私密游戏状态,而且因为Stratego的游戏树太过复杂,DeepNash无法使用典型的蒙地卡罗树搜索法,因为该方法只适用于不太复杂的棋盘游戏或是扑克牌游戏。

研究人员参考博弈论算法,使用称为R-NaD(Regularised Nash Dynamics)的方法,使DeepNash的学习行为朝向纳什均衡(Nash Equilibrium)发展,这项策略使DeepNash拥有超高盛率,最差的胜率是50%。

DeepNash与最先进的Stratego机器人比赛,DeepNash的胜率高达97%,而且经常处在100%胜率的状态,而在Gravon游戏平台对抗顶尖玩家时,DeepNash胜率是84%,最后还进入排名前三。

为了不被破解,DeepNash制定了一种不可预测的策略,这代表人工智能会进行一系列初始部署,防止对手在游玩的时候发现模式,另外,DeepNash也会仔细评估对手试图隐藏的资讯,即便局面呈现劣势,也能加以利用高端情报获得胜利。Stratego是一个需要虚张声势的游戏,DeepNash学会各种虚张声势的策略,甚至能够运用小棋子引诱间谍进入伏击位置,消灭关键的棋子。