DeepMind AI“AlphaStar”对战《星际争霸 II》职业高手

在辗压了围棋界之后,DeepMind 团队将目光放到了自由度更高的即时战略游戏,并且最近在忙着调校一个新的“AlphaStar”AI,来挑战《星际争霸II》的职业高手。在上月底连续两组五局对战中,AlphaStar 先全胜了 TLO,接着又在第二组对战中全胜了 MaNa。唯有最后一场直播的对战,才让 MaNa 好歹为人类争了一口气,赢回唯一一场胜利。

不过,事情当然不像表面那么简单。 AlphaStar 相对于人类,其实是隐藏优势的。这时候有在玩RTS 的读者大概会猜是反应速度、或是手速,但其实都不是– AlphaStar 的“手速”(也就是每分钟动作数)其实平均只有277 APM,比起星际职业选手的平均559 APM 要少了不止一点,再加上AI 从发现新状况,到计算出合理的回应,中间大约要0.35 秒的时间,这也比一般职业高手差。在这部分,AlphaStar 完全是靠更有效率的操作,与更经济的决策来弥补的。 AlphaStar 真正“作弊”之处,在于它可以同时看到整个地图,当然战争迷雾还是存在,只是 AlphaStar 不像人类对手一样,要一直不停地在地图来回跳转查看,自然也不容易被偷袭啦。

AlphaStar 的训练和其他类似的AI 系统一样,都是先由观看无数的人类对战视频,来产生一个模型,再由这模型产生一大堆类似但不完全相同的“分身”,再让这些分身下去对打,直到决胜出最厉害的五个AI“选手”为止。在一个月的虚拟对战中,AlphaStar 的诸多分身份进行了等同于现实时间200 年的对战时长,最后选出的五个代表每个都有不同的游戏风格,并且是DeepMind 认为最有获胜机会的。就是这五个代表被推上去与 TLO 和 MaNa 各对战了一次(避免风格重复被看破手脚,同时 MaNa 面对的 AlphaStar 更有经验一点),并取得了十战全胜的成绩。

至于最后一场呢?原来这是个“实验版”的 AlphaStar,拿掉了上面提到的那个“隐藏优势”,让模型必需和人类一样时不时地检查一下地图的各个角落,自然也就有错漏重要信息的可能。虽然也有着一个礼拜的训练时间,但 DeepMind 团队未能让它先与人类选手“切搓”一下,因此与 MaNa 在直播上的对战是它与人类面对面的初战,可惜输给了对方。

当然,对我们一般人来说,就是真正具备高度挑战性的游戏AI 已经不再是个梦想,即使是即时战略这样没有明确的胜败因素、没有完整的信息、而且需要长远的概念的游戏,AI 都有打败人类的潜力了。有兴趣的话 DeepMind 自己的博客上有AlphaStar 与两位人类的对战视频,可以去看看AlphaStar 采取的各种奇怪的战略啦。