DeepMind AI“AlphaStar”对战《星际争霸 II》职业高手

在辗压了围棋界之后，DeepMind 团队将目光放到了自由度更高的即时战略游戏，并且最近在忙着调校一个新的“AlphaStar”AI，来挑战《星际争霸II》的职业高手。在上月底连续两组五局对战中，AlphaStar 先全胜了 TLO，接着又在第二组对战中全胜了 MaNa。唯有最后一场直播的对战，才让 MaNa 好歹为人类争了一口气，赢回唯一一场胜利。

不过，事情当然不像表面那么简单。 AlphaStar 相对于人类，其实是隐藏优势的。这时候有在玩RTS 的读者大概会猜是反应速度、或是手速，但其实都不是– AlphaStar 的“手速”（也就是每分钟动作数）其实平均只有277 APM，比起星际职业选手的平均559 APM 要少了不止一点，再加上AI 从发现新状况，到计算出合理的回应，中间大约要0.35 秒的时间，这也比一般职业高手差。在这部分，AlphaStar 完全是靠更有效率的操作，与更经济的决策来弥补的。 AlphaStar 真正“作弊”之处，在于它可以同时看到整个地图，当然战争迷雾还是存在，只是 AlphaStar 不像人类对手一样，要一直不停地在地图来回跳转查看，自然也不容易被偷袭啦。

AlphaStar 的训练和其他类似的AI 系统一样，都是先由观看无数的人类对战视频，来产生一个模型，再由这模型产生一大堆类似但不完全相同的“分身”，再让这些分身下去对打，直到决胜出最厉害的五个AI“选手”为止。在一个月的虚拟对战中，AlphaStar 的诸多分身份进行了等同于现实时间200 年的对战时长，最后选出的五个代表每个都有不同的游戏风格，并且是DeepMind 认为最有获胜机会的。就是这五个代表被推上去与 TLO 和 MaNa 各对战了一次（避免风格重复被看破手脚，同时 MaNa 面对的 AlphaStar 更有经验一点），并取得了十战全胜的成绩。

至于最后一场呢？原来这是个“实验版”的 AlphaStar，拿掉了上面提到的那个“隐藏优势”，让模型必需和人类一样时不时地检查一下地图的各个角落，自然也就有错漏重要信息的可能。虽然也有着一个礼拜的训练时间，但 DeepMind 团队未能让它先与人类选手“切搓”一下，因此与 MaNa 在直播上的对战是它与人类面对面的初战，可惜输给了对方。

当然，对我们一般人来说，就是真正具备高度挑战性的游戏AI 已经不再是个梦想，即使是即时战略这样没有明确的胜败因素、没有完整的信息、而且需要长远的概念的游戏，AI 都有打败人类的潜力了。有兴趣的话 DeepMind 自己的博客上有AlphaStar 与两位人类的对战视频，可以去看看AlphaStar 采取的各种奇怪的战略啦。