Meta开发新人工智能CICERO,可在《外交》游戏与真人玩家谈判并获胜

Meta研究开发具有谈判、说服和合作能力的人工智能CICERO,CICERO如同Deep Blue和AlphaGo等人工智能一样,是在游戏中进行试验,CICERO能够游玩策略游戏《外交》webDiplomacy.net,与其他人类玩家以自然语言沟通,甚至是说服其他玩家结盟,最终取得游戏胜利,并进入游戏参与者排名前10%。

《外交》这款游戏过去被认为是人工智能难以克服的挑战,因为需要掌握理解其他玩家的动机和观点,并制定复杂的计划以自然语言与其他人类玩家完成协议,在过程中还需要不断调整策略,最终创建伙伴关系和联盟。研究人员提到,CICERO具有非常好的沟通能力,导致人类玩家偏好与CICERO合作,而非其他人类参与者。

与国际象棋和围棋等游戏不同,《外交》需要处理的不是游戏规则本身,而是与其他玩家的关系,因此要能在游戏中获得胜利,CICERO需要能够识别其他玩家的虚张声势,或是避免无意做出会被其他玩家视为具攻击性的行动,否则可能很快就会输掉游戏,而且CICERO还需要像真人玩家一样对话,表现出同理心、创建关系并且谈论游戏,才能找到愿意一起合作的玩家。

CICERO的贡献在于,能够交叉运用人工智能两个不同领域的技术,综合战略推理和自然语言处理赢得游戏,CICERO有能力在《外交》游戏的后期,推论出需要某个特定玩家的支持,然后期定策略获得该玩家信任,甚至是从该玩家的角度找出风险与机会,以提高说服该玩家结盟的几率。

在《外交》游戏中,与其他玩家交谈比移动棋子的方法还要重要,CICERO具清楚且有说服力沟通,能制定短中长期的策略,像是在立即要求一名玩家提供支持的同时,说服另一名玩家在游戏后期结盟,CICERO能够说明为什么这些玩家要跟他合作,这个行为如何能够互利互惠,CICERO还会一边收集资讯,替未来的行动奠定基础。但CICERO仍然有一些需要改进的部分,像是可能会产生与行动不一致的对话。

CICERO在《外交》的试验,展示在合作和竞争游戏中,以目标为导向的对话系统,解决人工智能与人类在完成共同目标上,所出现的社交和技术挑战,《外交》提供了一个环境,让利益冲突的玩家相互搏斗,并将复杂的目标转成自然语言,像是玩家可能会选择在短期利益上妥协以维持盟友,并希望该盟友在下一回合帮助他们进入更好的位置。

Meta现在开源CICERO程序代码,让其他研究人员可以继续相关的研究,CICERO也采用零样本分类对话模型,监测和删除有害的对话消息。