智东西(公众号:zhidxcom)
编 | 董温淑
智东西6月15日消息,近日,谷歌旗下人工智能公司DeepMind训练出一个会打7人棋类桌游的AI模型。
训练AI模型参与复杂游戏已经不是新鲜事。早在2016年,DeepMind研发的AlphaGo就曾在围棋对弈中击败韩国国手李世石。近些年来,还有一些研究用国际象棋、扑克等游戏训练AI模型。
现有研究中用到的围棋、国际象棋、扑克等游戏都是双人参与的零和博弈游戏。在现实中,人类往往通过更多人的协作完成任务。比如,在完成合同谈判、与客户互动等任务时,人类需要考虑团队成员中每个人的情况,而现有AI模型还缺乏这方面能力。
为了解决这个问题,DeepMind研究人员引入经典7人棋类桌游《外交风云(Diplomacy)》训练AI模型,提升其协作能力。《外交风云》是美国棋类游戏设计大师Allan B.Calhamer于1959年设计的游戏,属于战棋及谈判类游戏,游戏过程中玩家需要进行高度的互动。
研究结果显示,经过训练,AI模型在《外交风云》游戏中的胜率最高可以达到32.5%。相比之下,用监督学习方法训练的代理胜率最高为16.3%。
这项研究发表在学术网站arXiv上,论文标题为《用最佳应对策略的迭代学会应用无媒体外交(Learning to Play No-Press Diplomacy with Best Response Policy Iteration)》。
论文链接:
https://venturebeat.com/2020/06/10/deepmind-hopes-to-teach-ai-to-cooperate-by-playing-diplomacy/
一、7个玩家“攻城略地”,游戏有10^900种可能
《外交风云》游戏在一张欧洲地图上进行,这张地图被划分为34个“省份”。游戏玩家可以建造自己的“军队”,用于保护自己现有的地盘,或用于攻占其他玩家的地盘。玩家控制的省份越多、地盘越大,游戏胜算就越大。
为了取胜,玩家之间可以结成联盟,共同对抗其他玩家。另外,玩家之间互相牵制,如果一个玩家想要移动自己的军队,需要与其他玩家进行协调,双方共同进行移动。
▲《外交风云》游戏示意图
DeepMind研究人员用《外交风云》游戏研究多代理环境下的学习策略交互问题。研究人员规定采用“无媒体(No Press)”变量,即不允许代理之间进行明确的交流。
由于7个玩家各自选择动作,游戏的组合行动非常多。根据论文,每回合的游戏树(游戏可以进行的总次数)大小约为10^900,有10^21~10^64个合法的联合行动。
二、迭代优化算法:进行回合越多,代理胜算越大
为了使代理能在游戏中掌握规律,研究人员采用了一种最佳响应策略迭代算法(BRPI,Best Response Policy Iteration)。
根据该方法,一回合游戏结束后,代理会“记住”这次游戏的经验,并预测下一回合中可能出现的情况,在下一回合中选用更有可能获胜的新策略。
具体而言,每回合游戏结束后,代理会记录在这次游戏中应用的神经网络策略和值函数,并把这些记录“存”到游戏数据集里。初始神经网络策略和值函数采用人类的游戏数据。
在下一回合游戏中,一个改进操作模块(improvement operator)会根据之前的记录,部署一个能打败之前策略的策略。
神经网络策略和值函数会预测改进操作模块可能选择的行为和游戏结果,相应地做出调整,以增加游戏获胜的可能性。
本研究选用3种BRPI算法进行研究,这3种算法分别是:
1、迭代最佳响应算法(IBR,Iterated Best Response),IBR算法类似于在自我游戏中应用的标准单代理策略迭代方法,这种方法在双人零和博弈游戏中比较流行。
2、虚拟应用策略迭代算法-1(FPPI-1,Fictitious Play Policy Iteration-1),FPPI-1算法类似于神经虚拟自我对弈算法(NFSP)。NFSP算法中,一个玩家由Q-学习网络和监督式学习网络组成。
3、虚拟应用策略迭代算法-2(FPPI-2,Fictitious Play Policy Iteration-2),FPPI-2算法在这3种算法中最为复杂,只预测最新的最佳响应,并记录平均历史检查点,以提供当前的经验策略。
三、代理以一敌六,平均胜率可达32.5%
为了评估BRPI算法的性能,研究人员比较了3种BRPI算法和3种基线模型的表现。基线模型分别是:监督学习模型SL、DipNet强化学习模型A2C、研究人员训练的监督学习算法SL(ours)。
然后,研究人员使6种模型依次进行1v6游戏,并记录被选出玩家的平均胜率。
结果显示,FPPI-2代理的表现最佳,其平均胜率在12.7%到32.5%之间。其中,FPPI-2代理对战6个A2C代理时的平均胜率最高,为32.5%。相比之下,基线模型的胜率最高为16.3%。
研究人员还比较了3种BRPI算法与DipNet强化学习算法的胜率。下图中,实线代表1个BRPI代理对战6个DipNet代理的胜率,点线代表1个DipNet代理对战6个BRPI代理的胜率。可以看出,BRPI代理的胜率更高。
接下来,研究人员混合采用不同BRPI算法,训练出一个新的基线模型,比较3种BRPI算法与新基线模型的胜率。下图中,实线代表1个BRPI代理对战6个新基线模型的胜率,点线代表1个新基线模型对战6个BRPI代理的胜率。可以看出,新基线模型的胜率稳步提高。
结语:未来或能用于商业、经济、后勤等领域
本项研究中,DeepMind探索了使AI模型完成多人协作任务的可能性。数据显示,在《外交风云》游戏中,AI模型的胜率最高可达32.5%,优于基线模型的表现。
目前,该AI模型处于较为初级的阶段,还有很大的提升空间。根据论文,在未来,研究人员将进行更多尝试,比如使代理能够推理其他人的动机、使代理以互惠的方式完成任务等。如果能够实现这些功能,该代理的应用范围或能扩展到商业、经济、后勤等领域,帮助人类提升工作效率。
文章来源:VentureBeat、arXiv