德扑人机大战明日开战 人类战队六大将首次亮相

智东西(公众号:zhidxcom)
文 | 四月

导语:“这次比赛人类至少还有10%的胜算概率,等到Alpha Go对战柯洁就不用看了,胜算的概率将是0”。

4月5日智东西消息,备受关注的“冷扑大师”VS“龙之队”德州扑克人机大战在赛前公布了对阵双方名单和具体赛事规则。此次人机大战由李开复发起,创新工场、海南生态软件园联合主办,由CMU(卡内基梅隆)机器人系统“冷扑大师”对阵中国真人团队“龙之队”,这场扑克赛事被定义为“表演赛”,将于4月6日至10日在海南上演对决。

德扑人机大战明日开战 人类战队六大将首次亮相

一、人类将占据10%的胜算

冷扑大师的前身来自于耐基梅隆大学(Carnegie Mellon University,以下简称CMU)Tuomas Sandholm教授领导开发的打扑克的程序Libratus。在今年1月30日,Libratus曾一对一无限注德州扑克比赛中击败四名顶尖人类高手,在为期 20 天的赛程里面对玩 12 万手,赢走接近总数的筹码。

人类团队由由六位华人顶尖扑克选手组建,队长杜悦曾在世界德州扑克大赛WSOP的无限注德州扑克赛事中获得冠军。

李开复将此次比赛定义为“表演赛”,言外之意,赛事的输赢已经早有预料,更大的看点在于人机博弈的过程。无论是深蓝象棋,还是Alpha Go、绝艺围棋等人机大战中,机器凭借强大的计算与自我学习能力,已将人类冠军远远甩在身后。

“人类胜算的概率大约是10%”,李开复认为这还是十分乐观的估计。主要考虑到“中国龙之队”团队中大部分人是计算机背景,对于机器算法和相关AI技术有一定了解;此外,相比一月底的匹兹堡之战,这次总牌局为3万手,运气成分可能发挥作用。

二、一机对两牌手 每人限下2万注

德扑人机大战明日开战 人类战队六大将首次亮相

4月6、7、8、9、10日,龙之队六位牌手8点至13点,16点至21点,10小时同时比赛。每人每天1200手牌,合计打36000手牌。一机对两牌手,每人同时打两手牌,牌手两两配对,分坐两个房间,比赛期间组内可交流,组外不能交流。为保证公平公正,组外特设置了保卫人员,两组选手之间的洗手间都进行了区隔。

为排除机器发牌的运气因素,采用复式对称发牌,两两成对的牌手其中一人将拿到配对牌手机器人底牌 。4月10日完赛后计算冷扑大师积累的总记分牌数、计算龙之队六名队员合计积累的总记分牌量,总记分牌数领先者获得本次比赛胜利。积分牌不断累计,每一次到两万重新开始。最终获胜的一方将获得200万元奖励。

三、团队实力解析

德扑人机大战明日开战 人类战队六大将首次亮相

中国“龙之队”(Team Dragons)由顶尖扑克高手杜悦创建并担任队长,另包含许朝军、张淮、童舟、朱亚希、王天建等五名大将。与此前人机大战中通常的专业顶尖选手配置有所不同,此次的人类团队还重点考虑到了计算机背景。“本身都是学霸”,对于对战系统会有更深的理解。

杜悦:2016年在世界德州扑克大赛WSOP的无限注德州扑克赛事中获得冠军,斩获金手链。现任常春藤资本合伙人,负责TMT行业中早期股权投资。2011年至2014年,人人网副总裁,负责集团投资并购和战略发展规划 。

许朝军:北京国际扑克学校创始人及校长,点点网、啪啪创始人兼CEO。2010年1月至2011年1月,盛大在线首席运营官、盛大边锋总裁。16岁开始就读于清华大学计算机科学与技术系 。

张淮:清华大学计算机系本科,UIUC计算机硕士。超过10年德扑深度研究者,10年Oracle高级工程师。具备扎实丰富的德扑基础理论以及博弈论理论实践经验。

童舟:2007年至2010年就读于University of Essex,2016年ACOP 8万豪客赛第11名, 2017年第26届红龙杯8万豪客赛第17名 。

朱亚希:团队中仅有的一名女将。2012年毕业于浙江大学,就职于咨询公司。2016ACOP25万豪客赛第六名,2016澳门百万赛中国冠军赛冠军。

王天建:中扑网(dzpk.com)创始人,德堡扑克战队创始人,2013年亚洲杯中国冠军队队长,被业界封为“捕鲨王”。

“在刚过去的假期里,龙之队团队集合在北京进行了讨论与准备”,杜悦介绍。

四、德扑看点:诈和招数

与象棋、围棋对战相比,对战双方可以完全获取对称信息。扑克规则的不同之处在于,它是典型的不完美信息博弈游戏。通俗来说,因为对战双方并不能看到另外一方手中的牌数,因此具有大量的隐藏信息,博弈过程也蕴含了更大的不确定性。

在扑克上面,难处在于有非常多不同的诈和招数,程序必须每招去一一进行检查。与人机大战中通常采用的深度学习算法不同,Libratus(冷扑大师前身)采用的是DeepStack,一大类的序列不完美信息博弈的通用算法,在HUNL(heads-up no-limit,一对一无限注)德州扑克中发挥作用。

一对一无限注中包含10的160次方个决策点(decision points)——每个点都根据出牌方的理解有不同的路径。DeepStack 算法试图计算玩游戏的低利用率策略,即,求解一个近似的纳什均衡(Nash equilibrium)。

五、背后用意:为人工智能造势

德扑人机大战明日开战 人类战队六大将首次亮相

谈及此次大力推动的人机大战,李开复认为,“唤醒更多的年轻人,了解AI的价值和力量;唤醒七大黑洞里面的人,希望他们能够爬出来。”(这里的“黑洞”喻指Google、Facebook等大公司,他们将专利、人才、数据等吸入到自己平台下,独占资源。)

据李开复介绍,创新工场在资本投资后的下一步是进行孵化。“创新工场已经全力投入到人工智能领域,超过一半的钱都投入到相关公司。我本人也投入了大量时间在人工智能项目的孵化”。

人机大战的输赢已不再是悬念,但将人机大战的赛事搬到国内尚属首例。相信在年轻人意见领袖的推动下,将为国内狂热的人工之智能再添一把火。只是,这点燃技术趋势的究竟是虚火还是实火,显然不再是创投者所介意的。

德扑人机大战明日开战 人类战队六大将首次亮相