当前位置: 主页 > 德州扑克 德州扑克算法幕后研发者:AI如何打棋牌游戏- 棋牌游戏平台- APP下载败顶级人类牌手?
德州扑克算法幕后研发者:AI如何打棋牌游戏- 棋牌游戏平台- APP下载败顶级人类牌手? 发布时间:2025-05-14

  棋牌游戏大全,棋牌游戏app,棋牌游戏平台,棋牌游戏赌博,棋牌娱乐,棋牌娱乐平台,棋牌论坛,棋牌,开元棋牌,棋牌游戏有哪些,斗地主,扑克游戏,麻将,德州扑克,牛牛,麻将糊了,掼蛋,炸金花,掼蛋技巧,掼蛋口诀,抢庄牛牛,十点半,龙虎斗,21点,贵阳捉鸡麻将,牌九

德州扑克算法幕后研发者:AI如何打棋牌游戏- 棋牌游戏平台- 棋牌游戏APP下载败顶级人类牌手?

  :其实我还还挺惊讶的,我没想到AI能做得这么好。我们之前为了测试AI效果有让它和Claudico(雷锋网(公众号:雷锋网)译者注:CMU较早版本AI)对战过,结果是Libratus以10~12bb/100打败Claudico,这个成绩好于2015年Claudico与人类对战的结果(译者注:那次大战中AI输给了人类选手),不过差不太多。所以我们感觉,这次人机对战Libratus的胜算要大一些,但是不确定到底会赢多少。所以当这次结果出来的时候,我们对AI能表现这么好感到相当诧异。

  Brown:是这样,我们不知道人类到底比Claudico厉害多少,有多少是AI需要提升的。(译者注:在2015年那场对战)中,人类选手发现并充分利用了Claudico的漏洞,比如他们让Claudico 多次采用“溜进”(译者注:limp,翻牌前专用名词,指玩家不做任何加注,只跟进1倍大盲注)战术。这一招非常有效果,是人类玩家打败Claudico 的关键。但是Libratus不是通过利用对方弱点赢的。Libratus和Claudico对战时,Libratus能够在不利用后者弱点的情况下以10~12bb/100打败Claudico,这说明如果Libratus没有任何弱点的话,能比人类更强。而Libratus这次之所以能打败人类,其原因就在于它没有任何人类可以利用的弱点。

  Brown:第一周比赛快要结束时,双方几乎打成平局。人类选手也在第一周对Libratus会如何调整打法、它的强项在哪里等做出了一系列推测。他们没有和我详谈他们认为战局将会如何发展,但从我听到的来看,他们应该是想从数据中寻找Libratus的套路,分析它的弱点和优势。所以,大体上我不怎么担心。他们认为AI在一些方面有缺陷,但实际上并没有。比如,在有一天的比赛中,他们80%都是再加注(three-betting),因为从数据来看,他们认为AI 对特定的三倍打法(three-bet size)不太擅长。但我不认为那是缺陷,只是他们的数据中存在噪音。他们在比赛进程中获得的数据导致他们得出了这样的结论。但他们确实看到了里面存在的一些问题。比如Libratus对特定的开局下注的大小对应不好。比赛前我们认为这不是什么大问题,但事实证明,这个弱点很要命。好在AI还留有一手趁当天晚上对手睡觉的时候,AI就开始连续不断地进行训练,弥补自己的不足以防止对手以后再次利用这一缺陷。所以你看到,从第二周局势就开始转变了。

  Brown:这里面有挺多误解的。AI微调不是说我们让它再再加注(four-bet)的次数增多,或提高加注倍数,而是因为对手在翻牌前和翻牌时总是下不同大小的注。AI程序知道如何回应2倍,2.5倍或3倍的开局下注。但如果对方以2.75倍开局,那么AI就会把2.75约等于3,所以它的回应还是比较准确的。这样的做法虽然算不上不合理,但如果它能不四舍五入的话,效果会更好。于是它那晚就整夜训练自己如何去回应2.75倍的下注。它下注的大小是由算法决定的,根据对手下注次数最多倍数,这个数字离我们事先设定好的一些数目离得有多远,算法可以为对手下的注分出优先等级。所以这就是微调所做的改变。这也是算法中的关键部分,让AI一步步根据人类打法改变自己的路子,而不像他们之前猜测的去利用人类弱点。

  Brown:在转牌圈和河牌圈时,你会发现AI需要花时间思考接下来的动作。这个时间非常迅速以至于有的人可能都没有注意到。其实,每次人类对手在转牌圈和河牌圈下注时,它都要重新计算策略。这样,无论对手怎么出招它都能给予完美回应。所以AI必须预先计算一系列的不同下注大小并放入到游戏树(game tree)中,但预先计算的不能应对转牌圈和河牌圈,因为这两个需要实时计算的策略。(译者注:游戏树是指组合博弈理论中用来表达一个赛局中各种后续可能性的树)

  Brown:Claudico能够在河牌圈进行实时计算,只不过在下面几个方面比较弱。首先,它没有考虑到阻断牌(雷锋网译者注:blocker,即自己要的牌在别人手上)。为了运作更快,它需要把几手牌组合起来,然后再区分对待。基于此它可能会认为,黑桃A带三张黑桃和梅花A带三张黑桃是一样的,即便这两种牌应该区分对待。Claudico 的最终游戏解算机(end-game solver)会对大量的实时下注进行计算,但不会在每次人类下注时进行再计算。我认为,对人类每次下注进行再计算这一步,对Libratus本次的获胜至关重要。同样的,这次我们能在转牌圈开始的时候就对这种计算进行扩展。这种做法的计算量更大,因为现在AI需要处理约50种可能出现的不同河牌圈,并且在游戏结束(每手牌)前可能出现的行动数量也在呈指数级地增长。所以,要像有效地扩展这种新算法,新程序的计算成本也比Claudico 要贵上1000倍。

  Brown:它能在比赛时超额下注,我们也很意外。Libratus并非根据人类的数据训练而成,它之前从来没跟人类玩家过过手。所以此次对战,它采取的是它认为最优的策略。它的策略非常独特,并且和人类所认为的最优打法非常不同。超额下注是它策略的重要部分,另外还有donk bets。能看到AI做到人类未能做到的事,这真的难以忘怀,我也很满足。这种进攻性早在Claudico身上就有所体现,那时候人们觉得它在底池还很小时就玩all-in很不明智。我觉得它这是错误的打法,是没有做好平衡的表现。但是我认为从Libratus身上我们已经看到了比较合理的进攻性,而这也是它成功的关键。

  Brown:我们选择200倍盲注是因为年度计算机扑克竞赛采用的是这个规制。每年,做扑克的AI 研究者都会聚集起来互相对战。一直以来,AI都很难把200倍盲注玩好。因为牌越多,AI 就要做出更多的选择。就我的理解,200 倍盲注是人类玩德扑的上限。保持公平对等是很有必要的,但同时也应该让AI 玩起来有难度。如果盲注数量变少,比如只有100倍盲注,我认为AI 和人类对战的结果和现在一样(如果不是更好的话)。要是盲注数量增多,比如增加到500或1000倍坦白说,我认为结果还是跟现在一样(如果不是更好的话)。这不是因为对AI 来说情况变简单了,而是因为盲注增多,对人类来说变复杂了。我不认为人类能习惯500 或1000 倍的盲注。到了那个数量级,Libratus 真正擅长的大规模超大投注(over-bets)的重要性就会凸显出来。我人类在超大投注方面不会比Libratus 更强。

  Brown:在三人对战扑克上已经有了一些研究。总的来讲, Libratus靠现有技术,就算再多加两个对手也没问题。现在的问题不是技术,而是你怎么评价AI的表现。因为当你有两个以上对手的时候,尽管AI使用的是最好的GTO策略,但它仍会输钱,因为其他玩家都或明或暗地串通好了。所以在游戏中让一个AI对战五个人类玩家,你很难去评价AI是否比人做的更好。这种评价方式不可行。这也是为什么这次比赛我们是一对一制的,也是为什么本次比赛结果在一对一游戏制度下有相当大的意义。我认为目前无限德州扑克6 人桌(Six-Max)略微超出了Libratus和类似AI机器的能力。

【感兴趣,请留言】
姓名:
联系方式:
联系方式:

提示:感谢您的支持,提交成功后工作人员将尽快与您取得联系!

相似项目
  • 德州扑克受欢迎?那是因棋牌游戏- 棋牌游戏平台- APP下载为这个原因
      棋牌游戏大全,棋牌游戏app,棋牌游戏平台,棋牌游戏赌博,棋牌娱乐,棋牌娱乐平台,棋牌论坛,棋牌,开元棋牌,棋牌游戏有哪些,斗地主,扑克游戏,麻将,...
    融资资金:
    所属行业:
  • 棋牌游戏- 棋牌游戏平台- APP下载社会新闻日博体育竞彩官网_社会新闻_大众网
      棋牌游戏大全,棋牌游戏app,棋牌游戏平台,棋牌游戏赌博,棋牌娱乐,棋牌娱乐平台,棋牌论坛,棋牌,开元棋牌,棋牌游戏有哪些,斗地主,扑克游戏,麻将,...
    融资资金:
    所属行业:
您使用的浏览器版本过低,不仅存在较多的安全漏洞,也无法完美支持最新的web技术和标准,请更新高版本浏览器!!