| 网站首页 | 游戏新闻 | 游戏资讯 | 游戏信息 | 游戏攻略 | 游戏大全 | 资讯中心 | 文章 | 

您现在的位置: 游戏信息资讯网www.yxnetw.com >> 文章 >> 正文

  没有公告

  最强斗地主AI网易互娱AI Lab提出基于完美信息蒸馏的方法无限幻世录最新章节黄安瑜个人资料           ★★★ 【字体:  
最强斗地主AI网易互娱AI Lab提出基于完美信息蒸馏的方法无限幻世录最新章节黄安瑜个人资料
作者:佚名    文章来源:本站原创    点击数:    更新时间:2024/1/25    

  喜羊羊与灰太狼之快乐方程式网易互娱 AI Lab 联合上海交通大学和 CMU 提出了基于完美信息蒸馏的斗地主 AI--PerfectDou,击败了一众 AI 模型,成为目前的最强斗地主 AI。

  近几年随着强化学习技术的发展,游戏 AI 技术已经成功应用在了围棋、德州扑克、星际争霸等不同种类的游戏中。斗地主是非常流行的一种纸牌游戏,它的玩法存在非完美信息 (地主和农民双方均不能看到对方的手牌) 以及策略合作(2 名农民玩家需要通过配合来击败手牌多 3 张的地主),被认为是非常具有挑战性的研究领域。除此以外,游戏本身的出牌组合数较多(27472 种),也极大地限制了如 CFR 等的搜索类算法的使用。

  针对上述斗地主游戏的难点,网易互娱 AI Lab 联合上海交通大学和 CMU 提出了基于完美信息蒸馏的斗地主 AI--PerfectDou,击败了一众 AI 模型,成为目前的最强斗地主 AI。相关论文已被 NeurIPS 2022 接收,同时也已经公开了代码以及试玩地址,大家感兴趣可以去和 AI 对战。

  针对斗地主游戏存在的非完美信息、策略合作和动作空间巨大的问题,PerfectDou 主要提出了如下几点贡献:

  2. 牌类游戏特征的合理建模以及对可行动作的简化来减少模型探索空间,加速 AI 的训练过程

  在斗地主游戏中,非完美信息的引入主要是由于三位玩家均不能看到别人的手牌,对于任意一位玩家而言,仅可知道其余两位玩家当前手牌的并集,而难于精准判断每位玩家当前手牌。完美信息蒸馏的思路是针对这种非完美问题,构建一个第三方角色,该角色可以看到三位玩家的手牌,该角色在不告知每位玩家完美信息的情况下通过信息蒸馏的方式引导玩家打出当前情况下合理的出牌。

  以强化学习常用的 Actor-Critic 算法为例,PTIE 在 Actor-Critic 算法的应用中可以利用 Critic 的 Value 输出作为蒸馏手段来提升 Actor 的表现。具体而言即在训练中 Critic 的输入为完美信息(包含所有玩家的手牌信息),Actor 的输入为非完美信息(仅包含自己手牌信息),此种情况下 Critic 给予的 Value 值包含了完美信息,可以更好地帮助 Actor 学习到更好的策略。

  从更新公式上来看,正常的 Actor-Critic 算法 Actor 更新的方式如下:

  在 PTIE 模式下,对于每个非完美信息状态 h,我们可以在 Critic 中构建对应的完美信息状态 D(h),并用 Critic 的输出来更新 Actor 的策略梯度,从而达到完美信息蒸馏的效果。

  无论是训练还是执行过程中智能体都不会直接使用完美信息,在训练中通过蒸馏将完美信息用于提升策略,从而帮助智能体达到一个更高的强度。

  PTIE 的另一种蒸馏方式是将完美信息奖励引入到奖励值函数的训练中,PerfectDou 提出了基于阵营设计的完美信息奖励 node reward,以引导智能体学习到斗地主游戏中的合作策略,其定义如下:

  代表 t 时刻地主手牌最少几步可以出完,在斗地主游戏中可以近似理解为是距游戏获胜的距离,

  为调节系数。通过此种奖励设计,在训练时既可以一定程度地引入各玩家的手牌信息(出完的步数需要知道具体手牌才能计算),同时也鼓励农民以阵营的角度做出决策,提升农民的合作性。

  PerfectDou 针对牌类游戏的特点主要构建了两部分特征:牌局状态特征和动作特征。其中牌局状态特征主要包括当前玩家手牌牌型特征、当前玩家打出的卡牌牌型特征、玩家角色、玩家手牌数目等常用特征,动作特征主要用于刻画当前状态下玩家的所有可能出牌,包括了每种出牌动作的牌型特征、动作的卡牌数目、是否为最大动作等特征。

  该矩阵前 4 行代表对应每种卡牌的张数,5-12 行代表该种卡牌的种类和对应位置。

  针对斗地主游戏出牌组合数较多的问题,PerfectDou 基于 RLCard 的工作上对动作空间进行了简化,对占比最大的两个出牌牌型:飞机带翅膀和四带二进行了动作压缩,将整体动作空间由 27472 种缩减到 621 种。

  在状态特征部分,LSTM 网络用于提取玩家的历史行为特征,当前牌局状态特征和提取后的行为特征会再通过多层的 MLP 网络输出当前的状态信息 embedding。

  在动作特征部分,每个可行动作同样会经过多层 MLP 网络进行编码,编码后的动作特征会与其对应的状态信息 embedding 经过一层 MLP 网络计算两者间的相似度,并经由 softmax 函数输出对应的动作概率。

  为了验证 PerfectDou 的强度,我们将 PerfectDou 和各个斗地主 AI 分别进行了 1 万局的对战来评估,包括之前的 SOTA 方法 DouZero。主要指标包括两种:WP(胜率)和ADP(场均得分)。其中 ADP 为主要指标,因为其更符合斗地主游戏规则,WP 为辅助指标。

  从实验结果中可以发现 PerfectDou 能够击败所有的 AI 程序,达到了新的 SOTA 水平。

文章录入:admin    责任编辑:admin 
  • 上一篇文章:

  • 下一篇文章: 没有了
  • 最新热点 最新推荐 相关文章
    大眼斗地主至尊皇权笔趣阁求
    欢乐斗地主游戏介绍焕真颜
    欢乐斗地主破解版下载宠物魔
    steam《斗地主少女》评价褒贬
    最纪实热门网页游戏贪吃王妃
    想娱乐就来《缘来视频斗地主
    游戏网上斗地主-网上斗地主有
    一起来玩斗地主实时匹配开心
    2012最具价值网页游戏鱿鱼公
    微信秒到账的斗地主(这两款都
     最新文章
     
    普通文章 最强斗地主AI网易互娱AI Lab提出基于完美信息蒸馏的方法无
    普通文章 大眼斗地主至尊皇权笔趣阁求败下载
    普通文章 欢乐斗地主游戏介绍焕真颜
    普通文章 欢乐斗地主破解版下载宠物魔术师笔趣阁
    普通文章 steam《斗地主少女》评价褒贬不一 绅士向卡牌游戏!杨乐乐
    普通文章 2d横版动作冒险单机手游推荐 高人气的2d横版动作冒险单机手
    普通文章 杉果国庆特惠:《黑暗之魂3》、《赤痕:夜之仪式》史低 17
    普通文章 十大rogue动作游戏大全 十大rogue动作游戏有哪些课桌中间隔
    普通文章 仙剑奇侠传新的开始橙卡推荐 游戏哪些橙卡比较强宋朝小说网
    普通文章 横版动作冒险游戏《黑水绮谭》将登陆Steam与NS 少女手持弓
    普通文章 2022画面超真实的游戏排行榜 有哪些画面真实的游戏推荐恶徒
    普通文章 有什么现实游戏推荐 好玩的模拟现实游戏分享2023上门女婿全
    普通文章 2023好玩的模拟真实生活手机版游戏有哪些 轻松治愈的生活游
    普通文章 非常真实的游戏前五名 最受欢迎的真实的游戏有哪些横行天下
    普通文章 画面最真实的游戏手游大地游龙传
    普通文章 十大免费无限钻石版游戏盒 无限钻石版游戏破解软件大全校花
    普通文章 免费手游平台最全推荐 十大最良心的免费手游平台排行榜关中
    普通文章 好玩的免费游戏推荐(2023好玩的免费游戏前五名)狼性王爷的

    游戏信息资讯网声明:本站部分资源来源于网络,版权归原作者或者来源机构所有,如作者或来源机构不同意本站转载采用,请通知我们,我们将第一时间删除内容!