DeepMind团队游戏新突破AI和人类进行组队有凤来仪19楼

栏目树形导航

您现在的位置：游戏信息资讯网www.yxnetw.com >> 游戏新闻 >> 正文

没有公告

DeepMind团队游戏新突破AI和人类进行组队有凤来仪19楼

★★★

【字体：小大】

DeepMind团队游戏新突破AI和人类进行组队有凤来仪19楼

作者：佚名游戏新闻来源：本站原创点击数：19 更新时间：2023/5/22

　　康熙来了110502我们还时常感叹两年前 AlphaGo 的一举成名，今天Deep Mind 的另一个游戏项目获得新的突破。不仅和人类进行一对一作战，还可以进行团队作战，与人类进行组队。

　　Deep Mind 在周二发表推文 “ 我们最新的工作演示了如何在一个复杂的第一人称多人游戏中实现多人游戏的性能，甚至可以与人类队友进行合作！”Deep Mind 开发了创新和强化学习技术，是人工智能系统在夺旗游戏中达到人类的水平，不仅各个人工智能独立行动，同时学会配合，进行团队战。Deep Mind 表示这项工作凸显了多智能体培训对促进人工智能发展的潜力。不得不说，在看完模拟游戏的视频确实觉得挺有意思的，今天人工智能头条就为大家介绍这个首款具有“团队精神” 的智能代理。

　　竞赛的目的是将对方的旗子带回来，并且碰触未被移动过的我方旗子，我队就得一分，称作一个 capture。一般会设定两个要素，得分的极限以及时间极限，先到达分数极限的队伍获胜，若是两队势均力敌而难以得分，则通常会由时间的设定来结束一个游戏（match）。在夺旗模式中，杀死对手得1分，自己非正常死亡扣1分，夺取对方旗子得3分，杀死夺旗者得2分，重新拿到己方旗子得1分，成功夺取一次旗子（将旗子送回己方基地中）得5分。

　　掌握多人视频游戏中涉及的策略，战术理解和团队配合一直是AI研究的关键性挑战。如今，随着强化学习的不断发展，DeepMind 提出的的智能代理能够在雷神之锤 III竞技场夺旗游戏(Quake III Arena Capture the Flag) 中实现人类玩家的水平。

　　该游戏涉及复杂的多智能体环境，也是一个典型的 3D第一人称视角的多人游戏。DeepMind 提出的智能代理展示了与人工智能体及人类玩家合作的能力。

　　下面我们将解读 DeppMind 最新的这篇博文，进一步了解这个 AI 智能体背后的技术及其在游戏中的表现。

　　所谓的多智能体学习的设置：指的是多个单智能体必须独立行动，并学会与其他智能体进行互动与合作。通过共适适应智能体，世界在不断变化，因而这是一个非常困难的问题。

　　我们的智能代理面临的挑战是直接从原始像素中进行学习并产生动作，这种复杂性使得第一人称视角的多人游戏，成为AI社区的一个硕果累累且活跃的研究领域。

　　在这项工作中，我们关注的游戏是 Quake III Arena（雷神之锤 III 竞技场，我们从美学的角度对游戏进行部分修改，但所有游戏机制都保持不变。）Quake III Arena是现代许多第一人称视频游戏的基础，并吸引了具备长期竞争力的电子竞技场景。

　　我们训练了一些能够单独学习并采取行动的智能代理，但它们必须要能够在游戏中共同协作，以便抵御其他智能体 (不论是人工智能体还是人类游戏玩家) 的攻击。

　　在这里CTF的规则很简单，但其具有复杂的动态性。两队的游戏玩家要在给定的地图上竞争，目标是在保护己方旗帜不被夺走的同时，夺取对方的旗帜。为了获得战术优势，玩家可以射击对方战队的玩家，并将它们送回复活点 (spawn point)。游戏时长为五分钟，最终拥有旗帜最多的队伍将获胜。

　　从多智能代理的角度来看，CTF既要求玩家们能与己方队友妥善合作，又要与敌方玩家相互竞争，同时还要灵活应变可能遇到的游戏风格的转变。

　　为了让这件事情更有意思，在这项工作中我们考虑CTF游戏的一种变体，其中每场游戏中的地图布局都会发生变化。因此，我们的智能代理必须要学会一种通用的策略，而非记住某种游戏地图的布局。此外，为了保证游戏竞争环境的公平，我们的智能体需要以与人类玩家类似的方式体验CTF游戏世界：即通过观察图像的像素流，模拟游戏控制器并采取相应的行动。

　　夺旗游戏是在程序生成的不同环境中进行的，因此智能体必须能够泛化到未知的地图。智能体必须从零开始学习如何在未知的环境中进行观察，行动，合作及竞争，每场游戏都是一个单独的强化信号：他们的团队是否获得胜利。这是一个具有挑战性的学习问题，其解决方案主要基于强化学习的三个基本概念：

　　我们不是训练一个单独的智能体，而是训练一群的智能体。他们互相学习，合作，甚至竞争，彼此成为队友或对手，以便适应多样化的游戏方式。

　　智能体们都需要各自学习自身内部的奖励信号，这将促使智能体能够生成自身内部的目标，如夺取一面旗帜。双重优化过程 (two-tier) 可直接优化智能体内部的获胜奖励，并基于内部奖励，运用强化学习方法来进一步地学习智能体的游戏策略。

　　智能体分别以快速和慢速两种时间尺度开始游戏，这有助于提高它们使用内存和生成一致动作序列的能力。

　　该智能体的结构结合了快速和慢速时间尺度上的循环神经网络（Fast RNN & Slow RNN），其中包括一个共享记忆模块，并学习从游戏点到内部的奖励转换。

　　由此产生的智能体，我们称之为For The Win(FTW) 智能体，它学会了以非常高的标准玩CTF。更重要的是，该智能体学习到的游戏策略对地图的大小，队友的数量以及团队中的其他玩家都是稳健鲁棒的。

　　下面演示了探索一些室外环境的游戏(其中FTW智能体互相竞争)，以及一些智能体与人类玩家在室内环境中一起玩的游戏。

　　室外环境的游戏是 FTW 智能体之间的游戏，而室内环境下则是混合了人类玩家和 FTW 智能体的游戏。

　　在原文中通过6个不同场景，每个场景下3个不同角度的摄像头为大家呈现更多的游戏过程，如果大家希望看到所有场景与角度的视频，可以通过文章最后的原文链接进行查看。

　　我们进行了一场包括 40 名人类玩家的游戏比赛，在比赛中人类和智能体随机配对，既有可能成为对手，也可能成为队友。

　　在早前的一场 CTF 测试赛中，比赛双方是经过训练的智能体与人类玩家组成的队伍

　　经过训练学习，FTW 智能体已经比强大的基线方法更强大，并且超过了人类玩家的胜率。事实上，在一份对游戏参与者的调查报告中显示它们比人类玩家更具有合作性。

　　此外，我们不仅仅只对智能体进行了性能评估，还进一步探索了这些智能体的行为及内部表征的复杂度。

　　为了理解智能体内部是如何表征游戏状态，我们观察并在平面上绘制智能体中神经网络的激活模式。下图中的点表示游戏中的情形，邻近的点表示相似的激活模式。这些点根据不同的 CTF 游戏状态进行相应地着色，这些状态包括：智能体在哪个房间？旗帜的状态怎样？可以看到哪些队友和对手？我们观察到同样颜色的簇表示该智能体以相似的方式表示类似的高级游戏状态。

　　智能体是如何表征游戏世界状态？智能体将不同情况下相同的游戏状态进行相似的表征。训练后的智能体甚至能够直接用一些人工神经元来编码特定情况。

　　我们的智能体从未得知任何的游戏规则，却能够学习基本的游戏概念并有效地发展对CTF游戏的直观认识。实际上，我们可以发现，智能体中某些特定的神经元可直接对最重要的游戏状态进行编码，例如当智能体的旗帜被夺走时，某个神经元就会被激活；或者当智能体的队友夺取旗帜时，某个神经元就将被激活等。我们的论文提供了进一步的分析，涉及的内容包括智能体在游戏过程中是如何利用记忆和视觉注意力机制的。

　　首先，需要注意的是我们的智能体有非常快的反应时间及非常准确的命中率，这能解释它们在游戏中的卓越表现。人为地减少反应时间并降低命中率后，这仅是智能体获得成功的其中一个因素。

　　训练后，我们人为地减少反应时间和降低命中率，智能体所取得的游戏表现。即使是与人类玩家保持相近的反应时间和准确率，我们的智能体的游戏表现也优于人类玩家。

　　通过无监督学习的方式，我们在智能体和人类的原型行为之间建立联系，研究发现实际上智能体能够学习了类似人类的行为，例如跟随队友并敌方的基地扎营等行为。

　　在训练过程中，这些行为是伴随着强化学习和群体级进化而出现的。随着智能体以更加互补的方式进行学习合作，诸如在训练初期跟随队友的类似行为将逐渐变少。

　　左上角展示了 30 个智能体在训练和互相演化过程中的 Elo 评级评分。右上角展示了这些演化事件的遗传树。底部展示了智能体训练过程中知识、内部奖励和行为概率的情况。

　　研究界最近在星际争霸II 和 Dota 2这样的复杂游戏中做了非常令人印象深刻的工作，虽然我们的研究侧重于夺旗游戏，但研究贡献是具有普遍性的，我们很高兴看到其他人如何在不同的复杂环境中建立我们的技术。在未来，我们还希望进一步改进目前的强化学习和基于人口的培训方法。总的来说，我们认为这项工作突出了多智能体培训推动人工智能发展的潜力

　　任务方法另外，运行这个阴阳师辅助脚本的工具，需要搭配红手指这个手游助手工具，这个工具也有PC版的，可以支持在电脑上

　　智能范畴的任务以及认知功能的机器。为了实现这一点，机器必须能自动学习这些能力而不是对每一台机器

　　Sam Altman所创立的人工智能非营利组织OpenAI宣布：其开发的

　　合作推出深度规划网络 (PlaNet)，这是一个纯粹基于模型的智能体，能从图像输入中学习世界模型，完成多项规划任务，数据效率平均提升50倍，强化学习又一

　　！ /

　　基于ESP-IDF开发的ESP32-C3 RISC-V架构开发板智能家居演示示例#嵌入式开发

　　鸿蒙内核Liteos-a最小系统移植教程之gcc编译过程详解#HarmonyOS #鸿蒙

　　关于MSP430G2系列Launchpad的作品开发实例教程编写和制作说明

游戏新闻录入：admin 责任编辑：admin

上一个游戏新闻：团队建设开场破冰游戏来力杯台球宝贝选拔变身辣妹qvod

下一个游戏新闻：没有了

最新热点		最新推荐		相关文章
《KK官方对战平台》官网- … 18+触摸互动游戏大盘点！黄… MuMu安卓模拟器官网下载_网… 多人派对游戏大全-多人派对…		没有推荐游戏新闻		团队建设开场破冰游戏来力杯…

　最新文章

DeepMind团队游戏新突破AI和人类进行组队有凤来仪19楼	团队建设开场破冰游戏来力杯台球宝贝选拔变身辣妹qvod
咨询主管还在会上搞一言堂？高效率的晨会应该这么开异界九…	侯马农商行营业部：“经典”晨会玩出“新花样”性间道
邮储银行来安县施官镇支行积极推行“快乐新晨会”皇家儿媳…	你的事就是我的事时尚盘发发型新娘盘头步骤
建行烟台分行裕顺嘉园支行晨会新形式互动趣味多九阴真经锌…	人气最高的二十个人玩的游戏有什么多人玩的游戏分享思巢公…
不用见面照样能聚会！合作感超强的4p+游戏推荐富山春居图影…	入坑10年老玩家 20款经久不衰的欢乐聚会桌游推荐easykey1 …
友尽play！The Abyss带来最新多人派对游戏《Save Your Nut…	新春聚会全家同乐！11 款值得推荐的 Switch 聚会游戏岳菁蔚…
适合团建聚会玩的小游戏简单易懂好上手HR赶快收藏剽悍的十…	各种集体团队活动游戏大全「室内外」漂流王txt下载
NS新闻猫头鹰男孩团队公布新作宝可梦消消乐活动本溪铁通…	【美诺项目分享】粉红豹模仿秀拓展团建趣味办公室聚会破冰…

游戏信息资讯网声明：本站部分资源来源于网络，版权归原作者或者来源机构所有，如作者或来源机构不同意本站转载采用，请通知我们，我们将第一时间删除内容！