智人疑邻狼人杀游戏,是一种基于自由自然语言交流的社交推理游戏。在狼人杀中,所有玩家(通常为 5-10 人)被随机分配一个角色(如平民、狼人、女巫、叛徒和预言家等),他们试图推断其他玩家的角色。
“好人阵营”中有平民、女巫和预言家等角色,在白天投票驱逐狼人;“狼人阵营”方面,狼人试图在夜晚杀死平民,而叛徒试图扰乱平民。玩家必须欺骗其他玩家才能生存,对话之中不可避免地包含大量虚假信息。为了在游戏中获胜,玩家需要记住对话的细节,对其他玩家的角色做出假设,并发现其中的矛盾。
不少玩家表示自己是“狼人杀黑洞”,没有办法准确识别他人的“谎言”,抑或是不知道如何思考话术和逻辑而消极应对——“我是好人,昨晚发生了什么我都不知道。反正我是‘好人’。”即使拿到“预言家”“女巫”等功能性身份例如,也不会推理发言,只能浑水摸鱼。
如果让 AI 玩狼人杀游戏,它会有怎样的表现?近日,一款名为 Deep Wolf 的 AI 语言模型被证明能够理解自然语言并扮演狼人杀中的角色,在游戏中成为人类的游戏助手或竞技对手。Deep Wolf 通过 Longformer 理解语言,然后用强化学习方法来训练,最终决定投票谁出局或者“刀”谁。
目前,大多数 AI 系统在其所处理的大量数据是正确的假设下学习和输出数据。然而,由于真实社会受到虚假信息的困扰,如果 AI 能够检测到矛盾和虚假信息是极其有帮助的。
狼人杀的一个重要特点是,大部分对话都是虚假信息,而 AI 在这种情况下的行为尚未得到广泛调查。同时,虽然很难开发出能够检测真实世界中各种谎言的人工智能,但狼人中相对有限的词汇量和处理的信息类型吸引了学者的注意。据此,这项研究旨在开发一种可以通过自然语言对话扮演狼人杀角色的 AI 代理。
通过收集 15 名人类玩家的游戏日志,学者 Hisaichi SHIBATA、 Soichiro MIKI、Yuta NAKAMURA 对基于 Transformer 的预训练语言模型进行了微调,构建了一个价值网络,该网络能够预测在游戏的任何给定阶段赢得游戏的后验概率,并为下一步行动提供候选。
另外,基于从价值网络中获得的概率,研究者开发了一个名为 Deep Wolf 的 AI 代理,它可以与人类交互并选择最佳投票目标。
最后,他们通过真正让 Deep Wolf 与人类玩家玩狼人杀并收集其胜率来评估人工智能代理的性能。
价值网络的行为。在游戏的早期阶段,当价值网络的角色是狼人时,后验概率总是很低;而在扮演预言家时后验概率总是很高。这表明,在这个五人版狼人杀中。价值网络有能力正确估计获胜的概率,并且在判断平民一方有优势。
Deep Wolf的表现。叛徒和平民的平均胜率与 Deep Wolf 扮演背叛者和平民的胜率没有明显区别。这表明,如果 Deep Wolf 的角色是叛徒或平民,和普通人类玩家能力相当;而在扮演狼人或预言家角色时,则不如人类玩家。
这项研究首次建立了一个 AI 代理,它可以通过与人类玩家理解自然语言来扮演狼人杀中的角色。这意味着当前的语言模型有能力理解陈述、说谎或检测对话中的谎言。
在这项研究中,三位学者仅仅基于 32 份游戏日志对 Deep Wolf 进行了训练和评估。如果能获得更多的游戏日志,对 AI 代理进行训练,可能提高其性能,让 AI 玩家变得更强,从而提升游戏的竞技性。
同时,在涉及 AI 代理的游戏中,除了推断另一个玩家的角色之外,还有一项额外的任务,即推断每个玩家是 AI 代理还是人类,评估人类玩家在这种情况下使用的策略的变化将是一个有趣的话题。此外,AI 玩家能够为狼人杀带来更多的可能性,例如,全部角色都使用 AI 代理,人类仅仅作为游戏观众?
图|#1是预言家,#2和#4是平民,#3是AI(Deep Wolf)扮演的狼人,#5是叛徒
|