游戏推理竞技场:通过游戏评估大型语言模型推理能力的框架和基准.pdfVIP

游戏推理竞技场:通过游戏评估大型语言模型推理能力的框架和基准.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

游戏推理竞技场:通过游戏评估大型语言模型推

理能力的框架和基准

1,21,21,2

LuciaCipolina‑Kun,MariannaNezhurina,andJeniaJitsev

1LAION

2JuelichSupercomputingCenter(JSC),ResearchCenterJuelich(FZJ)

本2025年8月13日

游戏推理场库提供了一个框架,通过在Google的OpenSpiel库中实现的战略棋盘

2

v游戏来评估大型语言模型(LLMs)的决策能力。该框架通过封装多个棋盘和矩阵游戏

8

6并支持不同类型的代理,实现了基于LLM的代理与其他代理(随机、启发式、强化学

3

3习代理等)之间的系统性比较。它集成了通过liteLLM访问API、通过vLLM进行本地

0.模型部署,并且通过Ray提供分布式执行。本文总结了该库的结构、关键特性以及存

8

0储库的动力,强调它是如何对LLM推理和博弈论行为的实证评估做出贡献的。完整的

5

2库文档可以在https://game-reasoning-arena.readthedocs.io/找到,该库托管在

:

v/SLAMPAI/game_reasoning_arena。

i

x

r

a

1介绍

大型语言模型的近期进展激发了对其推理和规划能力进行评估的兴趣,这超出了

标准自然语言基准测试的范围。战略游戏提供了一个控制环境,在这种环境中,代理必

须计划、适应并预测对手的动作,因此成为决策测试的理想场所。游戏推理竞技场通过

为井字棋、四子连线、库恩扑克和囚徒困境等矩阵游戏提供一个统一框架来满足这一需

求。它使用Google-DeepMind的开放游戏库作为底层游戏引擎。OpenSpiel是一个用于

游戏中强化学习和有哪些信誉好的足球投注网站/规划的开源环境和算法集合;它支持单个和多个代理、零和和

非零和博弈,具有完整和不完整的资讯,并包括分析学习动态的工具。通过在此引擎上

构建,该框架暴露了一个灵活的API来配置游戏、代理和评估设置。

仓库组织成几个模块:

总体而言,该仓库强调模块化:研究人员可以通过实现新的环境或代理类并通过装

饰器注册来添加新游戏或代理。

1

•游戏注册和环境。游戏通过加载器模块中的装饰器进行注册,将一个名称与Open-

Spiel游戏加载器和自定义环境类关联起来;例如,井字游戏和连接四都有专用的

环境类。注册单例负责动态加载和实例化游戏。

•代理和策略。代理实现了一种compute_action方法,并包括随机、人类和LLM代

理。策略管理器根据配置分配策略,并使用代理注册表将字符串映射到类。LLM

代理通过统一的后端查询语言模型并提取动作以及可选的理由,而随机代理则从

合法动作中均匀选择。

•模拟逻辑。模拟循环创建一个环境,初始化游戏,然后反复询问每个代理的动作。

它处理回合制和同时进行的游戏,将动作应用到环境中,检查非法移动,更新奖

励并记录结果。可选的并行执行允许多个情节或游戏在多个CPU或GPU资源上

并发运行。

•架构概述。一个配套的架构文档概述了注册表、环境、代理和后端层之间的相互

连接。从高层次上看,环境源自一个通用的OpenSpiel包装器,代理源自一个基

础代理类,而后端提供模型不可知的推理。这些模块由模拟工具编排,协调策略

分配和日志记录。

2框架设计

模拟框架基于多智能体强化学习(RL)范式构建,该范式将开放游戏的广泛游戏

文档评论(0)

专业Latex文档翻译 + 关注
实名认证
服务提供商

专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。

1亿VIP精品文档

相关文档