- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
飞、失败、修复:使用强化学习和大型多模态模型的
迭代游戏修复
AlexZook,JosefSpjut,JonathanTremblay
{azook,jspjut,jtremblay}@
NVIDIA
Abstract
本游戏设计依赖于理解静态规则和内容如何转化为动态玩家行为——这是现代生
成系统仅通过检查游戏代码或资产难以捕捉的。我们提出了一种自动化设计迭代
译框架,该框架通过将一个强化学习(RL)代理(用于测试游戏)与一个大型多模
中态模型(LMM)(根据代理的行为修改游戏)配对来填补这一空白。在每个循环
1中,RL玩家完成多个回合,生成(i)数字播放指标和/或(ii)一段紧凑的图像条,
v总结最近的视频帧。LMM设计师接收一个游戏玩法目标和当前的游戏配置,分
6
6析这些游玩轨迹,并编辑配置以将未来行为引导至该目标。我们展示了LMM能
6
2够基于RL代理提供的行为轨迹进行推理并迭代优化游戏机制的结果,指向了用
1于AI辅助游戏设计的实际且可扩展工具。
.
7
0
5
21介绍
:
v
i
x游戏设计是一个迭代过程:设计师创建一个游戏,并让玩家进行试玩,以提供反馈来进一步
r
a完善游戏设计(图1)。试玩帮助设计师理解当玩家与静态内容互动时,如何由静态编写的
规则和内容产生动态的游戏行为。玩家参与游戏所产生的复杂、涌现的动态使得仅从规则和
内容出发去推理设计变得困难。
在这里我们探讨使用大型多模态模型(LMMs)对游戏设计进行迭代优化的任务,利用玩
家行为来进行改进。LMMs越来越多地被用于生成游戏(Toddetal.,2023;Sudhakaranetal.,
2023;Anjumetal.,2024;Zala*etal.,2024),然而确保游戏能够产生期望的玩家行为仍然困
1
难重重(Sunetal.,2024),部分原因是仅凭规则和内容的静态描述难以推理游戏。强化学习
(RL)代理在许多类型的游戏上展示了强大的游戏能力(Mnihetal.,2015;Silveretal.,2018;
Hafneretal.,2025;Vinyalsetal.,2019;Berneretal.,2019)。虽然让人类进行游戏测试是收集人
类反馈最直接的方式(Zooketal.,2014),但这可能成本高昂且耗时。我们调查了一种替代方
案,其中RL代理充当人类玩家的替身。在我们的迭代设计过程中,一个LMM扮演设计师
的角色,根据RL玩家的游戏行为来修改游戏并指导决策。我们使用这种设置来探索AI增
强设计迭代过程的潜力,通过自动优化游戏设计以达到特定的游戏目标。
1请参阅附录A以获得更完整的相关工作描述。
1
我们在FlappyBird中测试了这种方法,修复了破损的关卡生成器以实现目标玩家得分,并使
用预训练的DQN代理作为玩家。我们探索了两种不同的玩家行为表示方式供LMM设计师
使用:从游戏中捕获的游戏玩法指标的文字摘要和从视频记录中提取的
您可能关注的文档
- 一种从聚合商角度出发的需求响应 Stackelberg 博弈-计算机科学-机器学习-能源系统优化.pdf
- 针对任务的机器音频编码: 机器学习的潜在特征是该机器的代码-计算机科学-人工智能-神经音频编解码器.pdf
- Pixel Perfect MegaMed: 一个兆像素级的视觉-语言基础模型,用于生成高分辨率医学图像-计算机科学-医学图像合成-机器学习.pdf
- TRIQA:通过有序失真三元组的对比预训练进行图像质量评估-计算机科学-机器学习-对比学习.pdf
- 第一款针对车臣语的开放机器翻译系统-计算机科学-大语言模型-机器翻译-多语言翻译.pdf
- 关于通过基于身份的签名生成虚荣地址的考虑-计算机科学-区块链-基于身份的签名.pdf
- 项目成功的模糊方法: 测量重要的内容-计算机科学-模糊逻辑-机器学习.pdf
- 推理微调重新定义了基础模型中的潜在表示-计算机科学-机器学习-推理微调-基础模型.pdf
- 快速近似秩确定与分组检测选择-计算机科学-机器学习-秩确定-随机化算法.pdf
- 鲁棒资源分配用于捏合天线系统下的不完美信道状态信息-计算机科学-鲁棒资源分配-通信系统-优化.pdf
最近下载
- 消防工程质量监理质量评估报告.docx VIP
- JTT 1516-2024 公路工程脚手架与支架施工安全技术规程.docx VIP
- 咨询服务流程与方法.docx VIP
- 乳制品的生产企业应急预案终稿.pdf
- 北师大版七年级数学下学期期中易错精选50题(解析版)2022-2023学年七年级数学下册重难点专题提优训练(北师大版).docx VIP
- 2023-2024年暨南大学352口腔综合考研真题.pdf VIP
- 110千伏及以下配电网规划技术指导原则(2024年).doc VIP
- 药品常用知识(共18张PPT).pptx VIP
- 医疗质量管理课件.pptx VIP
- 管理学原理配套教材电子课件(完整版).pptx
文档评论(0)