飞、失败、修复：使用强化学习和大型多模态模型的迭代游戏修复-计算机科学-机器学习-强化学习-AI辅助游戏设计.pdfVIP

下载本文档

0
0
约2.16万字
约 14页
2025-07-28 发布于中国
举报
版权申诉

飞、失败、修复：使用强化学习和大型多模态模型的迭代游戏修复-计算机科学-机器学习-强化学习-AI辅助游戏设计.pdf

1、本文档共14页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

飞、失败、修复：使用强化学习和大型多模态模型的

迭代游戏修复

AlexZook,JosefSpjut,JonathanTremblay

{azook,jspjut,jtremblay}@

NVIDIA

Abstract

本游戏设计依赖于理解静态规则和内容如何转化为动态玩家行为——这是现代生

成系统仅通过检查游戏代码或资产难以捕捉的。我们提出了一种自动化设计迭代

译框架，该框架通过将一个强化学习（RL）代理（用于测试游戏）与一个大型多模

中态模型（LMM）（根据代理的行为修改游戏）配对来填补这一空白。在每个循环

1中，RL玩家完成多个回合，生成(i)数字播放指标和/或(ii)一段紧凑的图像条，

v总结最近的视频帧。LMM设计师接收一个游戏玩法目标和当前的游戏配置，分

6析这些游玩轨迹，并编辑配置以将未来行为引导至该目标。我们展示了LMM能

2够基于RL代理提供的行为轨迹进行推理并迭代优化游戏机制的结果，指向了用

1于AI辅助游戏设计的实际且可扩展工具。

21介绍

x游戏设计是一个迭代过程：设计师创建一个游戏，并让玩家进行试玩，以提供反馈来进一步

a完善游戏设计（图1）。试玩帮助设计师理解当玩家与静态内容互动时，如何由静态编写的

规则和内容产生动态的游戏行为。玩家参与游戏所产生的复杂、涌现的动态使得仅从规则和

内容出发去推理设计变得困难。

在这里我们探讨使用大型多模态模型（LMMs）对游戏设计进行迭代优化的任务，利用玩

家行为来进行改进。LMMs越来越多地被用于生成游戏(Toddetal.,2023;Sudhakaranetal.,

2023;Anjumetal.,2024;Zala*etal.,2024)，然而确保游戏能够产生期望的玩家行为仍然困

难重重(Sunetal.,2024)，部分原因是仅凭规则和内容的静态描述难以推理游戏。强化学习

（RL）代理在许多类型的游戏上展示了强大的游戏能力(Mnihetal.,2015;Silveretal.,2018;

Hafneretal.,2025;Vinyalsetal.,2019;Berneretal.,2019)。虽然让人类进行游戏测试是收集人

类反馈最直接的方式(Zooketal.,2014)，但这可能成本高昂且耗时。我们调查了一种替代方

案，其中RL代理充当人类玩家的替身。在我们的迭代设计过程中，一个LMM扮演设计师

的角色，根据RL玩家的游戏行为来修改游戏并指导决策。我们使用这种设置来探索AI增

强设计迭代过程的潜力，通过自动优化游戏设计以达到特定的游戏目标。

1请参阅附录A以获得更完整的相关工作描述。

我们在FlappyBird中测试了这种方法，修复了破损的关卡生成器以实现目标玩家得分，并使

用预训练的DQN代理作为玩家。我们探索了两种不同的玩家行为表示方式供LMM设计师

使用：从游戏中捕获的游戏玩法指标的文字摘要和从视频记录中提取的

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

飞、失败、修复：使用强化学习和大型多模态模型的迭代游戏修复-计算机科学-机器学习-强化学习-AI辅助游戏设计.pdfVIP