- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
GenEscape:层级多智能体密室逃脱谜题生成
MengyiShanBrianCurlessIraKemelmacher-ShlizermanSteveSeitz
UniversityofWashington
Seattle,WA,USA
{shanmy,curless,kemelmi,seitz}@
Abstract
本我们挑战文本到图像的模型,生成视觉吸引人、逻辑严
译密且智力刺激的逃房谜题图像。基础图像模型在空间
关系和可操作性推理方面存在困难,我们提出了一种
中分层多代理框架,将此任务分解为结构化的阶段:功能
2设计、符号场景图推理、布局合成和局部图像编辑。专
v
9门的代理通过迭代反馈协作,以确保场景视觉上连贯图1.四个协作代理共同工作,通过构建场景图和布局草
3且功能上可解。实验表明,代理协作在保持视觉质量的
8图以生成面向写实图像的逻辑严密且视觉吸引人的密室逃脱
1同时,提高了输出的质量,在解题性、避免捷径和可操谜题。
2.作性清晰度方面有所改进。
6
0觉信号。
5
21.介绍我们提出了一种新颖的多智能体[11,21,29]交互
:
v框架用于密室逃脱图像生成。如图1所示,每个智能体
i逃室是一种设计为互动谜题的环境,玩家必须探
x通过迭代通信和优化为场景的一个特定方面(谜题设
r索一个封闭的场景,以精确的顺序操作物体,并最终离
a计、物体放置、空间一致性或视觉可操作性验证)做出
开房间。我们用设计和构建二维逃室图像谜题的任务
贡献。这种劳动分工使得系统能够以模块化的方式推
来挑战现代视觉语言模型(VLM)。虽然这些模型生成
理谜题结构和对象语义而不牺牲视觉质量。
了具有审美吸引力的图像[2,12,15,20],但它们在处
我们的贡献总结如下:
理需要精细空间关系、物理功能推理或多步骤功能连
•我们提出了生成物理上真实且照片级逼真的密室逃
贯性的复杂场景时遇到了困难。
脱谜题图像的新任务。
一个设计良好的密室逃脱谜题必须满足两个关键
•我们提出了一种多智能体协作系统,该系统通过文
标准:它必须是可解的,这意味着物体的功能形成了一
本、符号和视觉信号的多层次反馈分层构建图像。
连串连贯且逻辑严谨的动作;并且它必须提供足够的
视觉线索来引导玩家走向预期的解决方案。这不仅需
2.相关工作
要准确放置物体,还需要经过精心设计的视觉效果通
过空间关系和视觉强调来支持人类推理。传统的视觉提示优化。提示优化是一种无需更新权
您可能关注的文档
- 专业Latex文档翻译 + 关注
-
实名认证服务提供商
专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。
文档评论(0)