诗歌故事扩散: 在多阶段提示优化中最小化诗歌到图像生成的信息损失-计算机科学-文本到图像-扩散模型-人工智能.pdfVIP

下载本文档

0
0
约3.1万字
约 9页
2025-07-28 发布于中国
举报
版权申诉

诗歌故事扩散: 在多阶段提示优化中最小化诗歌到图像生成的信息损失-计算机科学-文本到图像-扩散模型-人工智能.pdf

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

诗歌故事扩散:在多阶段提示优化中最小化诗歌到图像生

成的信息损失

a,*aaab

SoﬁaJamil,BollampalliAreenReddy,RaghvendraKumar,SriparnaSaha,KoustavaGoswamiandK.

J.Josephb

aDepartmentofComputerScienceEngineering,IndianInstituteofTechnologyPatna,India

bAdobeResearch

摘要.近期，文本到图像的扩散模型在生成逼真和多感受这首诗，从而增强我们的想象力。随着文本到图

样化的视觉内容方面取得了显著的成功。这一过程中像生成模型的兴起，特别是扩散模型，创意写作因它

一个关键因素是模型能够准确解释文本提示的能力。们能够生产高质量且多样化的图像而取得了显著的进

然而，这些模型往往在处理创意表达时遇到困难，特步。一些努力致力于通过在大规模图文数据集上预训

本别是那些涉及复杂、抽象或高度描述性语言的情况。练大型生成模型来解决零样本文本到图像生成挑战，

译在这项工作中，我们介绍了一种新的无训练方法，专例如DALL-E[22]和CogView[7]。然而，诗歌以其复

中门用于改进一种独特创意语言的图像生成：诗歌。诗杂的意义层次和情感深度，对准确的视觉表现提出了

1歌经常包含多层次、抽象和双重含义。我们的诗谭扩独特的挑战。扩散模型通常难以处理需要更深层次理

8散方法旨在通过在语言模型中整合一个多阶段提示优解的复杂提示。例如，即使是必威体育精装版版本的SDXL[21]模

0化循环来最小化诗意文本到图像转换过程中丢失的信型也经常无法生成确切数量的对象或正确解释提示中

3息，从而增强对诗歌文本的理解能力。为此，我们通的否定信息[15]。

.过对现有最先进的扩散模型进行修改，采用一致的自这提出了一个重要问题：现有的可视化模型如何

0注意力技术，以生成多张一致性的图像，这些图像共适应诗歌？一种生成诗歌到图像的方法是整理一个包

5同用来传达诗歌的意义。此外，为了鼓励在诗歌领域含诗歌及其对应参考图像的综合多模态数据集，然后

:的研究，我们引入了诗歌为图(P4I)数据集，该数据集训练一个文本到图像扩散模型以提高对诗歌的理解。

i包含来自多个在线和离线资源的1111首诗歌。我们邀然而，这种方法需要大量的时间和资源来收集多样且

r请了一组诗歌专家进行定性评估。人类和定量评价的高质量的数据集，并且在这些数据上训练或微调扩散

结果验证了我们的方法的有效性，并为增强生成图像模型还需要巨大的计算成本。相比之下，我们提出了

信息捕捉能力的诗到图生成提供了新的视角。一种新颖、无需训练的方法，使扩散模型能够在不进

行广泛再训练的情况下生成能够有效捕捉诗歌精髓和

1介绍意义的图像。

诗歌是一种独特的表达形式，它能够唤起情感并激发文本到图像扩散模型生成的图像质量本质上受到

想象力。这种多样性使得阅读诗歌特别吸引人，因为其编码器文本表示能力的限制。大多数现有的文本到

它邀请读者与诗人的灵感相连接，同时构建自己的个图像模型[21,3,27]依赖于CLIP[6]来编码输入提示。

人视角。但如果这些想象中的场景能被赋予生命呢？可然而，CLIP的有限文本表示能力制约了文本到图像生

视化诗歌为体验增添了新的维度，使我们能够看到和成模型的表现。考虑到这一点，我们提出了一种方法

诗歌

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

诗歌故事扩散: 在多阶段提示优化中最小化诗歌到图像生成的信息损失-计算机科学-文本到图像-扩散模型-人工智能.pdfVIP