- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
诗歌故事扩散:在多阶段提示优化中最小化诗歌到图像生
成的信息损失
a,*aaab
SofiaJamil,BollampalliAreenReddy,RaghvendraKumar,SriparnaSaha,KoustavaGoswamiandK.
J.Josephb
aDepartmentofComputerScienceEngineering,IndianInstituteofTechnologyPatna,India
bAdobeResearch
摘要.近期,文本到图像的扩散模型在生成逼真和多感受这首诗,从而增强我们的想象力。随着文本到图
样化的视觉内容方面取得了显著的成功。这一过程中像生成模型的兴起,特别是扩散模型,创意写作因它
一个关键因素是模型能够准确解释文本提示的能力。们能够生产高质量且多样化的图像而取得了显著的进
然而,这些模型往往在处理创意表达时遇到困难,特步。一些努力致力于通过在大规模图文数据集上预训
本别是那些涉及复杂、抽象或高度描述性语言的情况。练大型生成模型来解决零样本文本到图像生成挑战,
译在这项工作中,我们介绍了一种新的无训练方法,专例如DALL-E[22]和CogView[7]。然而,诗歌以其复
中门用于改进一种独特创意语言的图像生成:诗歌。诗杂的意义层次和情感深度,对准确的视觉表现提出了
1歌经常包含多层次、抽象和双重含义。我们的诗谭扩独特的挑战。扩散模型通常难以处理需要更深层次理
v
8散方法旨在通过在语言模型中整合一个多阶段提示优解的复杂提示。例如,即使是必威体育精装版版本的SDXL[21]模
0化循环来最小化诗意文本到图像转换过程中丢失的信型也经常无法生成确切数量的对象或正确解释提示中
7
3息,从而增强对诗歌文本的理解能力。为此,我们通的否定信息[15]。
1
.过对现有最先进的扩散模型进行修改,采用一致的自这提出了一个重要问题:现有的可视化模型如何
7
0注意力技术,以生成多张一致性的图像,这些图像共适应诗歌?一种生成诗歌到图像的方法是整理一个包
5同用来传达诗歌的意义。此外,为了鼓励在诗歌领域含诗歌及其对应参考图像的综合多模态数据集,然后
2
:的研究,我们引入了诗歌为图(P4I)数据集,该数据集训练一个文本到图像扩散模型以提高对诗歌的理解。
v
i包含来自多个在线和离线资源的1111首诗歌。我们邀然而,这种方法需要大量的时间和资源来收集多样且
x
r请了一组诗歌专家进行定性评估。人类和定量评价的高质量的数据集,并且在这些数据上训练或微调扩散
a
结果验证了我们的方法的有效性,并为增强生成图像模型还需要巨大的计算成本。相比之下,我们提出了
信息捕捉能力的诗到图生成提供了新的视角。一种新颖、无需训练的方法,使扩散模型能够在不进
行广泛再训练的情况下生成能够有效捕捉诗歌精髓和
1介绍意义的图像。
诗歌是一种独特的表达形式,它能够唤起情感并激发文本到图像扩散模型生成的图像质量本质上受到
想象力。这种多样性使得阅读诗歌特别吸引人,因为其编码器文本表示能力的限制。大多数现有的文本到
它邀请读者与诗人的灵感相连接,同时构建自己的个图像模型[21,3,27]依赖于CLIP[6]来编码输入提示。
人视角。但如果这些想象中的场景能被赋予生命呢?可然而,CLIP的有限文本表示能力制约了文本到图像生
视化诗歌为体验增添了新的维度,使我们能够看到和成模型的表现。考虑到这一点,我们提出了一种方法
诗歌
您可能关注的文档
- 深度 3D 车道:融合单目 3D 车道检测与自监督单目深度估计-计算机科学-机器学习-自动驾驶.pdf
- 用于突尼斯建筑分割的量子辅助注意力 U-Net,采用 Sentinel-1 数据-计算机科学-卷积神经网络-U-Net-合成孔径雷达.pdf
- 动态环境下的多智能体强化学习中的因果知识迁移-计算机科学-多智能体强化学习-因果关系-迁移.pdf
- 分而治之:一个大规模数据集和模型用于左右乳腺 MRI 分割-计算机科学-机器学习-医学图像分割.pdf
- 关于定向线图及相关矩阵的一些简短笔记-计算机科学-机器学习-算法.pdf
- 基于回归的方法估计蜘蛛恐惧症患者在行为回避任务中的焦虑程度-计算机科学-机器学习-可穿戴设备.pdf
- 局部化 FNO 在动脉瘤 MRI 中的时空血流动力学上采样-计算机科学-机器学习-脑血管诊断-医疗健康.pdf
- 高效且可扩展的元学习和依赖驱动恢复自愈数据库-计算机科学-元学习-异常检测-图神经网络-可解释人工智能.pdf
- 一个端到端的 DNN 推理框架用于 SpiNNaker2 神经形态 MPSoC-计算机科学-调度算法-深度学习-硬件加速-边缘人工智能.pdf
- 一致的解释者还是不可靠的叙述者?理解 LLM 生成的群组推荐-计算机科学-大语言模型-群组推荐系统.pdf
- 2025中国冶金地质总局所属在京单位高校毕业生招聘23人笔试参考题库附带答案详解.doc
- 2025年01月中国人民大学文学院公开招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024黑龙江省农业投资集团有限公司权属企业市场化选聘10人笔试参考题库附带答案详解.pdf
- 2025汇明光电秋招提前批开启笔试参考题库附带答案详解.pdf
- 2024中国能建葛洲坝集团审计部公开招聘1人笔试参考题库附带答案详解.pdf
- 2024吉林省水工局集团竞聘上岗7人笔试参考题库附带答案详解.pdf
- 2024首发(河北)物流有限公司公开招聘工作人员笔试参考题库附带答案详解.pdf
- 2023国家电投海南公司所属单位社会招聘笔试参考题库附带答案详解.pdf
- 2024湖南怀化会同县供水有限责任公司招聘9人笔试参考题库附带答案详解.pdf
- 2025上海烟草机械有限责任公司招聘22人笔试参考题库附带答案详解.pdf
文档评论(0)