- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
使用语言补充图像的语义信息
SahitiYerramilli*JayantSravanTamarapalli*TanmayGirishKulkarni*
JonathanFrancisEricNyberg
CarnegieMellonUniversity
{syerrami,jtamarap,tgkulkar}@alumni.cmu.edu{jmf1,en09}@andrew.cmu.edu
Abstract
本深度学习模型极其依赖数据,并且需要非常大的标记数据集来进行监督学
习。因此,这些模型经常会受到过拟合的影响,限制了它们在现实世界示例
译中泛化的能力。扩散模型的必威体育精装版进展使得可以根据文本输入生成逼真的图
中像。利用训练这些扩散模型所使用的大量数据集,我们提出了一种技术来利
用生成的图像增强现有的数据集。本文探讨了几种有效的数据增强策略,以
2
v提高深度学习模型在域外环境中的泛化能力。
3
5
3
21介绍
0
.
4监督深度学习传统上依赖于大量标注数据集的可用性,使模型能够学习模式并做出准确预
0测。然而,随着该领域的进步和诸如视觉变压器[6][4]等更大规模的数据饥渴型模型的出
4
2现,找到相应扩展的数据集变得越来越困难。标注数据的稀缺对这些先进模型的发展和训练
:构成了重大障碍。
v
i
x有趣的是,尽管用于视觉任务的标注数据集可能有限,但存在大量文本语料库已被用来训练
r大型变换器模型[16][13][8]。这些变换器模型在各种自然语言处理任务中表现出色,展示了
a
它们有效学习和表示复杂语言模式的能力。
最近,文本条件图像生成模型在生成图像的多样性和逼真度方面取得了显著进展[17][15]
[18]。这些模型通常被称为扩散模型,已经展示了根据文本输入生成逼真图像的能力。这一
突破为计算机视觉领域的数据增强开辟了新途径。
本文的主要目的是探讨基于扩散模型的各种增强策略,这些策略适用于图像分类任务。我们
使用COCOCaptions数据集[2]进行实验,并根据四种不同的策略对字幕进行修改:前缀、
后缀、替换和复合。这些策略的详细解释将在方法3部分提供。此外,我们简要探讨了如何
将使用这些增强训练的模型应用于其他基于计算机视觉的分类任务。
我们的论文首先探讨了与我们方法中使用不同组件相关的相关工作。接着是方法、实验设计
和实验结果。最后,我们在结论部分总结了我们的结果,并在附录中提供了额外的训练细节
和集群设置。
*equalcontribution
2相关工作
2.1基于生成模型的数据增强
若干先前的研究探索了不同的基于GAN的方法来应对数据稀缺和扩增的挑战。例如,诸如
[1]等研究利用CycleGAN通过将图像从示例更丰富的领域转换到示例较少的领域来丰富这
些领域的数据。类似地,[10]使用生成对抗网络(GANs)生成新的图像,这与我们的方法
一致。
然而,这些现有工作存在显著的局限性。在[1]的情况下,主要关注领域自适应,需要为每
个域变化学习一个新的CycleGAN。此外,[9]在多标签分类上的表现不佳,因为它缺乏学习
标签之间关系的能力,并且一次只能处理一个类。另外,这些方法缺少潜在空间的解缠,使
得对图像特定部分进行有
文档评论(0)