SEMT: 静态扩展网格转换器网络架构用于遥感图像字幕生成-计算机科学-深度学习-视觉语言-遥感图像-图像字幕生成.pdfVIP

SEMT: 静态扩展网格转换器网络架构用于遥感图像字幕生成-计算机科学-深度学习-视觉语言-遥感图像-图像字幕生成.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

SEMT:静态扩展网格转换器网络架构

用于遥感图像字幕生成

KhangTruong,LamPham,HieuTang,JasminLampert,MartinBoyer,SonPhan,TruongNguyen

Abstract—图像字幕生成已成为计算机视觉和自然语言不依赖预训练模型,第二组[5],[6],[7],[8],[9],

处理交叉领域中的关键任务,能够从视觉内容自动生成描述性[11]专注于探索网络架构的进步,这表明有潜力提高

文本。在遥感的背景下,图像字幕生成在解释大量的复杂卫星

模型性能。例如,在[5]中提出的模型探讨了在编码器

图像方面发挥着重要作用,有助于环境监测、灾害评估和城市

规划等应用。这促使我们在本文中提出一种基于变换器的网络组件中使用基于CNN的网络以捕捉遥感图像的局部

架构用于遥感图像字幕生成(RSIC),其中对静态扩展、记忆和全局特征。同样,在[9]中提出了一种基于CNN的

增强自注意力和网格变换器等多种技术进行了评估和集成。我架构,以捕捉多尺度上下文特征。同时,[8],[7],[11]致

本们使用UCM-Caption和NWPU-Caption两个基准遥感

力于构建创新的关注层,以有效捕获来自遥感图像的

译图像数据集来评估我们的模型。我们的最佳模型在大多数评价不同特征。

指标上优于现有的最先进系统,这表明其具有应用于实际遥感

中图像系统的潜力。尽管最近发布的用于RSIC任务的模型已经取得

1项目—视觉语言,遥感图像,图像字幕生成,变压器。了令人鼓舞的表现,但这些模型主要基于编码器-解码

v

5I.介绍器架构构建,特别是传统的基于变压器的网络。这促使

4

8遥感技术的快速发展导致了大量的卫星图像积我们评估近期创新的变压器架构,以进一步提高RSIC

2累,为地球观测和分析提供了机会。然而,从遥感图任务的表现潜力。换句话说,我们的灵感来自第二种

1

7.像中有效解释并提取有意义的信息仍然是一个具有挑方法,专注于探索创新型和先进的网络架构来构建有

0战性的任务。遥感图像字幕生成旨在自动从图像中生效的RSIC任务模型。具体来说,三种技术——Mesh

5

2成描述性文本信息,已成为弥合视觉数据与人类理解Transformer[12](MeshTrans.)、Memory-Augmented

:

v之间差距的一个有前景的解决方案。近年来,在基于Attention(Mem.Att.)[12]和StaticExpansion(Stat.

i

x变换器架构的深度学习模型的发展下,遥感图像字幕Exp.)[13]被评估并整合到我们提出的模型中。所提出

r

a生成领域取得了显著进展。确实,各种深度学习模型的模型在UCM-Caption[14]和NWPU-Caption[1]两

如[1],[2],[3],[4],[5],[6],[7],[8],[9],[10],[11]已经在遥感图个基准数据集上进行了评估,并与最先进的模型进行

像字幕生成(RSIC)任务中被提出并展现了显著的成了比较。

功。这些网络架构可以分为两大类。第一类[2],[3],[4]

II.提议的基于Transformer的网络架构

采用了在大规模图像数据集上预训练的模型。然后在

遥感图像的目标数据集上对这些模型进行微调。换句提出的网络的高层架构如图1所示,包括4个主

话说,这种方法利用了迁移学习技术来减少训练时间要组件:基于CNN的主干、词嵌入、编码器和解码

和网络构建的成本,但仍能达到潜在的强大和具有竞器。特别是,输入图像首先被送入基于CNN的主

争力的模型。然而,这

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档