门控递归融合:一种可扩展多模态变压器的状态化方法-计算机科学-多模态学习-神经网络-算法.pdfVIP

门控递归融合:一种可扩展多模态变压器的状态化方法-计算机科学-多模态学习-神经网络-算法.pdf

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

门控递归融合:一种可扩展多模态变压器的

状态化方法

YusufShihata

yusufshihata2006@

/yushi2006/GRF

译2025年7月10日

1摘要

v

5多模态学习面临着深度细粒度融合与计算可扩展性之间的基本矛盾。虽

8然交叉注意力模型通过详尽的成对融合实现了强大的性能,但它们的二次

9

2复杂性对于具有许多模态的情况是不可行的。我们采用带门控的递归融合

0(GRF)来解决这一挑战,这是一种新颖的架构,在线性可扩展的递归管道中

.

7捕捉跨模态注意力的能力。我们的方法按顺序处理模态,并在每一步更新一

0

5个不断演变的多模态上下文向量。我们方法的核心是一个基于Transformer

2解码器层的融合块,它执行对称交叉注意力,相互丰富共享的上下文和传

:

v入的模态。这些丰富的信息随后通过门控融合单元(GFU)—一种类似于

iGRU的机制动态仲裁信息流,使模型能够有选择地保留或丢弃特征。这种

x

r有状态的递归设计与模态数量成线性关系,使其非常适合高模态环

a

境。在CMU-MOSI基准上的实验表明,GRF相比更复杂的基线实现了具

有竞争力的表现。嵌入空间的可视化进一步说明了通过其渐进式融合机制,

GRF创造了结构化的、类可分离表示。我们的工作展示了一种强大且高效

的多模态表示学习范例。

1介绍

现代多模态系统越来越多地依赖于Transformer架构,因其能够出色地

建模跨模态和单模态之间的依赖关系。一种主导设计,例如MulT[Tsaietal.,

2019]模型所示,在所有模态对之间执行成对交叉注意力,形成一个完全连

接的融合图。虽然这种全面的融合带来了强大的性能,但其二次复杂性—在

1

模态数量上的—造成了严重的可扩展瓶颈,使其不适用于具有大量输

入流的实际应用,如机器人技术、自动驾驶或健康监测。

这提出了一个关键问题:我们能否在不产生二次成本的情况下实现交

叉注意力的细粒度交互?在这项工作中,我们论证了全面的成对融合不仅效

率低下,而且可能是不必要的。我们提出了一种新的融合流水线门控递归融

合(GRF),它通过递归的状态传递机制顺序地建模模式。而不是计算所有

成对注意力,GRF维护并逐步细化一个共享的多模态上下文向量,一次更

新一种模式。这种方法从根本上改变了复杂性,产生了一个线性的融

合成本。

GRF的核心是一个两阶段融合块:一个解码器风格的Transformer模

块,它在上下文和新模态之间启用对称交叉注意力,接着是一个轻量级但强

大的门控机制,即门控融合单元(GFU)。受门控循环单元(GRUs)启发,

GFU充当了一个学习仲裁者,动态控制是否保留、覆盖或融合新模态的信

息到正在演变的上下文中。这为模型提供

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档