- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于空间的解释在视觉-语言模型中的文档视觉问答
任务中的应用
MaximilianoHormazábal(),HéctorCerezo-Costas,and
DimosthenisKaratzas
ComputerVisionCenter,UniversitatAutònomadeBarcelona,Spain
{mhormazabal,dimos}@cvc.uab.es
Gradiant,Vigo,Galicia,Spain
hcerezo@
本
译摘要我们介绍了EaGERS,一个完全无需训练且模型无关的流水线,该
中管道(1)通过视觉语言模型生成自然语言解释,(2)通过在可配置网格上
1计算多模态嵌入相似性并采用多数投票来将这些解释定位到空间子区域,
v以及(3)仅从被选中的遮罩图像的相关区域中生成响应。
0
9在DocVQA数据集上的实验表明,我们最佳的配置不仅在精确匹配准确
4率和平均归一化Levenshtein相似度指标上超越了基础模型,而且还在无
2需额外模型微调的情况下提升了DocVQA的透明度和可重复性。代码可
1
.在以下位置获取:/maxhormazabal/EaGERS-DVQA
7
0
5Keywords:文档智能·视觉问答·多模态推理·可解释性
2
:
v
i
x1介绍
r
a
文档视觉问答(DocVQA)随着结合OCR、布局建模和领域适应的Trans-
former方法而迅速发展[1,7,4,14]。同时,通用视觉语言模型(VLMs)[19,11,8]
在没有明确的DocVQA训练情况下实现了强大的文档理解能力。
将现成的视觉语言模型部署到企业管道中通常涉及昂贵的微调、不稳定
的提示工程以及答案与源区域之间缺乏明确关联的问题[21]。为了解决这些
问题,我们引入了基于解释的区域选择(EaGERS),这是一个完全不受模
型影响且无需训练的DocVQA管道。该管道能够(i)生成自然语言解释,
(ii)通过多模态嵌入相似性和多数投票在可配置网格上选择顶级子区域,并
(iii)对掩码图像重新查询模型,从而确保答案仅源自那些经过验证的区域,
保证透明度和可重复性且无需额外的模型训练。
2M.Hormazábaletal.
我们解决的问题是:如何确保答案仅能从明确关联和表述的文档区域中
重建,而无需对VLM进行任何额外训练。
本工作的主要贡献是:
1.EaGERS:一个完全模型不可知且无需训练的DocVQA管道,能够使用
通用多模态模型生成对遮罩文档图像的答案。
2.文本解释与视觉遮罩的集成有助于推理的可追溯性和可解释性。
2相关工作
2.1文档视觉问答
近年来,DocVQA系统在DocVQA数据集[12]上取得了坚实的基础线,
一些方法结合了OC
您可能关注的文档
- 于将矩阵分解为正定矩阵乘积的问题-计算机科学-机器学习-矩阵分解-梯度流控制-算法.pdf
- 心理意象能否提高 AI 系统的思维能力?-计算机科学-大语言模型-机器思维-心理图像-推理.pdf
- 通过使用 Raspberry Pi Zero 2 W 的硬件编码器实现视频监控功能-计算机科学-单板计算机-图像和视频编码-监控.pdf
- 量子迁移学习以提升痴呆症检测效果-计算机科学-量子机器学习-量子迁移学习-生物医学图像分类.pdf
- 人工智能驱动的数学辅导:个性化和适应性教育平台-计算机科学-人工智能-多智能体系统-大语言模型-教学系统-个性化学习.pdf
- 剧本杀行业2025年西北区域市场差异化品牌推广策略分析.docx
- 剧本杀行业人才培训体系构建与行业人才需求对接报告.docx
- 剧本杀行业人才培训市场前景预测与分析报告.docx
- 剧本杀行业人才培训市场潜力与竞争格局分析.docx
- 剧本杀行业人才培训行业报告:2025年创新人才培养路径解析.docx
- 半导体材料性能提升技术突破与应用案例分析报告.docx
- 半导体设备国产化政策支持下的关键技术突破与应用前景报告.docx
- 剧本杀市场2025年区域扩张策略研究报告.docx
- 剧本杀行业2025人才培训体系构建中的市场需求与供给分析.docx
- 剧本杀行业2025年人才培训行业人才培养模式创新与探索.docx
- 剧本杀行业2025年内容创作人才需求报告.docx
- 剧本杀行业2025年区域市场区域剧本市场消费者满意度与市场竞争力研究报告.docx
- 剧本杀市场2025年区域竞争态势下的区域合作策略分析报告.docx
- 剧本杀行业2025人才培训与行业人才培养模式创新.docx
- 剧本杀行业剧本创作人才心理素质培养报告.docx
文档评论(0)