通过多模态推理和集成建模提升科学视觉问答能力-计算机科学-视觉语言模型-提示优化-视觉问答.pdf

通过多模态推理和集成建模提升科学视觉问答能力-计算机科学-视觉语言模型-提示优化-视觉问答.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

通过多模态推理和集成建模提升科学视觉问答能力

PrahithaMovvaNagaHarshitaMarupaka

UniversityofMassachusettsAmherstUniversityofSouthernCalifornia

Amherst,MA,USALosAngeles,CA,USA

prahitha.movva03@nagaharshitamarupaka@

Abstract视觉问答(VQA)在科学图形上的任务提

出了独特的挑战,这些挑战使其区别于通用领

技术报告和文章通常包含以半结构化数据域的VQA。科学可视化需要数学精度,通常要

形式呈现的有价值信息,如图表。解释这

求精确的数值提取和计算。它们涉及跨多个视

些信息并使用其中的数据对于下游任务

觉元素的复杂组合推理,并且经常包含需要专

(例如问答系统)至关重要。当前针对视

本觉问答的方法在处理科学数据解释所需的门理解的领域特定惯例、符号和表示(Ishmam

译精度方面经常遇到困难,特别是在处理数etal.,2024)。此外,科学图形通常嵌入多层信

值、多步骤推理以及保持视觉观察与文本息,包括原始数据点、派生趋势、统计关系和

中推理之间的一致性时。我们介绍了我们在比较分析。

1SciVQA2025共享任务中的方法,重点是

v当前的VQA模型虽然在通用数据集上表

3回答基于学术文章中科学图表的视觉和非

8视觉问题。现出色,但在科学应用所需的精确度和推理深

1度方面常常遇到困难(Kabiretal.,2024)。常见

6

0.我们使用参数量从5B到8B的模型进的故障模式包括视觉定位错误,即模型误解图

7行了一系列实验。我们的最强单个模

0型InternVL3在SciVQA测试集上达到了表元素或比例尺;组合推理失败,即多步骤逻

5辑过程崩溃;以及视觉观察与文本解释之间的

2ROUGE-1和ROUGE-LF1分数为0.740,

:BERTScore为0.983。我们也开发了一个包一致性问题(Tanjimetal.,2025;Thawakaretal.,

v

i

x含多个视觉语言模型(VLM)的集成模型。2025)。

r

a通过对验证集进行错误分析,我们的集成本文介绍了我们对SciVQA共享任务12

方法提高了性能,尽管InternVL3仍然是最

(Borisovaetal.,2025)的方法,重点是关于科

强的单一模型。我们的发现强调了提示优

学可视

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档