- 1、本文档共11页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
通过多模态推理和集成建模提升科学视觉问答能力
PrahithaMovvaNagaHarshitaMarupaka
UniversityofMassachusettsAmherstUniversityofSouthernCalifornia
Amherst,MA,USALosAngeles,CA,USA
prahitha.movva03@nagaharshitamarupaka@
Abstract视觉问答(VQA)在科学图形上的任务提
出了独特的挑战,这些挑战使其区别于通用领
技术报告和文章通常包含以半结构化数据域的VQA。科学可视化需要数学精度,通常要
形式呈现的有价值信息,如图表。解释这
求精确的数值提取和计算。它们涉及跨多个视
些信息并使用其中的数据对于下游任务
觉元素的复杂组合推理,并且经常包含需要专
(例如问答系统)至关重要。当前针对视
本觉问答的方法在处理科学数据解释所需的门理解的领域特定惯例、符号和表示(Ishmam
译精度方面经常遇到困难,特别是在处理数etal.,2024)。此外,科学图形通常嵌入多层信
值、多步骤推理以及保持视觉观察与文本息,包括原始数据点、派生趋势、统计关系和
中推理之间的一致性时。我们介绍了我们在比较分析。
1SciVQA2025共享任务中的方法,重点是
v当前的VQA模型虽然在通用数据集上表
3回答基于学术文章中科学图表的视觉和非
8视觉问题。现出色,但在科学应用所需的精确度和推理深
1度方面常常遇到困难(Kabiretal.,2024)。常见
6
0.我们使用参数量从5B到8B的模型进的故障模式包括视觉定位错误,即模型误解图
7行了一系列实验。我们的最强单个模
0型InternVL3在SciVQA测试集上达到了表元素或比例尺;组合推理失败,即多步骤逻
5辑过程崩溃;以及视觉观察与文本解释之间的
2ROUGE-1和ROUGE-LF1分数为0.740,
:BERTScore为0.983。我们也开发了一个包一致性问题(Tanjimetal.,2025;Thawakaretal.,
v
i
x含多个视觉语言模型(VLM)的集成模型。2025)。
r
a通过对验证集进行错误分析,我们的集成本文介绍了我们对SciVQA共享任务12
方法提高了性能,尽管InternVL3仍然是最
(Borisovaetal.,2025)的方法,重点是关于科
强的单一模型。我们的发现强调了提示优
学可视
您可能关注的文档
- UQLM:一个用于大型语言模型中不确定性量化的大括号 Python 软件包-计算机科学-大语言模型-不确定性量化-幻觉检测-人工智能安全.pdf
- DS@GT 在 CheckThat! 2025 中:评估数值事实验证的上 下文和分词策略 CheckThat! 实验室在 CLEF 2025 的笔记本检查笔记-计算机科学-机器学习-自动事实核查系统.pdf
- 身份并非一切——人口统计能多大程度上决定自我认定的政党认同?-计算机科学-人口统计学-政党认同.pdf
- DS@GT 在 CheckThat! 中 2025: 通过迁移学习和纠正性 数据增强检测主观性 CheckThat! 实验室在 CLEF 2025 的笔记本检查笔记-计算机科学-主观性检测-迁移学习.pdf
- 一种优化可微逻辑门网络中连接的方法-计算机科学-计算机科学-人工智能-反向传播-神经网络硬件-类脑计算.pdf
- 一种定向懒惰随机游走模型在三向动态匹配问题中的应用-计算机科学-机器学习-动态匹配-算法.pdf
- 关于提示调优的调查-计算机科学-大语言模型-提示调优.pdf
- 通过多模态融合和端到端配准增强合成 CT 来自 CBCT-计算机科学-计算机断层扫描-多模态学习-深度学习.pdf
- 实用设计与性能评估使用磁滞的物理水库计算-计算机科学-计算资源-机器学习.pdf
- SCCRUB: 表面清洁合规机器人利用刷毛技术-计算机科学-人工智能-软体机器人.pdf
文档评论(0)