多模态人工智能在胃肠诊断中的应用：解决 MEDVQA-GI 2025 中的视觉问答问题-计算机科学-医学视觉问答-多模态人工智能.pdfVIP

下载本文档

0
0
约1.94万字
约 16页
2025-07-28 发布于中国
举报
版权申诉

多模态人工智能在胃肠诊断中的应用：解决 MEDVQA-GI 2025 中的视觉问答问题-计算机科学-医学视觉问答-多模态人工智能.pdf

此“医疗卫生”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共16页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多模态人工智能在胃肠诊断中的应用：解决

MEDVQA-GI2025中的视觉问答问题

112

SujataGaihre,AmirThapaMagar,PrasunaPokharel,and

LaxmiTiwari3

本1NCIT,Nepal

译2Fusemachine,Nepal

中3LogictronixTechnologies,Nepal

4摘要

4本文描述了我们对ImageCLEFmedMEDVQA2025挑战赛子任务1

.的方法，该任务旨在解决胃肠内镜的视觉问题回答（VQA）。我们采用佛罗

7伦萨模型——一个大规模多模态基础模型——作为我们的VQA管道的核

5心，将强大的视觉编码器与文本编码器配对以解释内窥镜图像并生成临床

2相关的答案。为了提高泛化能力，我们应用了特定领域的增强技术，在增

v加训练多样性的同时保留医学特征。在KASVIR数据集上的实验表明，微

x调佛罗伦萨模型可获得官方挑战度量的准确响应。我们的结果突显了大规

a模多模态模型在医疗VQA中的潜力，并为未来的工作提供了强有力的基

线，特别是在解释性、鲁棒性和临床整合方面。代码可在以下位置公开获取：

/TiwariLaxuu/VQA-Florence.git。

关键词：医学视觉问答，ImageCLEFmed2025，多模态人工智能，临床问

题解答

1介绍

早期胃肠疾病（GI）的检测和治疗依赖于对内镜图像的准确解释。深度

学习的必威体育精装版进展为自动化这一分析提供了有希望的解决方案，使及时且可

靠的诊断成为可能。视觉问答（VQA）通过将图像理解与自然语言查询相结

合，进一步增强了这些系统，提供可操作的临床见解[7,8]。合成图像生成

也发挥了关键作用，通过扩展训练数据而无需大量手动标注。

ImageCLEFmedMEDVQA2025挑战赛鼓励该领域的进步，其中子任

务1专门针对消化内镜的视觉问答。我们提出了一种可重复使用的流程，利

用多模态基础模型来回答与临床相关的问题。我们的方法表明，精心设计的

数据增强和简化的微调可以产生准确的结果，并且对研究社区保持易用性。

2相关工作

VQA在过去十年中有了显著的发展，越来越重视减少数据集偏差并确

保答案具有视觉依据[23]。早期的VQA模型通过利用问题中的统计模式表

现出高性能，而不是真正解释图像的内容——这在将此类模型应用于医学

诊断等敏感领域时是一个关键缺陷。

医学视觉问答（Med-VQA）随着计算机视觉和自然语言处理的进步而

迅速发展。传统的Med-VQA方法包括模态集成视觉特征（MEVF），该方

法整合了跨模式的视觉线索，结合双线性注意力网络（BAN），这是一种使

用低秩双线性池化建模图像-问题互动的技术。条件推理（CR）[24]，以及

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

多模态人工智能在胃肠诊断中的应用：解决 MEDVQA-GI 2025 中的视觉问答问题-计算机科学-医学视觉问答-多模态人工智能.pdfVIP