- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
HW-MLVQA:阐明多语言手写文档理解的综合视觉问答基
准测试附录
AniketPal,AjoyMondal,MineshMathew,C.V.Jawahar
CVIT,IIITHyderabad.
*Correspondingauthor(s).E-mail(s):aniket.pal@research.iiit.ac.in;
Contributingauthors:ajoy.mondal@iiit.ac.in;minesh.mathew@;
jawahar@iiit.ac.in;
本
摘要
译多语言视觉问答(MLVQA)基准的增多增强了大型语言模型(LLMs)和多模态LLMs的能力,从而使它
中们能够熟练地捕捉到不同语言中固有的复杂语言细微之处和视觉复杂性。尽管具有潜力,当前的MLVQA
模型在处理广泛的handwriting文档时难以充分利用其能力。本文概述了硬件-多选视觉问答,这是一个
1精心设计的前沿VQA基准,旨在缓解多语言手写文档理解的匮乏问题。硬件多选视觉问题回答包含了
v一个庞大的1,600页手写内容集合,并附带2,400问题答案。此外,它提供了一个涵盖三种不同的模
5式:文本、图像以及集成的图文模式的强大基准评估框架。为了模拟没有地面真实文本转录的真实世界
5情境,我们实现了一种严格的专有和开源的OCR模型测试方法。该基准旨在促进多语言手写文档解释的
6
5关键进展,在这个专业化领域内推动创新和学术研究。
1
.Keywords:多语言的、手写的、基准、自然语言处理(NLP)、问答、文档理解。
7
0
5
2
:1介绍为了减轻视觉语言任务中固有的语言障碍,
v
i多语言视觉问答(ML-VQA)[3–5]被提出,从
x在当今时代,视觉问答(VQA)领域[1,2]
r而促进模型理解并回答用多种语言表述的问题。
a已经取得了显著的进步,这得益于对能够通过
例如,Deepak等人士。[6]开创了一个创新的数
自然语言识别和参与视觉内容的方法日益增长据集,该数据集涵盖了英语和印地语的代码混
的需求。作为一种本质上跨学科的倡议,VQA合视觉问答(VQA)。当代的进步催生了具有精
结合了计算机视觉和自然语言处理来解释并回细标注协议的数据集[3,4],从而增强了VQA
应关于视觉刺激的问题。尽管有了这些发展,但系统的功能和适用性。此外,Nguyen等人。[5]
仍存在一个主要限制,即现有的VQA框架主要将VQA研究范围扩大到了包括越南语和日语
服务于键入的文本输入,并且局限于单语言支等语言学上代表性不足的语言。
持,因此产生了两个障碍导致可访问性的显著在处理多种手写复杂性问题时,提出了手
差异:一是多语言问题,二是解读复杂手写格写VQA任务[7]以促进对手写文档的解释,强
式的内容。
1
调复杂的和各种手写风格。两个新数据
您可能关注的文档
- 关于反对降级信道的私密性和量子容量的强大反向界-计算机科学-机器学习-量子信道-算法.pdf
- 传感器:一种协 Efficient 操作源流监控平台-计算机科学-开源-流监控架构.pdf
- 面向共享出行系统中的可解释异常检测-计算机科学-共享出行-异常检测-可解释人工智能.pdf
- 利用上下文进行政治辩论中的多模态谬误分类-计算机科学-多模态论证挖掘-机器学习.pdf
- 通过彩票假设揭示深度伪造检测的关键特征-计算机科学-深度伪造技术-生成式 AI.pdf
- 优化人体接触运动演示中的力信号-计算机科学-机器人编程-人机交互.pdf
- 2025年基因治疗临床试验监管政策对临床试验行业可持续发展战略的影响报告.docx
- 2025年基因治疗临床试验监管:挑战与应对策略研究.docx
- 2025年基因治疗临床试验监管政策对临床试验数据管理的影响.docx
- 2025年基因治疗临床试验监管法规对药物研发的影响.docx
- 水电项目施工安全监管与事故预防分析报告.docx
- 汽车产业2025年芯片短缺应对策略与汽车美容养护市场法规解读报告.docx
- 汽车产业2025年芯片短缺应对策略与汽车用品市场分析报告.docx
- 汽车与交通设备行业汽车安全气囊技术发展趋势分析报告.docx
- 汽车与交通设备行业智能交通管理系统市场发展趋势研究报告.docx
- 汽车产业2025年芯片短缺应对策略与汽车行业产业链协同竞争力研究报告.docx
- 汽车共享平台安全风险防控:2025年用户行为与法规研究.docx
- 汽车与交通设备行业智能驾驶系统法规标准解读与应用报告.docx
- 水电设备制造企业2025年发展趋势与大型水电项目投资风险评估报告.docx
- 汽车与交通设备行业智能交通管理系统解决方案报告.docx
文档评论(0)