低资源语言的零样本 OCR 准确性:僧加罗语和泰米尔语的比较分析-计算机科学-机器学习-光学字符识别.pdfVIP

低资源语言的零样本 OCR 准确性:僧加罗语和泰米尔语的比较分析-计算机科学-机器学习-光学字符识别.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

低资源语言的零样本OCR准确性:僧加罗语和泰米尔语的比较分析

NeviduJayatillekeandNisansadeSilva

DepartmentofComputerScienceEngineering

UniversityofMoratuwa

SriLanka

{nevidu.25,NisansaDdS}@cse.mrt.ac.lk

Abstract中提取有价值的数据,例如表格、收据、发票和

护照。历史上,OCR(连同文本转语音系统)是

解决针对拉丁字母及其衍生脚本的印刷文

为了帮助盲人或残疾人而创建的,通过使机器

本光学字符识别(OCR)问题现在可以被

认为已经得到了解决,这是由于对英语和能够大声朗读书面文字来提供便利,这一发展

其他高资源语言(HRL)进行了大量研究。可以追溯到1914年~(MittalandGarg,2020)。

本然而,对于使用独特脚本的低资源语言OCR过程通常涉及多个步骤:1)首先是

译(LRL),这仍然是一个开放性问题。这项图像采集,捕获图像。2)接下来是预处理,这

中研究提出了对六种不同OCR引擎在两种一步骤增强了图像质量,并包括二值化以将内

1LRL上的零样本性能进行比较分析:僧伽容与背景分开。3)随后是版面分析,文档被

v罗语和泰米尔语。所选引擎包括商业系统划分为不同的区域。4)下一步是字符级分割,

4

6和开源系统,旨在评估每个类别的优势。将文本分解为行、词和单个字符。5)识别步骤

2CloudVisionAPI、Surya、DocumentAI

8涉及特征提取和分类来识别字符。6)最后,后

1和Tesseract对这两种语言进行了评估,而

.处理改进结果,通常使用语言模型。这些阶段

7SubasaOCR和EasyOCR仅对一种语言

0进行了评估,因为它们存在局限性。这些对于有效的OCR性能至关重要(Jainetal.,

5

2系统的性能使用五种测量技术进行了严格2021;Nazeemetal.,2024)。

:

v分析,以评估字符和单词级别的准确性。虽然OCR系统已经取得了显著进展,特

i

x根据研究结果,对于僧伽罗语,Surya在别是在高资源语言(如英语和法语(Nazeem

r

a

所有指标中表现最佳,其WER为2.61%。etal.,2024))中,但从复杂或低质量图像、历

相反,DocumentAI在泰米尔语的所有指史文档以及低资源语言中识别文本仍然存在挑

标中表现出色,特别体现在极低的CER战(AgarwalandAnastasopoulos,2024)。在这

(0.78%)上。除了上述分析外,我们还介

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档