- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
OCR:如何把扫描版pdf转变成文字版?
2011-07-31 11:28:39
我经常在阅读扫描格式pdf的时候,把它们抓取为文字格式,当然得是好书。可能有朋友不清楚ocr,它就是把文字从图像中识别抓取出来。文字版pdf的好处就是便于传播、引用,视觉上清晰,具有更大的处理空间,乃至可以二次制作,比如出于手机什么的阅读需要。但是,ocr过程中的文字识别率不会是100%,需要进一步校对,所以在这个意义上粗制滥造的文字版pdf还不如扫描原版的价值。
我分享自己的一点ocr经验,也是想更多的朋友制作文字版好书,也因为很多的朋友不熟悉ocr。
ocr软件很多,这里只根据自己的经验进行推荐,而忽略其他。
首先说单页pdf的ocr
这种单张图片式的文字抓取我强烈推荐JOCR。JOCR的优点是免费绿色轻量(绿色就是不需要安装),体积小到几乎不可思议的不到100kb。然后不可想象的是,这么小的软件其识别率还非常高,而且可以抓取20多种语言,包括中文繁体,夫复何求。
JOCR(原版、汉化版、使用说明、MODI及“繁体中文识别”文件)下载:
/s/uImX
网路上有汉化版,其实不必。它常用功能很简单,一般就是第一步“Capture Region(选取需要ocr的区域)”,然后在语言框选择语言,最后“Recognize(识别)”,于是就为你蹦出一个txt文本,接下去你还可以就着这文本进行校对。
注意:
1、要成功使用JOCR,首先得保证在安装office时选择了“完整”安装选项,因为JOCR的运转是依托于Microsoft Office Document Imaging (MODI,中文OCR辨识引擎)的。Office 2003的缺省安装是第一次使用MODI时安装,Office 2007的缺省安装是不装,都需要自己主动安装一下。如果你没有完整安装office,也可以只是再安装一下MODI,微软官方有下载。
2、如果需要抓取繁体,而你使用的是简体windows系统(即比如安装的是简体中文Office 2003),那么请将下列“繁体中文识别”文件复制到C:\Program Files\Common Files\Microsoft Shared\MODI\11.0
TCCODE.UNI
TCPRINT.DAT
TCPRINT2.DAT
TCSERHT.DAT
TCTREE.DAT
TW_BU.DAT
TW_UB.DAT
TWBIG532.DLL
然后双击reg文件导入注册表,ok。注意,导入注册表时必须先关闭所有MODI窗口。
此时,在MODI的OCR选项卡里,“OCR语言”中即可看到“中文(繁体)”,也就是说依托MODI运作的ocr软件具有了繁体识别功能。
或许你要问,JOCR的使用特别是繁体不免麻烦了一点点。我的回答是,推荐JOCR正是因为它要利用到MODI及其繁体识别功能。一般的ocr软件往往对繁体无措或者效果不如意,而微软MODI的效果非常的理想,我上一篇日记《马克思——披上科学外衣的诗人革命家》用的就是它,几乎就没有改正几个字(原文是竖排的)。所以说磨刀不误砍柴工,而且是微软自带的,省事省心。
然后说pdf批量ocr
一本pdf格式的书籍有很多页,自然要用批量才行。一般认为最强大的专业ocr软件是ABBYY FineReader,“世界排名第一的OCR文字识别工具”是也。ABBYY FineReader不依托MODI运作,不免费体积也很庞大,不过微软免费的MODI才5M多一点点。一个好状况是,热心的网友已经制作了中文绿色版,见“最好的OCR识别软件:ABBYY FineReader中文绿色版”/abbyy-finereader/。我自己比较ABBYY FineReader与MODI的效果,个人觉得MODI略胜一筹(主要在文字识别率上),至少难分上下。MODI抓取的结果只是文字,没有字体版式啥的,而ABBYY FineReader貌似有还原版面的追求,所以可能反而把问题复杂化(特别是在word中作修改可能叫你崩溃,当然你需要版面什么的另当别论)。
所以有鉴于此而推荐采用微软自带的MODI。
MODI的一般使用方法是:在打开的pdf文档“文件”-“打印”-“名称”中选择“microsoft office
您可能关注的文档
- 如何利用引言来设计版面.doc
- 如何利用网络检索学术资料.doc
- 如何制作个人简历.doc
- 如何办手抄报(附步骤).doc
- 如何去除PDF的水印【9种方法总结】.doc
- 如何向产品经理汇报工作-高效产品开发管哩.doc
- 如何在AutoCAD中求解冲裁压力中心.doc
- 如何在win7窗口下打XP程序.doc
- 如何在民营企业推行品质管理.doc
- 如何在高考达到最佳状态.doc
- 首发经济的驱动逻辑与市场响应.pdf
- 区域市场一体化与企业数字化转型.pdf
- 未知空间权重矩阵及固定效应下空间自回归模型估计——以两层次市场发展格局为例.pdf
- 2025年中国商业十大热点发布 消费市场稳定向好增长.pdf
- 轮船航运与市场整合——来自晚清中国的证据.pdf
- 统一大市场与产业政策转型——基于演化博弈的视角.pdf
- 区域市场一体化提高了制造业企业竞争力吗——来自长三角地区地理断点回归的经验证据.pdf
- 数字经济对全国统一农产品大市场的影响效应分析.pdf
- 电力市场化改革与全国统一碳市场建设关联协调发展的研究探索——基于交叉补贴和价格传导的双重视角.pdf
- 统一市场建设、数字经济与共同富裕.pdf
文档评论(0)