- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六次华北地区档案学会学术讨论会论文集
浅析汉字识别技术在档案管理中的应用
特古斯朝克图
内容摘要汉字识别技术在档案管理工作和办公自动化的应
用是不可忽略的。汉字识别技术的应用价值和方式,根据目前的
技术水平主要适用于近几十年来印刷汉字档案内容的识别、图像、
文本数据的形成,存储和目录数的录入等项技术。
一、汉字识别技术的应用价值
汉字识别技术(简称OCR)可以理解为是让计算机认字的技
术。它通过光电信号转换,即文本数据。汉字识别技术的应用价
值主要体现在两个方面:
(一)把纸质档案的固定信息变成可以被检索利用的活信息,
为文本数据管理技术提供丰富的数据源
首先,从库存档案的情况来看,近几十年来形成的大量印刷汉
字档案记载了党和国家的重要历史信息资源,对我国现代化事业
的发展、精神文明和物质文明的建设都有着非常重要的利用价值。
但这部分档案的内容都没有文本数据,或者说是固定在纸质载体
上的死信息。即使通过扫描以图像方式存储:于计算机中,检索利
用也有不便之处,难以满足现代化社会对档案信息的多种利用需
求。其次,从办公自动化的发展趋势来看,每年接收的档案中仍然
会有相当数量的档案没有文本文件,或为外单位来文,或丢失损坏
等。汉字识别技术的应用价值就是使这两大部分纸质档案固定信
息变成可以被检索利用的活信息,为全文检索提供数据,使深层次
一】64—
第二部分档案资源与档案信息化建设
的开发利用成为可能,更好地为现代化建设事业服务。
(二)提供一种新的档案目录数据的录入方式
应用计算机以来,汉字录入只有一种方式,即键盘录入。虽然
目前汉字键盘录人的方法有许多种,而且日趋简便快捷,已是年轻
人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵
敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档
案部门占有相当比例的中老年人员来说,掌握起来确有难度。因
此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数
据库的因素之一。OCR软件为我们提供了一条新的途径。它通
过“拖拉”的方式,将屏幕上文件的目录项,如标题、文号、责任者
等直接移植到档案目录数据库的相应字段中,简单易学,一看就
会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图
像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入
员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录
信息数据库提供了一条前所未有的途径。如果利用OCR软件同
时建立新型的综合档案信息数据库,例如包括档案的文件目录、图
像和文本等,效果就比较理想了。 、
二、汉字识别后生成的文本数据的属性问题
原始性是档案的基本属性。汉字识别后生成的文本数据是根
据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处
理:即扫描、识别、校对、修改等工序后形成的复制加工品,因此不
具有档案的原始性。
知识性是档案的又一个属性。汉字识别后生成的文本数据如
果不计算人工校对后仍然可能存在的微小误差,应该说具有与档
案原件同等的内容,因此具有档案的知识性。 、
汉字识别后生成的文本数据是将档案的内容以特殊的物理方
式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体
之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属
一165—
第六次华北地区档案学会学术讨论会论文集
性。因此具有更强的信息性。
汉字识别后生成的文本数据应该说,它是一种新型的档案一
次信息的复制品或开发的编研成果。但作为一种新型的复制品或
开发的编研成果,因其生成的目的不同,又具有两种不同的属性;
当以提供利用为目的通过汉字识别建立文本数据库时,其文本数
据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的
档案编研成果,如大事记、组织机构沿革、文件汇编等为目的进行
汉字识别时j其文本数据不仅具有类似于档案编研成果的属性,而
且具有档案原始性的基本属性,因为它们是印刷品或出版物的本
源信息。
您可能关注的文档
最近下载
- 吞咽障碍护理的ppt课件.pptx VIP
- PROTEUS-V8中文版介绍.ppt VIP
- 精准落实语文要素五策略 .pdf VIP
- 《第一单元 100以内数加与减(二)——图书角》教学设计-2024-2025学年二年级上册数学北师大版.docx VIP
- 中枢神经系统感染护理查房.ppt VIP
- 标准图集-20S515-钢筋混凝土及砖砌排水检查井.pdf VIP
- 规范、标准整理:TCSUS 17-2021 古道保护利用规划编制导则--------工程交流群加vx:gqq5616.pdf VIP
- 在2024年全市第四季度“12345”热线不满意工单分析研判会上的主持词.docx VIP
- 云南省重大项目办公室 云南省各地州市2015年重大建设项目.doc VIP
- 评标专家评标流程.pdf VIP
文档评论(0)