浅析汉字识别技术在档案管理应用.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六次华北地区档案学会学术讨论会论文集 浅析汉字识别技术在档案管理中的应用 特古斯朝克图 内容摘要汉字识别技术在档案管理工作和办公自动化的应 用是不可忽略的。汉字识别技术的应用价值和方式,根据目前的 技术水平主要适用于近几十年来印刷汉字档案内容的识别、图像、 文本数据的形成,存储和目录数的录入等项技术。 一、汉字识别技术的应用价值 汉字识别技术(简称OCR)可以理解为是让计算机认字的技 术。它通过光电信号转换,即文本数据。汉字识别技术的应用价 值主要体现在两个方面: (一)把纸质档案的固定信息变成可以被检索利用的活信息, 为文本数据管理技术提供丰富的数据源 首先,从库存档案的情况来看,近几十年来形成的大量印刷汉 字档案记载了党和国家的重要历史信息资源,对我国现代化事业 的发展、精神文明和物质文明的建设都有着非常重要的利用价值。 但这部分档案的内容都没有文本数据,或者说是固定在纸质载体 上的死信息。即使通过扫描以图像方式存储:于计算机中,检索利 用也有不便之处,难以满足现代化社会对档案信息的多种利用需 求。其次,从办公自动化的发展趋势来看,每年接收的档案中仍然 会有相当数量的档案没有文本文件,或为外单位来文,或丢失损坏 等。汉字识别技术的应用价值就是使这两大部分纸质档案固定信 息变成可以被检索利用的活信息,为全文检索提供数据,使深层次 一】64— 第二部分档案资源与档案信息化建设 的开发利用成为可能,更好地为现代化建设事业服务。 (二)提供一种新的档案目录数据的录入方式 应用计算机以来,汉字录入只有一种方式,即键盘录入。虽然 目前汉字键盘录人的方法有许多种,而且日趋简便快捷,已是年轻 人必备的职业技能,但是它毕竟属于一种技能,不仅需要反应灵 敏,手指灵活,而且要熟记录入的原则、方法和要领。这对于在档 案部门占有相当比例的中老年人员来说,掌握起来确有难度。因 此,键盘录入方式仍然是影响一些档案部门建立档案目录信息数 据库的因素之一。OCR软件为我们提供了一条新的途径。它通 过“拖拉”的方式,将屏幕上文件的目录项,如标题、文号、责任者 等直接移植到档案目录数据库的相应字段中,简单易学,一看就 会。遗憾的是手工“拖拉”速度较慢,而且需要即时扫描或调用图 像数据,所以单一利用这种方式录入档案目录,速度不及熟练录入 员的键入速度。但它毕竟是一种新的录入方式,为建立档案目录 信息数据库提供了一条前所未有的途径。如果利用OCR软件同 时建立新型的综合档案信息数据库,例如包括档案的文件目录、图 像和文本等,效果就比较理想了。 、 二、汉字识别后生成的文本数据的属性问题 原始性是档案的基本属性。汉字识别后生成的文本数据是根 据档案的本源信息,即固定在纸质载体上的汉字信息进行加工处 理:即扫描、识别、校对、修改等工序后形成的复制加工品,因此不 具有档案的原始性。 知识性是档案的又一个属性。汉字识别后生成的文本数据如 果不计算人工校对后仍然可能存在的微小误差,应该说具有与档 案原件同等的内容,因此具有档案的知识性。 、 汉字识别后生成的文本数据是将档案的内容以特殊的物理方 式重新记录在特殊的载体之上,比以文字的方式记录在纸质载体 之上更具有便于传递、接收、存储、利用以及不磨损、不丢失等属 一165— 第六次华北地区档案学会学术讨论会论文集 性。因此具有更强的信息性。 汉字识别后生成的文本数据应该说,它是一种新型的档案一 次信息的复制品或开发的编研成果。但作为一种新型的复制品或 开发的编研成果,因其生成的目的不同,又具有两种不同的属性; 当以提供利用为目的通过汉字识别建立文本数据库时,其文本数 据具有类似于汇编类档案编研成果的属性;当以编辑出版纸质的 档案编研成果,如大事记、组织机构沿革、文件汇编等为目的进行 汉字识别时j其文本数据不仅具有类似于档案编研成果的属性,而 且具有档案原始性的基本属性,因为它们是印刷品或出版物的本 源信息。

文档评论(0)

ygeorcgdw + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档