寻根问祖话家谱——家谱全文数字化技术及网站系统.pdfVIP

寻根问祖话家谱——家谱全文数字化技术及网站系统.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
寻根问祖话家谱 ——家谱全文数字化技术及其网站系统 包铮 近年来,越来越多的人希望通过对家谱的研究,来追溯家族发展的历史。 家谱里所记载的丰富宝贵的资料,不但可以帮助人们了解自己的祖先以及同辈 人,而且也是历史学、社会学、民族学、文化人类学、人口学、优生学等学科 的宝贵资料,有着巨大的学术研究价值。 一、家谱数字化的特殊性与技术难点 家谱全文数字化虽然能够为人们研究家谱提供便捷、准确的查询工具,但 是要实现家谱的全文数字化,从中文信息处理的角度上讲存在许多特殊性和技 术难点。 1.1 家谱数字化的特殊性 1.家谱数据量巨大。 2.家谱大多是由古代写到现代,多用中文繁体字或简、繁体字共存;涉 及到很多人名、地名,不但用字生僻,而且还有大量异体字、异构字及早字, 且用字量大。 3.家谱书目信息需遵照“汉语文古籍机读目录格式”的要求。 4.家谱一般较珍贵,不能拆开扫描。 5.家谱中的世系图、世系表的排版格式特殊,多以树状形式排列,文字 既有横写,又有竖写。 6.家谱世系图、世系表、传、图像、内容各部分之间有较强的联系。 7.一个家族由一人世代繁衍,能发展到数百人至数千人。利用纸质家谱 进行研究很不方便,而且大多数家谱纸张易损。 1.2 家谱数字化的技术难点 一 1.很难发挥OCR识别高效率作业的优势 ·272· 寻根问祖话家谱 家谱用字多为繁体,还夹杂许多异体字;有的家谱纸张陈旧,字迹模糊, 版面遗留的斑点和污迹较多;很多年代久远的家谱版面复杂,很不规范,在一 个页面中文字经常既有横排,又有竖排,致使OCR识别准确率极低。家谱与 现代书籍相差甚远,录入前需要投入大量人工进行手工切分与调整,而且录入 后只能采用人工校对,进一步造成工作效率的低下。 2.对中文平台系统有特殊要求 (1)需要扩充平台 现有平台系统只能处理2万汉字,远远无法涵盖家谱的全部用字,需对平 台系统进行扩充。目前的中文信息处理平台支持的汉字一般为2字节,可以支 持2万字。家谱中,尤其是老谱,多用繁体字,且用字量远远超过2万字。目 前有的机构倡导用简化字来制作家谱,这种做法笔者认为不妥当,因为尤其在 姓名中,如果用简化字代替繁体字,那么从严格意义上讲就不再是这个人了。 何况许多字根本就没有简化字,所以既然存在4字节技术,而且4字节技术可 以支持7万以上的汉字,更适合于做家谱数字化,何不在家谱数字化中将它用 起来,使得数字化工作更完整? (2)需要专用录入工具 . 平台系统扩充后,要处理4字节汉字带来的输人法管理、检索、屏幕显 示、WEB方式运行等多方面的技术难题。一般的键盘输入法无法支持4字节 汉字的输入,又因世系图与表的格式特殊,传承关系繁复,如果没有专用录入 工具,一些信息将会重复录入,容易搞错继承关系,增加校对与修正的工作 量,给后期数据整理带来困难,还容易产生遗漏信息等问题,可见做家谱的数 字化加工比做一般文献档案的数字化要难得多,因此需要制作专门的录入工 具,对数字化加工这个工业过程能够在方法上得到技术控制,尽量做到错误率 低、效率高。 3.要求具有支持超大字符集全文检索的有哪些信誉好的足球投注网站引擎 家谱数字化的意义在于能够利用计算机辅助,通过检索,查询数据库中的 记录,抽取出有用信息。所以必须研制支持超大字符集全文检索的有哪些信誉好的足球投注网站引擎, 系统配上它才能在海量信息中实现快速检索。 =、家谱数字化系统 家谱数字化系统主要由家谱数字化生产和家谱网站系统两部分组成,见图 1和图2。 ·273· 寻根问祖话家谱 员减少错误,提高录入速度。错误率可控制在3/10000以下。 4.家谱书目及世系图表数据数字化专用软件 家谱书籍中80%以上的内容是世系图、表信息,家族成员的亲缘关系和 每一位族人的个人简介。家谱书目及世系图表数据数字化专用软件提供树状信 息录入工具,操作员只要将OCR

文档评论(0)

whx007 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档