- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
论我国中文古籍数字化管理的问题与对策
论我国中文古籍数字化管理的问题与对策
; 古籍属于非再生性的文化遗产,古籍随着时间的推移,在数量上将会不断减少。如何保存好现有古籍,已成为档案和图书界最为严峻的任务。国外收藏的中文古籍数量目前还没有一个确切的统计,但大部分古籍正遭受残损亟待抢救的情况是不争的事实。由于图像扫描技术具有简单快捷、成本低廉且保存长久等优势,古籍数字化应该是解决这一问题的有效途; 径。 ; 一、我国古籍数字化的研究现状 ; 为了传承中国传统文化,香港、台湾和大陆地区的古籍数字化形成了互为补充、共同发展的局面。 ; 1.港台地区的古籍数字化情况 ; 20世纪80年代,台湾和香港就开始了古籍的数字化工作。上世纪80年代,台湾中央研究院开始了“史籍自动化计划”,建立了廿五史全文资料库。1988年,香港中文大学中国文化所研究成立“汉达古文献数据库中心”,是研究所“古文献数据库研究计划”的专门出版单位,也是香港从事古籍数字化工程的中坚力量。 ; 2.中国大陆古籍数字化研究现状 ; 与港台相比,大陆的古籍数字化工作起步稍晚,但发展迅速,大有后来居上之势。北京书同文数字化技术有限公司制作了文渊阁《四库全书》(与迪志文化出版有限公司合作,2000年完成)、《四部丛刊》(2001年完成)、《历代石刻史料汇编》(2004年完成)、《十通》(2004年完成)、《大清五部会典》(分别编撰于康熙、雍正、乾隆、嘉庆、光绪五朝)、《大清历朝实录》等电子文献。北京爱如生数字化技术研究中心是大陆很有实力的古籍数字化专业公司,它制作完成的数字化古籍总数在3万种以上,是目前大陆制作数字化古籍最多的公司。同时,一些大型的网站也在开发古籍数字化的工作。比如,国学网依托首都师范大学组织国内一批文史专家,经过长达多年的资料搜集,电子化校勘, 建成了一个总字数达8亿的大型中华古籍全文数据库——《国学宝典》。 ; 二、中文古籍数字化存在的问题 ; 1.版本众多,底本的选择优劣不一 ; 中华民族文化源远流长,各种典籍版本众多,仅《红楼梦》的版本就可分为两个系统:一是八十回抄本系统,题名《石头记》,大都附有脂砚斋评语,又名“脂本”系统。另一种是一百二十回本系统,即程高本,有所增删。 这两个系统中又有甲戌本、乙卯本、庚辰本、戚序本等等。古人强调,“书非校不能读也”。因此在进行古籍数字化时如何选择善本作底本,同时也要和其他的一些版本精心校对拾遗补阙等。并且由于保存条件以及纸张本身的原因,各种善本藏书很多已经受到了损毁,字迹不清、残缺等等现象严重。 ; 2.缺乏统一的协调机构及着录规则 ; 从2002年开始,中国科学院文献情报中心、中国科学技术信息研究所等21家单位制定了一些与中文古籍数字化相关的标准和规范,如:《古籍描述元数据着录规则》、《古籍描述元数据规范》、《舆图描述元数据着录规则》、《舆图描述元数据规范》、《拓片描述元数据着录规则》、《拓片描述元数据规范》、《家谱描述元数据着录规则》、《家谱描述元数据规范》等等。但各馆及数字资源生产商都是各自为战,给将来的统一检索留下隐患。因此,古籍数字化工作亟须一套完整的标准规范。 ; 3.古籍数字化过程中的相关技术问题 ; 汉字的处理是古籍数字化工作的重点和难点问题。这与电子文本需要字库支撑的特点有直接的关系,而字库中汉字容量是有限的。古籍中众多繁体字、异体字、通假字、避讳字的存在,前人编撰古籍技术的不规范,都使计算机的文字编码不敷应用。目前业界大多采用Unicode作为文字处理的标准,但Unicode定义的汉字也只有7万多,并不能囊括现有古籍中的全部汉字,可以说缺字是古籍数字化的瓶颈。 ; OCR虽然是一种较为先进的自动化信息资源输入技术,但对图像质量、文字规范化程度要求较高,在对近现代文献的数字化工作中应用较广。由于古籍普遍存在字迹模糊,墨点、污渍和霉斑较多的特点,如果在OCR处理过程中,不能有效识别这些信息,在电子文本上就会留下大量乱码和不规则暗痕。部分手抄本古籍则无法通过OCR识别原文内容。 ; 三、关于古籍数字化的相关建议 ; 1.加强古籍数字化标准的研究和制定工作 ; 要想建立一个完整的中国古籍数据库,使用户一上机就能纵览古籍全貌,按图索骥,用其所需,就要实行统一的、行之有效的机读目录格式,重视统一标准的研究和制定工作,是古籍数字化资源共享首先要解决的问题。古籍数字化只有在题名、编着人、卷册页码、刻工、文献形态等条目上 实现系统完善的着录,执行统一的分类标准和分类原则,才有可能使制作出来的产品易于读者操作和便于读者访问,实现古籍数字化成果和价值真正意义上的资源共享。这些标准的制定不仅要由图书情报界、信息产业界和与标准相关的软件开发商参与而且也要有从事古籍整理的专业人员参与,只有这样才能为读者提供一个共享古籍文献的统一平台。 ; 2.慎重选择底本,搞
文档评论(0)