- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数字化工具
第六章 古籍数字化技术 古籍数字化实践 合理目标定位 古籍数字化能否成功,合理的目标定位至关重要。 对于以文字为主的中国古籍来说,它的数字化绝不是纸张载体版本的翻版。扫描是必要的,但扫描在很多情况下只是数字化的预处理。 把古籍的内容数字化并使之与多种有效的检索、处理工具完美结合,奉献给读者知识宝库和卓有成效的研究手段,使学者多出成果,快出成果,这才是古籍数字化的目标。 还有一点不可忽视的是,古籍数字化后的文字,差错率应达到出版界规定。 古籍数字化处理流程与体系结构 古籍数字化处理流程与体系结构 数字化工具 (1)国际标准ISO/IEC 10646(GB 13000/Unicode)是古籍数字化的适用文字平台 国际标准ISO/IEC 10646的全称是:信息技术-通用多八位编码字符集(Information technology-Universal Multiple-Octet Coded Character Set)。在IT界另一通俗称呼为Unicode。 目前已商品化字符集:ISO/IEC 10646 1:2000/Unicode 3.0。 其中包括汉字27484个。用户区(EUDC)汉字5000余个,共计32000余汉字,已成功用于《四库全书》、《四部丛刊》等古籍数字化,但不包括小学类字书用字。 2001年11月正式颁布:ISO/IEC 10646-2:2001(E)/Unicode 3.1,收入汉字七万余个,除甲骨文、篆文外,可满足世界各地汉字使用需要。 数字化工具 (2)采用OCR技术,实现图文数码转换 所以选用OCR技术实现古籍文字的数码转换,其原因是: 对古籍汉字中简繁、异体字的输入,OCR较之人工录入有优势(十选识别率可以达到99%,其中的90%可以正确识别,另外的9%可以通过点击而不是键盘输入解决)。因此数据加工人员不需再做大量的古籍文字手工录入工作,重点转向文字校对工作。 通过OCR可以建立图-文之间形影不离的一一对应关系,便于实现高效率高质量的电脑辅助校对。 有成规模的加工批量。即使初期在OCR前后处理的软件研发中要有一定投入,但效率与质量总的效果比人工录入好。 数字化工具 (3)用软件工具辅助人工校对 校对作业一般是在网络环境下在屏幕上进行的。 提供的是将古籍原稿的电子图像与数码化的文字对照比较,使校对工作无纸化。其中有页(原稿图像)对页(数码)、列/行(原稿图像)对列/行(数码)、字(取自不同页的原稿图像)对字(取自不同数码页)的形影不离的校对方式,并辅以联机异体字字典,有效地减少了校对者的视觉转移,便利于版面与文字查错,提高工作效率,减少疏漏。同时还提供横向的聚类校对,即把不同页处的同一图像文字取出,看其转换的代码文字是否正确。 为了给总校人员提供有效校对工具,还用数理统计的方法,根据文字识别可信度的统计结果,将易产生差错的字重点提示,将不易产生差错的字隐蔽淡化,使总校工作突出了重点,不仅提高了工作效率,而且使差错率达到低于国家出版行业万分之一的指标。 数字化工具 (4)采用XML作为文献内容的标识语言 XML(Extensible Markup Language)即可扩展标记语言,是一种元语言。它是国际互联网联盟(W3C)开发的用于网络环境下数据交换、数据管理和网页设计的新技术。它是国际标准SGML(Standard Generalized Markup Language [ISO 8879])的一个子集,一个实用标准。 《四库全书》、《四部丛刊》数字化开发的实践表明: XML非常适合非结构化文献的全文处理,易于表达文献资料;XML将资料的存贮与显示相分离,可支持同一资料不同格式的显现、输出,支持多种应用程序的处理;XML可直接应用于因特网,便于开发网络版电子出版物;XML有良好的层次结构和约束,处理起来很容易,极大地减少软件开发成本;XML基于资料内容进行标识,因而可被不同程序用于不同用途;XML具有很强的链接功能,可定义双向链接、多目标链接、扩展链接和文件间链接,非常有利于实现各种关联检索和图文的链接处理;XML提供了从小配置文件到大规模资料仓库的可扩展性; XML支持ISO/IEC 10646/Unicode。 数字化工具 (五)数据库+知识工具库多种信息关联的全文检索引擎 《四库全书》在全文主体数据库的基础上链接了《中华古汉语字典》、《四库大辞典》、《四库全书简明目录》、“SuperCJK汉字库”以及“古今纪年换算”等知识库和工具库。 《四库全书》电子版不仅可以实现传统的特征检索(题名、作者、关键字词语检索)以及由这些特征构成的布尔组配检索,还可以实现由一个字到另一个字、由书目到全文、由著作者条目到其作品、由相关作者到相关作品的关联检索,还可实现对
您可能关注的文档
- 碱木质素和puf的降解产物对聚氨酯材料结构和-林产化学与工业.pdf
- 结构工程科学中若干计算结构力学问题的研究展望-极致建筑技术.pdf
- 菲律宾华语讲座-江苏泗洪中学.ppt
- 备份系统的设计思路.pdf
- 基于核模糊聚类的变分水平集医学图像分割-江苏大学.pdf
- 投标环境搭建指引.pdf
- 各界名人联合推荐.pdf
- 湖南中种植面积遥感监测方法研究-安徽农业科学.pdf
- 彩色遥感影像阴影颜色特性分析-光子学报.pdf
- 不同预处理方式下水稻秸秆厌氧消化性能比较-ingentaconnect.pdf
- 2026 届广东省部分学校高三上学期 10 月联考模拟预测政治试题(含答案).docx
- 2025年达州市市属高校招聘考试真题_可有哪些信誉好的足球投注网站.pdf
- 2025年北镇市市属高校招聘考试真题_可有哪些信誉好的足球投注网站.pdf
- 2026 届广东省部分学校高三上学期 10 月联考模拟预测政治试题(含答案).pdf
- 吉林油田高级中学2025-2026学年高二上学期期初考试 生物 含答案.pdf
- 2025年横州市市属高校招聘考试真题_可有哪些信誉好的足球投注网站.pdf
- 吉林油田高级中学2025-2026学年高二上学期期初考试 地理含答案.pdf
- 2025年鸡泽社区专职工作人员招聘真题_可有哪些信誉好的足球投注网站.pdf
- 吉林省吉林市 2025-2026 学年高三上学期第一次调研测试政治试题(含答案).pdf
- 吉林省吉林市 2025-2026 学年高三上学期第一次调研测试政治试题(含答案).docx
最近下载
- 2025年医学伦理学考试重点试题(附答案).docx VIP
- 国家心力衰竭指南 2023(精简版)(下).pptx VIP
- 国家心力衰竭指南 2023(精简版)(上).pptx VIP
- 2025年医学伦理学题库试题及答案+专家解析.docx VIP
- 2025年临床医学伦理学考核试题及答案.docx VIP
- “新质生产力”系列专题-十-:耐心资本赋能新质生产力发展-国信证券.pptx VIP
- 国家心力衰竭指南2023.pptx VIP
- 教学中的科研伦理道德规范教育PPT.ppt VIP
- TB10601-2024高速铁路工程测量规范.pptx VIP
- 药物研发必威体育精装版进展总结.pptx VIP
有哪些信誉好的足球投注网站
文档评论(0)