龙语瀚堂典籍数据库.ppt

  1. 1、本文档共67页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
龙语瀚堂典籍数据库.ppt

目 录 一、公司介绍——龙戴特信息 二、技术背景——四字节处理技术 三、龙语瀚堂典籍数据库介绍 四、龙语瀚堂典籍数据库检索 一、公司介绍——龙戴特信息 致力于为学术图书馆等机构提供系列信息资源产品和技术解决方案 LexisNexis公司合作,LexisNexis? 系列 专业数据库系统引进 “龙语翰堂典籍数据库”—汉学数字化研究平台。 “龙语财经信息分析系统”—专为金融教育打造的分析工具和信息资源 公司介绍——龙戴特信息 首批获得国家创新基金支持 北京市高新技术企业 获得国家双软认证资格 公司理念——传播知识给追求知识的人 二、技术背景——四字节处理技术 1、应用背景 2、技术背景 3、汉学研究进入四字节时代 以下情况您是否遇到? 1:遇到生僻汉字无法输入 2:需要自备许多不同的字库 3:僻字较多的文章无法被他人所正常阅读 4:网上浏览古籍等数据库,需要下载浏览器 5:不同浏览器的数据库,需要不停切换 6:通常网上的古籍数据库错误率较高,仍需 对照原文 7:那些还没有隶定的古文字如何实现数字化 应用背景介绍——图书 纸本图书:利用古代版本 影印出版 计算机化:扫描成像 应用缺陷:无法实现检 索、编辑功 能,不利于传 播和再利用 应用背景介绍——古籍数据库 目前古籍数据库的共同不足 ——对生僻汉字的处理没有达到通用的解决方案 生僻汉字的录入、显示、编辑无法很好解决, 难以在通用平台上运行 对生僻汉字出现频率较高的小学类古籍,甲骨文、金文等出土文献处理被搁置 六千人口面临公民基本权利 难以得到保障的困境 技术背景介绍—— 单字节、二字节、四字节 单字节——针对英文、数字及常用标点符即128个容量 二字节——计算机技术处理中文的里程碑,即32768个字 符容量,其中,汉字总量约27000个,这其中 还包 括日本、韩国等国使用的汉字 ,真正中 国所用的汉字约有2万个 四字节——大量的生僻汉字都被置于四字节编码空间,目 前约有5万个左右 计算机二字节的局限性 对生僻字符,尤其是生僻汉字无法使用 通用的计算机软件工具没有对生僻字符、少数民族字符进行管理 一般中文古籍中约,1‰在二字节字符集之外 古代字书、小学类典籍中5%的字符在二字节字符集之外,成为古籍数字化工作的瓶颈 如果仅仅在二字节中解决文字问题,最多使用27558个汉字,加上自行造字 人名、地名中的生僻汉字问题 单字节、二字节、四字节 2004年6月,国际统一标准编码组织IRG已经决定汉语古文字单独地、全部地进行国际标准编码。EXT-C区编码工作已经在东亚主要国家紧张进行。 生僻汉字数字化的前提 编码问题的解决 Unicode组织把5万多生僻汉字置于四字节编码区,并确定了统一 编码。 国际通用的生僻字字库 “方正-超大字符集”所包含的5万多生僻汉字已于6年前预装在了微软的操作平台上 用户的电脑要求:Windows2000或windowsXP的操作系统 officeXP或office2003以上 终南山古樓觀說經台石刻楹聯 太上老君作十四字養生訣 〔左身右寶〕〔左身右丹〕〔上丙下火〕〔左木右上石右下土〕〔上命下心〕〔左千右萬〕〔上左自上右家下水〕 〔左正右青〕〔左人(偏旁)右上道右下寸〕〔左人(偏旁)右上法右下心〕〔左至右成〕〔左水(三點)右上夭右下井〕〔左人(偏旁)右上在右下內〕〔左九右真〕 终南山古樓觀說經台石刻楹聯 太上老君作十四字養生訣 軉??????????, 靕????臹????。 释文: 玉爐燒煉延年藥, 正道行修溢壽丹。 三、龙语瀚堂典籍数据库介绍 龙语瀚堂典籍数据库内容 龙语瀚堂典籍数据库内容处理原则 龙语瀚堂典籍数据库特点 龙语瀚堂典籍数据库未来发展方向 龙语瀚堂典籍数据库内容 核心数据——小学工具类 小学类做到内容含量第一 该类数据是龙语瀚堂的核心 差错率小于1/10000 全库无造字,所有生僻字可自由编辑 提供原书影像对应 核心数据——出土文献类 陆续提供出土原件的照片、线图、铭文拓片 陆续提供铭文临摹、器物物理数据、出处等 信息 提供对原件文字的注释 龙语瀚堂典籍数据库特点——技术特点 全球唯一可支持四字节自然语言全文检索引擎 采用国际编码标准,全库无造字 通用浏览

文档评论(0)

kaku + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8124126005000000

1亿VIP精品文档

相关文档