《后汉纪校注》旧版造字转码说明.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《后汉纪校注》旧版造字转码说明

《後漢紀校注》舊版造字轉碼說明 中研院資訊所文獻處理實驗室 中央研究院語言所文獻語料小組 2009/01/19 丁玟伶 轉碼主要工作是把檔案中的舊版造字轉換成 Windows XP 能支援 的 Unicode 字形,Unicode 目前共收錄漢字 70194 個字,而 XP 只能 支援 20902 個字(詳如表一) ,不支援之字將以構字式表達。例:造 字編號 1032 的「」字,Unicode 編碼是 2039D,由於 XP 並不支援, 仍需使用構字式「 心」。 表一、Unicode 的字數及編碼區段 Unicode 新增字數 新增編碼區段 總字數 WinXP 1.1 版 20902 4E00-9FFF 20902 支援 3.0 版 6582 3400-4DFF 27484 不支援 3.1 版 42710 20000-2A6D6 70194 不支援 一、舊版造字轉碼分析: 《後漢紀校注》使用舊版造字 131 個,字頻 1243 次,這 131 個 造字中,117 個可轉成 Windows XP 能顯示的字,字頻 1181 次;另外 14 個字必須轉成構字式,字頻 62 次。 轉碼完成製作轉碼分析表,請參考附件一《後漢紀校注》轉碼分 析表,欄位說明如下: (一)編號:Big5造字空間為 6217個,編號由 1 到 6217。 (二)造字:舊版造字。 (三)頻次:舊版造字在文件的出現次數。 (四)Big5:造字的 Big5碼。 (五)Unicode:造字所對應的 Unicode 碼。 1 (六)WinXP:造字在 Windows XP 的對應字形。 (七)構字式:Windows XP無法對應字形改用構字式。 (八)備註凡例:備註欄中記錄轉碼後字形及修改原因,凡例如下: 1.異體字問題:為了使用者查詢和使用的方便,在處理異體字時最 主要的方式是以標準字取代,除非是專有名詞或特殊情形,如: 人名、地名等。例:造字編號 4134的「衞」字,是「衛」的異體 字,以標準字「決」取代。 2. Unicode字型呈現差異:Unicode字型與舊版造字有些微差異,但 只是字體風格差異,實際上仍為同一個字,因此仍取 Unicode 字 型。如編號 3935 的「 」字,Unicode 字型呈現為「槩」,實際 上仍為同一字。 3. 待造字:Unic ode 及漢字構形資料庫皆未收錄的舊漢籍造字,正 在等待補造字中,所以 「造字」欄空白無法看到字形。如編號 1723 的「 泣」。 附件一、《後漢紀校注》轉碼分析表 造 編號 頻次 Big5 Unicode WinXP 構字式 備註 字 792  1 8E46 5E2C 帬 814  1 8E5C 87C7 蟇 833  2 8E6F 5C1E 尞 938  2 8EFA 7215 爕 985 

文档评论(0)

cgtk187 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档