《战国策》旧版造字转码说明.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《战国策》旧版造字转码说明

《戰國策》舊版造字轉碼說明 中研院資訊所文獻處理實驗室 中央研究院語言所文獻語料小組 2008/3/20 丁玟伶 轉碼主要工作是把檔案中的舊版造字轉換成 Windows XP 能支援 的 Unicode 字形,Unicode 目前共收錄漢字 70194 個字,而 XP 只能 支援 20902 個字(詳如表一) ,不支援之字將以構字式表達。例:造 字編號 978 的「」字,Unicode 編碼是 4CD2,由於 XP 並不支援, 仍需使用構字式「 鳥」。 表一、Unicode 的字數及編碼區段 Unicode 新增字數 新增編碼區段 總字數 WinXP 1.1 版 20902 4E00-9FFF 20902 支援 3.0 版 6582 3400-4DFF 27484 不支援 3.1 版 42710 20000-2A6D6 70194 不支援 一、舊版造字轉碼分析: 《戰國策》使用舊版造字 114 個,字頻 743次,這 114個造字中, 83 個可轉成 Windows XP能顯示的字,字頻 721次;另外9 個字必須 轉成構字式,字頻22 次。 轉碼完成製作轉碼分析表,請參考附件一 《戰國策》轉碼分析表, 欄位說明如下: (一)編號:Big5造字空間為 6217個,編號由 1 到 6217。 (二)造字:舊版造字。 (三)頻次:舊版造字在文件的出現次數。 (四)Big5:造字的 Big5碼。 (五)Unicode:造字所對應的 Unicode 碼。 1 (六)WinXP:造字在 Windows XP 的對應字形。 (七)構字式:Windows XP無法對應字形改用構字式。 (八)備註凡例:備註欄中記錄轉碼後字形及修改原因,凡例如下: 1.異體字問題:為了使用者查詢和使用的方便,在處理異體字時最 主要的方式是以標準字取代,除非是專有名詞或特殊情形,如: 人名、地名等。例:造字編號 4134的「衞」字,是「衛」的異體 字,以標準字「衛」取代。 2.部份使用不同字形,手動修改:檔案中為同一舊版造字,校對時 卻發現原書使用兩個以上不同的字形,可能部份舊版造字為錯字 或原書使用兩種異體字形,導致同一舊版造字轉碼時對應到兩個 以上的字形;將一部份手動修改,剩餘的頻次則用程式取代成對 應的 Unicode 或構字式。例:造字編號 4012的「皷」字頻次為 3, 依書將地名的 1字手動修改為 「皷」,其他 2字皆轉為標準字「鼓」。 手動修改部份請參考附件二:《戰國策》手動取代表。 3. 錯字,以程式全部取代:與原書字形不符,並查詢教育部異體字 字典確認非異體字後,皆歸類為錯字,以程式取代為正確字形。 例:檔案中使用造字編號 4561 的「 厂比」字,而原書使 用之字為「麁」 ,查詢教育部異體字字典確認「 厂比」並 非「麁」之異體字,因此歸為錯字,以程式取代為正確字形「麁」。 附件一、《戰國策》轉碼分析表 造 頻 編號 Big5 Unicode WinXP 構字式 備註 字 次 813 旤 1 8E

文档评论(0)

cgtk187 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档