- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
常用的汉字编码字符集 国家标准GB2312-1980 汉字扩充规范 GBK (已被GB 18030取代) 国家标准GB18030-2005 港澳台使用的汉字编码字符集CNS 11643 (BIG 5,俗称“大五码”) UCS/Unicode多文种大字符集 Unicode的UTF-8 Unicode的UTF-16 一级汉字 (3755个) 二级汉字 (3008个) (扩充使用) 字母、数字和各种符号 ……………… 1 94 2 3 位号 …… …… 1 9 16 55 56 87 94 区 号 (按汉语拼音排列) (按偏旁部首排列) GB2312汉字编码字符集 1980年颁布《信息交换用汉字编码字符集·基本集》——GB2312-1980 GB2312字符集由三个部分构成: 拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个 共6763个汉字和682个符号,每个汉字和符号都有一个确定位置 GB2312汉字的编码 每一个GB2312汉字使用16位(2个字节)表示 为了与ASCII字符相区别,每个字节的最高位均为“1” 例如: “南”字的代码11001111 (用十六进制表示为C4CF) 1 1 第1字节 第2字节 X X X X X X X X X X X X X X GBK汉字内码扩充规范 GB2312的不足: 汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与ASCII码不兼容 GBK汉字内码扩充规范(1995): 在GB2312基础上,增加了1万多汉字(包括繁体字)和符号 共有21003个汉字和883个图形符号,如“計算機”、冃、冄、円、冇等繁体字和生僻字 与GB8312保持向下兼容,也使用双字节表示,第1字节最高位必须为“1”: 1 X 第1字节 第2字节 X X X X X X X X X X X X X X UCS/Unicode多文种大字符集 背景:为了实现全球数以千计的不同语言文字的统一编码 方案:ISO将全球所有文字字母和符号集中在一个字符集中进行统一编码(目前共收集了17x216=1,114,112 个) ,称为UCS/Unicode UCS/Unicode的编码方案: 先实现部分字符的编码(近11万个字符) 尽量与已有编码标准兼容 包含有中、日、韩统一整理出来的约7万汉字(称CJK汉字) 允许有若干不同的编码方案, 常用的两种是: 单字节:ASCII字符 双字节:拉丁、希腊、阿拉伯,··· 三字节:CJK汉字 四字节:其他 Unicode:UTF-8 单字节可变长编码 应用:Linux,Web网页,电子邮件 双字节: ASCII字符、拉丁、希腊、 阿 拉伯,常用CJK汉字,··· 四字节:非常用CJK汉字 Unicode:UTF-16双字节可变长编码 应用:Windows,Mac,Java,··· GB18030汉字编码标准 背景:无论是Unicode的UTF-8还是UTF-16,其CJK汉字字符集虽然覆盖了我国已使用多年的GB2312和GBK标准中的汉字,但它们的编码并不相同 为了既能与UCS/Unicode编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在2000年和2005年两次发布GB18030汉字编码国家标准。 GB18030实质上是UCS/Unicode字符集的另一种编码方案: 单字节编码(128个)表示ASCII字符 双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下兼容,GBK不再使用 四字节编码(约158万个)用于表示 UCS/Unicode中的其他字符 GB18030目前已在我国信息处理产品中强制贯彻执行。 标准名称 GB2312 GBK GB 18030 UCS-2 (Unicode) 字符集 6763个汉字(简体字) 21003个汉字(包括GB2312汉字在内) 近3万汉字 (包括GBK汉字和CJK及其扩充中的汉字) 包含近11万字符,其中的汉字与GB18030相同 编码方法 双字节存储和表示,每个字节的最高位均为“1” 双字节存储和表示,第1个字节的最高位必为“1” 部分双字节、部分4字节表示,双字节表示方案与GBK相同 UTF-8采用单字节可变长编码 UTF-16采用双字节可变长编码 兼容性 编码 不兼容! 小结:几种汉字编码的对比 编码保持向下兼容
文档评论(0)