ASCII、Unicode、GBK和UTF-8字符编码的区别联系.pdfVIP

ASCII、Unicode、GBK和UTF-8字符编码的区别联系.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ASCII、Unicode、GBK和UTF-8字符编码的区别联系

ASCII、Unicode、GBK和UTF-8字符编码的区别联系 20 15-05-08 实验楼 很久很久以前,有⼀群⼈,他们决定⽤8个可以开合的晶体管来组合成不同的状 , 以表⽰世界上的万物。他们看到8个开关状 是好的,于是他们把这称为“字节” 。 再后来,他们又做了⼀些可以处理这些字节的机器,机器开动了,可以⽤字节来组合 出很多状 ,状 开始变来变去。他们看到这样是好的,于是它们就这机器称为“计 算机” 。 开始计算机只在美国⽤。⼋位的字节⼀共可以组合出256(2的8次⽅)种不同的状 。 他们把其中的编号从0开始的32种状 分别规定了特殊的⽤途,⼀但终端、打印机遇 上约定好的这些字节被传过来时,就要做⼀些约定的动作,如: 遇上0×10, 终端就换⾏; 遇上0×07, 终端就向⼈们嘟嘟叫; 遇上0x1b, 打印机就打印反⽩的字,或者终端就⽤彩⾊显示字⺟。 他们看到这样很好,于是就把这些0×20 以下的字节状 称为“控制码” 。他们又把所有 的空 格、标点符号、数字、⼤⼩写字母分别⽤连续的字节状 表⽰,⼀直编到了第 127号,这样计算机就可以⽤不同字节来存储英语的⽂字了。 ⼤家看到这样,都感觉很好,于是⼤家都把这个⽅案叫做 ANSI的“Ascii”编码 (American Standard Code or In ormation Interchange ,美国信息互换标准代码)。当 时世界上所有的计算机都⽤同样的ASCII⽅案来保存英⽂⽂字。 后来,就像建造巴⽐伦塔⼀样,世界各地的都开始使⽤计算机,但是很多国家⽤的不 是英⽂,他们的字母⾥有许多是ASCII⾥没有的,为了可以在计算机保存他们的⽂ 字,他们决定采⽤ 127号之后的空位来表⽰这些新的字母、符号,还加⼊了很多画表 格时需要⽤下到的横线、竖线、交叉等形状,⼀直把序号编到了最后⼀个状 255 。 从128 到255这⼀页的字符集被称“扩展字符集” 。从此之后,贪婪的⼈类再没有新的状 可以⽤了,美帝国主义可能没有想到还有第三世界国家的⼈们也希望可以⽤到计算 机吧 ! 等中国⼈们得到计算机时,已经没有可以利⽤的字节状 来表⽰汉字,况且有6000多 个常⽤汉字需要保存呢。 但是这难不倒智慧的中国⼈民,我们不客⽓地把那些127号之后的奇异符号们直接取 消掉, 规定: ⼀ ⼩于127的字符的意义与原来相同,但两 ⼤于127的字符连在⼀起时,就表示⼀ 汉 前⾯的⼀ 字节 (他称之为⾼字节)从0xA1⽤到 0xF7,后⾯⼀ 字节 (低字节)从0xA1 这样我们就可以组合出⼤约7000多个简体汉字了。 在这些编码⾥,我们还把数学符号、罗马希腊的字母、⽇⽂的假名们都编进去了,连 在 ASCII ⾥本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是 常说的“全⾓”字符。 ⽽原来在127号以下的那些就叫“半⾓”字符了。 中国⼈民看到这样很不错,于是就把这种汉字⽅案叫做 “GB2312” 。GB2312 是对 ASCII 的中⽂扩展。 但是中国的汉字太多了,我们很快就就发现有许多⼈的⼈名没有办法在这⾥打出来, 特别是某些很会⿇烦别⼈的国家领导⼈。 于是我们不得不继续把 GB2312 没有⽤到的码位找出来⽼实不客⽓地⽤上。 后来还是不够⽤,于是⼲脆不再要求低字节⼀定是127号之后的内码,只要第⼀个字 节是⼤于127就固定表⽰这是⼀个汉字的开始,不管后⾯跟的是不是扩展字符集⾥的 内容。结果扩展之后的编码⽅案被称为 GBK 标准,GBK包括了GB2312 的所有内 容,同时又增加了近20000个新的汉字 (包括繁体字)和符号。 后来少数民族也要⽤电脑了,于是我们再扩展,又加了⼏千个新的少数民族的字, GBK扩成了 GB 18030 。从此之后,中华民族的⽂化就可以在计算机时代中传承了。 中国的程序员们看到这⼀系列汉字编码的标准是好的,于是通称他们叫做 “DBCS“ (Double Byte Charecter Set 双字节字符集)。 在DBCS系列标准⾥,最⼤的特点是两字节长的汉字字符和⼀字节长的英⽂字符并存 于同⼀套编码⽅案⾥,因此他们写的程序为了⽀持中⽂处理,必须要注意字串⾥的每 ⼀个字节的值,如果这个值是⼤于127的,那么就认为⼀个双字节字符集⾥的字符出 现了。 那时候凡是受过加持,会编程的计算机僧侣们都要每天念下⾯这个咒语数百遍: “⼀ 个汉字算两个英⽂字符 !⼀个汉字算两个英⽂字符……” 因为当时各个国家都像中国这样搞出⼀套⾃⼰的编码标准,结果互相之间谁也不懂谁 的编码,谁也不⽀持别⼈的编码。 连⼤陆和台湾这样只相隔了150海⾥,

文档评论(0)

aqlsxc66163 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档