- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
字符编码(ucs,unicode,utf,gb)
字符编码
版本 修订日期 修订内容 修订人 V0.1 2008-12-1 初始化 V1.0 2008-12-11 第一版 V1.1 2008-12-13 First reported V1.2 2008-12-14 添加ASCII码表 V1.3 2008-12-18 添加code page V1.4 2008-12-23 添加BOM
ASCII
American Standard Code for Information Interchange,美国标准信息交换码。因为计算机只能表示和存储二进制的数据,所以需要对常用的52个字母,阿拉伯数字等字符进行编码,为了便于信息交换,需要一个统一的标准,于是American National Standard Institute(ANSI)制定了这个ASCII码,并于1967年成为美国国家标准,后被ISO(International Standardization Organization)国际标准化组织定为国际标准ISO646。
ASCII属于单字节编码,即使用一个字节(8 bytes)进行编码,因此最多只能表示256个字符。基础的ASCII使用7bits编码,最高位位为0,或者用于奇偶校验。ASCII编码适用于所有的拉丁字母。
0x00 – 0x1F:为控制字符
ASCII编码可以满足美国的拉丁字母需求,但是不能满足其他语种的需求,例如中日韩的象形文字,所以导致下面编码的出现。
具体定义如下:
十六进制 字符 意义 十六进制 字符 意义 0x00 NULL 空字符 0x10 0x01 SOH Start of head 0x11 0x02 STX Start of text 0x12 0x03 ETX End of text 0x13 0x04 EOT End of Transmission 0x14 0x05 ENQ Enquiry 0x15 0x06 ACK Acknowledge 0x16 0x07 BELL 铃声 0x17 0x08 BS Backspace 0x18 0x09 TAB Horizontal tab 0x19 0x0A LF Line Feed 0x1A 0x0B VT Vertical tab 0x1B 0x0C 0x1C 0x0D CR Carriage return 0x1D 0x0E SO Shift out 0x1E 0x0F SI Shift in 0x1F
UCS
国际标准ISO 10646定义了通用字符集 (Universal Character Set, UCS) UCS是所有其他字符集标准的一个超集它保证与其他字符集是双向兼容的就是说如果你将任何文本字符串翻译UCS格式然后再翻译回原编码你不会丢失任何信息UCS 包含了用于表达所有已知语言的字符不仅包括拉丁语希腊语斯拉夫语希伯来语阿拉伯语亚美尼亚语和乔治亚语的描述还包括中文日文和韩文这样的象形文字以及平假名片假名孟加拉语旁遮普语果鲁穆奇字符(Gurmukhi)泰米尔语印.埃纳德语(Kannada)Malayalam,泰国语老挝语汉语拼音(Bopomofo)Hangul,Devangari,Gujarati,Oriya, Telugu 以及其他数也数不清的语对于还没有加入的语言, 由于正在研究怎样在计算机中最好地编码它们, 因而最终它们都将被加入这些语言包括Tibetian, 高棉语, Runic(古代北欧文字), 埃塞俄比亚语, 其他象形文字, 以及各种各样的印-欧语系的语言, 还包括挑选出来的艺术语言比如Tengwar, Cirth 和克林贡语(Klingon). UCS 还包括大量的图形的, 印刷用的, 数学用的和科学用的符号, 包括所有由 TeX, Postscript, MS-DOS,MS-Windows, Macintosh, OCR 字体, 以及许多其他字处理和出版系统提供的字符ISO 10646定义了一个 31 位的字符集然而, 在这巨大的编码空间中, 迄今为止只分配了前 65534 个码位 (0x0000 到 0xFFFD)这个 UCS 的 16位子集称为基本多语言面 (Basic Multilingual Plane, BMP)将被编码在 16 位 BMP 以外的字符都属于非常特殊的字符(比如象形文字), 且只有专家在历史和科学领域里才会用到它们按当前的计划, 将来也许再也不会有字符被分配到从 0x000000 到 0x10FFFF 这个覆盖了超过 100 万个潜在的未来字符的 21 位的编码空间以外去了ISO 1
文档评论(0)