- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
深入理解字符编码
标题:深入理解字符编码 作者:陈云星 编写日期:2010年8月7日 深入理解字符编码 4 1 编码常识 4 1.1 字符集与字符编码 4 1.2 字节序(Byte Order) 4 2 字符的输入与输出 5 2.1 输入输出原理 6 2.2 输入输出过程 6 2.2.1 字符的编码与解码 6 2.2.2 字符的输入 7 2.2.3 从外码到内码的转化 7 2.2.4 字符的显示 7 3 常见字符集及其编码方式的介绍 8 3.1 ASCII字符集及其编码 9 3.2 ISO 8859系列 10 3.2.1 ISO 8859字符集与编码 10 3.2.2 ISO 8859字符集介绍 11 ISO 8859-1字符集 11 ISO 8859字符集概括 12 3.3 中文字符集及其编码 13 3.3.1 GB2312-80 13 3.3.2 GBK 15 3.3.3 GB18030 17 3.3.4 BIG5 17 3.4 UCS和Unicode 18 3.4.1 UCS介绍 18 概要 18 UCS使用划分 19 UCS组合字符 19 UCS的实现级别 20 UCS编码方式 20 3.4.2 Unicode介绍 21 概要 21 Unicode发布的版本 22 编码方式 22 辅助平面 23 3.4.3 UCS与Unicode的异同 24 3.4.4 UTF(Unicode/UCS Translation Format) 25 UTF简介 25 UTF-8 25 UTF-16 28 UTF-32 30 4 程序如何处理字符编码 31 4.1 程序中为什么会出现乱码 31 4.2 HTML文件编码 31 4.2.1 “charset“参数的意义 31 4.2.2 如何选择一种编码 31 4.2.3 如何指定HTML文件的编码 32 4.2.4 字符引用 32 4.2.5 浏览器如何处理不可显示的字符 33 4.2.6 几个问题 33 4.3 XML文件编码如何识别 33 4.4 字符与编码在程序中的实现 35 4.4.1 程序中的字符与字节 35 C++ 中相关实现方法 35 Java中相关实现方法 36 4.4.2 几种乱码产生的原因和解决办法 37 容易产生的误解 37 非UNICODE程序在不同语言环境间移植时的乱码 38 深入理解URL编码及乱码问题 38 从数据库读取字符串 44 电子邮件中的字符串 44 4.4.3 几个错误理解的纠正 45 误解1:“ISO-8859-1 是国际编码?” 45 误解2:“Java中,怎样知道某个字符串的内码?” 46 5 一个通用的编码识别算法简介 46 6 参考资料 46 深入理解字符编码 编码常识 字符集与字符编码 字符(Character)是文字与符号的总称,包括文字、图形符号、数学符号等。一组抽象字符的集合就是字符集(Charset)。字符集常常和一种具体的语言文字对应起来,该文字中的所有字符或者大部分常用字符就构成了该文字的字符集,比如英文字符集。一组有共同特征的字符也可以组成字符集,比如繁体汉字字符集、日文汉字字符集。字符集的子集也是字符集。计算机要处理各种字符,就需要将字符和二进制内码对应起来,这种对应关系就是字符编码(Encoding)。制定编码首先要确定字符集,并将字符集内的字符排序,然后和二进制数字对应起来。根据字符集内字符的多少,确定用几个字节来编码。每种编码都限定了一个明确的字符集合,叫做被编码过的字符集(Coded Character Set),这是字符集的另外一个含义。通常所说的字符集大多是这个含义。谈到字节序的问题,必然牵涉到两大CPU派系。那就是Motorola的PowerPC系列CPU和Intel的x86系列CPU。PowerPC系列采用ig Endian方式存储数据,而x86系列则采用ittle Endian方式存储数据。那么究竟什么是ig Endian,什么又是ittle Endian呢?其实big endian是指低地址存放最高有效字节(MSB),而little endian则是低地址存放最低有效字节(LSB),即常说的低位在先,高位在后。用文字说明可能比较抽象,下面用图像加以说明。比如数字0两种不同字节序CPU中的存储顺序如下所示:ig Endian Little Endian 低地址 高地址 低地址 高地址 | 12 | 34 | 56 | 78 | | 78 | 56 | 34 | 12 从上面两图可以看出,采用ig Endian方式存储数据是符合我们人类的思维习惯的。而ittle Endian,为什么要注意字节序你可能这么问。当然,如果你写的程序只在单机环境下面运
您可能关注的文档
最近下载
- 中国染料化工项目经营分析报告.docx
- 专题04:论证结构与思路-备战2025年中考语文一轮复习现代文阅读讲与练(江苏通用)(解析版).docx VIP
- 初中英语读写结合模式促进写作教学的探讨.pptx VIP
- 2025年中国DBE项目创业投资方案.docx
- 堤顶混凝土路面施工方案堤顶混凝土路面施工方案.doc VIP
- 筑牢金融数字防线:商业银行信息安全风险管理体系的构建与革新.docx
- 《人力资源管理师三级》第五章薪酬管理.ppt
- 《让子弹飞》剧本.doc VIP
- 2025年水环境服务项目可行性分析报告.docx
- DB4201T 620-2020 液化石油气供气场站设置技术规定.docx VIP
文档评论(0)