多用编码在汉字输入中的应用研究.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多用编码在汉字输入中的应用研究.doc

新型邵氏多用编码在中文信息处理中的应用研究 潘虎林 (甘肃省秦安县生产力促进中心 秦安 741600) 内容提要: 关键字:计算机 汉字 编码 输入 信息化是当今世界的发展潮流,是国家社会发展的趋势。信息化水平已经成为衡量一个国家现代化水平和综合国力的重要指标。汉字也是字符,与西文字符比较,汉字数量大,字形复杂,同音字多,这就给汉字在计算机内部的存储、传输、交换、输入、输出等信息处理带来了一系列的问题。为了能直接使用西文标准键盘输入汉字,必须为汉字设计相应的编码,以适应计算机处理汉字的需要。近三十年来,在众多编码人的共同努力下,汉字编码领域已是百花齐放。可是汉字输入仍然是制约中国人进入计算机领域的难题,仍然是我国信息化建设的瓶颈之一。邵氏多用编码是 1 计算机常用中文编码的种类 1.1 机内码ASCII(American Standard Code for Information Interchange美国信息互换标准代码)是基于罗马字母表的一套电脑编码系统,它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO 646。包含控制字符、可显示字符和ASCII扩展字符集扩展在计算机的存储单元中,一个ASCII码值占一个字节(8个二进制位),其最高位(b7)用作奇偶校验位。 1.2 国标码 GB2312 字符集 1.2.1又称为GB2312-80字符集,全称为《信息交换用汉字编码字符集·基本集》,由原中国国家标准总局发布,1981年5月1日实施,是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率,基本满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、汉语拼音符号、汉语注音字母,共 7445个图形字符。其中包括6763个汉字,其中一级汉字3755个,二级汉字3008个。 GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。它是用双字节表示的,两个字节中前面的字节为第一字节,后面的字节为第二字节。 1.2.2 GBK字符集是GB2312的扩展(K),GBK1.0收录了21886个符号,它分为汉字区和图形符号区,汉字区包括21003个字符。GBK字符集主要扩展了繁体中文字的支持。   1.2.3 GB18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》,是我国政府于2000年3月17日发布的新的汉字编码国家标准,2001年8月31日后在中国市场上发布的软件必须符合本标准。GB 18030字符集标准的出台经过广泛参与和论证,来自国内外知名信息技术行业的公司,信息产业部和原国家质量技术监督局联合实施。GB 18030字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。该标准的字符总编码空间超过150万个编码位,收录了27484个汉字,覆盖中文、日文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容,填补Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准(GB2312,GB13000.1)兼容。 GB 18030标准采用单字节、双字节和四字节三种方式对字符编码。 1.3 Big5又称大五码,主要为香港与台湾使用,即是一个繁体字编码。每个汉字由两个字节构成,第一个字节的范围从0X81-0XFE(即129-255),共126种。第二个字节的范围不连续,分别为0X40-0X7E(即64-126),0XA1-0XFE(即161-254),共157种。 1.4 统一码Unicode字符集 统一码是由Unicode学术学会(Unicode Consortium)制定的字符编码系统。Unicode学术学会的成员主要是电脑软硬件厂商。Unicode与ISO有紧密的合作,Unicode可以被看作是ISO10646的实践版。因此,支持Unicode的产品也支持ISO10646。 把上面概述的几种通用标准中文输入法的实现过程及方法是中文信息处理正在使用的内码,各种应用层面的汉字编码方案及其应用软件都是中文处理的外码。 汉字作为世界上最长寿的图形文字,则有形、音、义三个属性,简称“三0性”[1]。人们可以从汉字的三种属性中,选择一种或同时选择几种,为汉字编码。根据选用的汉字属性不同,就形成了以下不同类型的汉字输入法。常用的汉字输入方法有拼音类(微软拼音、智能狂拼、智能ABC等)、形码类(万能汉字输入、二笔码、自然码、汉王等)和五笔字形类(万能

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档