蒙古文信息熵-社科网.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
蒙古文信息熵-社科网

蒙古文信息熵 1 2 淑琴 ,那日松 (1、内蒙古大学蒙古学学院蒙语所,内蒙古呼和浩特 010021 ;2、杭州师范大学,中国杭州 310012) 摘要:熵的测定是数理语言学的一项基础研究。语言符号的熵是语言符号不肯定性程度的度量,它表示语 言符号中所包含信息量的多少。蒙古文字母的熵是蒙古文字母所含信息量大小的数学度量。本文讨论传统 蒙古文字母所包含的信息量,即传统蒙古文字母中的熵,并给出了最大熵、平均熵及多余度。 关键词:蒙古文;字母;信息熵 中图分类号码:H212 文献标识码:A 一、定义 熵(Entropy )的概念最先是由德国物理学家克劳伊士(Rudolf Clausius )于1865 年 所提出,并应用在热力学中。热力学中熵表示的是“系统混乱状态”;信息论中信息熵表示 的是信息量(Information content);生态学中熵表示的是生物多样性。 1984 年,信息论的创始人美国数学家申农(C.E.Shannon )引入了一个重要概念:不确 定程度。申农把不确定程度H 称为信息熵,就这样,“信息”这个词进入了科学的领地,它 在定量化的进程中又与物理学中的“熵”概念联系起来,信息熵也称为申农熵。人们就从消 除了多少不确定程度的角度来定义一个消息中含有的信息量。1951 年,他首次运用信息论 方法测出了英语中包含在一个字母中的熵。 我们可以这样理解:不确定程度 = 熵(信息熵)= 信息量 熵在信息论中的定义如下: 如果有一个系统S 内存在多个事件S = {E ,...,E }, 每个事件的概率分布 P = {p , 1 n 1 ..., pn },则每个事件本身的信息为: Ie = − log2 p i 如英语有26 个字母,假如每个字母在文章中出现次数平均的话,每个字母的信息量为: ; 而汉字常用的有2500 个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息 量为: ; 整个系统的平均信息量为: 。 这个平均信息量就是信息熵。因为和热力学中描述热力学熵的玻耳兹曼公式形式一样, 所以也称为“熵”。平均每个字符或者词汇的熵称为熵率(entropy rate),可以用熵率来 定义该语言的熵(entropy of language)。 实际上,每个字母和每个汉字在文章中出现的次数并不平均,因此实际数值并不如同上 1 述,但上述计算是一个总体概念。使用书写单元越多的文字,每个单元所包含的信息量越大。 信息熵的概念建立,为测试信息的多少找到了一个统一的科学的定量计量方法,奠定了 信息论的基础。这里引入的信息熵的概念,既不与热力学过程相联系,也与分子运动无关, 但信息熵与热力学熵之间有着密切的关系。 可以证明,信息熵与热力学熵二者之间成正比关系。从某种意义上讲,我们完全可以这 样看,熵概念在热力学中即为热力学熵,应用到信息论中则是信息熵。 二、单位 信息论中采用比特(bit)作为信息量的单位,如果某一消息由两个出现概率相等的符号 构成,那么,包含在该消息符号中的信息量,叫做1 比特。由于信息量等于被消除的熵,因 而我们也可采用比特作熵的单位。而在计算机述评中常用字节(byte)作为信息量的单位,1 8 个字节是8 个比特(1byte=8bit),它容得下一个8 位二进制数,或说它可记住256 个(2 )可 能状态中究竟是哪一个。平常我们说微机的内存为64k(k 为千——kilo) ,是说它供用户任 意存放数据的空间ram 是64 ×103byt

文档评论(0)

wangsux + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档