- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息熵的计算及实现.doc
认知实习报告
题 目 __信息熵的计算及实现_________ _
(院)系 数理系 ___________
专业 _______信息与计算科学__________________
班级_ _ 学号_ _
学生姓名 _ _
导师姓名_ ___ ________
完成日期 ________2011年12月23日___________
信息熵的计算及实现
信息与计算科学专业:
指 导 教 师:
摘要:信息的销毁是一个不可逆过程,一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。本文讨论了一维几种熵的计算方法:离散信源的熵、图像熵的一维熵和二维熵、基于信息熵的Web页面主题信息计算方法,并给出一定的理论分析和数值实验以及数值实验结果。
关键字:离散信源的熵、图像熵、Web页面主题信息
1 引言
信息论之父 C. E. Shannon 在 1948 年发表的论文“通信的数学理论( A Mathematical Theory of Communication )”中, Shannon 指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。 Shannon 借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式。
2 问题提出
信源的平均不定度。在信息论中信源输出是随机量,因而其不定度可以用概率分布来度量。记 H(X)=H(P1,P2,…,Pn)=P(xi)logP(xi),这里P(xi),i=1,2,…,n为信源取第i个符号的概率。P(xi)=1,H(X)称为信源的信息熵。
2.1 离散信源的熵
利用信息论中信息熵概念,求出任意一个离散信源的熵(平均自信息量)。 自信息是一个随机变量,它是指某一信源发出某一消息所含有的信息量。所发出的消息不同,它们所含有的信息量也就不同。任何一个消息的自信息量都代表不了信源所包含的平均自信息量。不能作为整个信源的信息测度,因此定义自信息量的数学期望为信源的平均自信息量:
信源的信息熵H是从整个信源的统计特性来考虑的。它是从平均意义上来表征信源的总体特性的。对于某特定的信源,其信息熵只有一个。不同的信源因统计特性不同,其熵也不同。
2.2 图像熵
通过理解图像熵基本概念,能够求出图像一维熵和二维熵。 图像熵是一种特征的统计形式,它反映了图像中平均信息量的多少。图像的一维熵表示图像中灰度分布的聚集特征所包含的信息量,令Pi表示图像中灰度值为i 的像素所占的比例,则定义灰度图像的一元灰度熵为:
图像的一维熵可以表示图像灰度分布的聚集特征,却不能反映图像灰度分布的空间 特征,为了表征这种空间特征,可以在一维熵的基础上引入能够反映灰度分布空间特征的特征量来组成图像的二维熵。选择图像的邻域灰度均值作为灰度分布的空间特征量,与图像的像素灰度组成特征二元组,记为( i, j ),其中i 表示像素的灰度值(0 = i = 255),j 表示邻域灰度(0 = j = 255),
上式能反应某像素位置上的度值与其周围像素灰度分布的综合特征,其中f(i, j) 为特征二元组(i, j)出现的频数,N 为图像的尺度,定义离散的图像二维熵为:
构造的图像二维熵可以在图像所包含信息量的前提下,突出反映图像中像素位置的灰度信息和像素邻域内灰度分布的综合特征.
2.3 基于信息熵的Web页面主题信息计算方法概述
Web主题信息抽取系统主要由HTML解析器、过滤器、关键词抽取器、剪枝器四部分组成,下图是Web主题信息抽取系统的框图。
HTML解析器负责将HTML文档转换为DOM树,使后续工作在此DOM树基础上进行。过滤器将不需要处理的元素从DOM树中删除,主要是一些图片、脚本代码等。本系统采用CyberNekoHTML Parser解析器,它可以同时完成HTML解析器和过滤器的工作,解析生成的DOM树可以用XML标准接口进行操作,通过在管道添加不同过滤器的方法实现过滤目的。关键词抽取器则对文本语义块进行处理.并对相关结点抽取出关键词向量、关键词词频等信息,为对结点进行信息熵计算作好准备。本系统采用海星智能分词软件及其获取关键词接1:3来实现关键词抽取器。剪枝器
文档评论(0)