基于信息熵ID3算法.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于信息熵ID3算法

基于信息熵的ID3算法 ID3算法是一个典型的决策树学习算法,其核心是在决策树的各级节点上,使用信息增益方法作为属性的选择标准,来帮助确定生成每个节点时所应采用的合适属性。这样就可以选择具有最高信息增益属性作为当前节点的测试属性,以便使用该属性所划分获得的训练样本子集进行分类所需信息最小。 定义1 设U是论域,是U的一个划分,其上有概率分布,则称: 为信源X的信息熵,其中对数取以2为底,而当某个为零时,则可以理解为。 定义2 设是一个信息源,即是U的另一个划分,,,则已知信息源X是信息源Y的条件熵H(Y|X)定义为: 其中为事件发生时信息源Y的条件熵。 在ID3算法分类问题中,每个实体用多个特征来描述,每个特征限于在一个离散集中取互斥的值。ID3算法的基本原理如下:设是n维有穷向量空间,其中是有穷离散符号集。E中的元素称为样本空间的例子,其中,。为简单起见,假定样本例子在真实世界中仅有两个类别,在这种两个类别的归纳任务中,PE和NE的实体分别称为概念的正例和反例。假设向量空间E中的正、反例集的大小分别为P、N,由决策树的基本思想,ID3算法是基于如下2种假设: (1)在向量空间E上的一棵正确的决策树对任意样本集的分类概率同E中的正、反例的概率一致。 (2)根据定义1,一棵决策树对一样本集做出正确分类,所需要的信息熵为: 如果选择属性A作为决策树的根,A取V个不同的值,利用属性A可以将E划分为V个子集,其中包含了E中属性A取值的样本数据,假设中含有个正例和个反例,那么子集所需要的期望信息是,以属性A为根所需要的期望熵为: 其中, 以A为根的信息增益是: ID3算法选择最大的属性作为根节点,对的不同取值对应的E的V个子集递归调用上述过程生成的的子节点。 ID3算法的基本原理是基于两类问题的,但是它很容易被扩展到多类问题。设样本集S共有C类样本,每类的样本数为。如果以属性A作为决策树的根,A具有V个值,它将E划分为V个子集。假设中含有的第j类样本个数为,那么子集的信息量,即熵为: 以A为根分类后的信息熵为: 选择属性,使最小,信息增益将最大。 实际上,能正确分类训练集的决策树不止一棵。ID3算法能得出节点最小的决策树。 在ID3算法的每一个循环过程中,都对训练集进行查询以确定属性的信息增益,然而此时的工作只是查询样本的子集而没有对其分类。为了避免访问全部数据集,ID3算法采用了称为窗口(Windows)的方法,窗口随机性是从数据集中选择一个子集。采用该方法会大大加快构建决策树的速度。 ID3算法的主算法非常简单,首先从训练集中随机选择一个窗口(既含正例又含反例的样本子集),对当前的窗口形成一棵决策树;其次,对训练集(窗口除外)中例子用所得到的决策树进行类别判定,找出错判的例子。若存在错判的例子,把他们插入窗口,转到建树过程,否则停止。 算法每迭代循环一次,生成的决策树将会不同。ID3算法以一种从简单到复杂的爬山策略遍历这个假设空间,从空的树开始,然后逐步考虑更加复杂的假设。通过观察有哪些信誉好的足球投注网站空间和有哪些信誉好的足球投注网站策略,我们可以发现,它同样存在着一些优势和不足。 ID3算法的优点: (1)ID3算法的假设空间包含所有的决策树,有哪些信誉好的足球投注网站空间也是完整的假设空间。因为每个有限离散值函数可以被表示为某个决策树,所以它避免了假设空间可能不包含目标函数的风险。 (2)ID3算法在有哪些信誉好的足球投注网站的每一步都使用当前的所有训练样本,以信息增益的标准为基础决定怎样简化当前的假设。使用信息增益这一统计属性的一个优点是大大降低了对个别训练样例错误的敏感性,因此,通过修改算法可以很容易地扩展到处理含有噪声的训练样本。 (3)ID3算法采用自顶向下的有哪些信誉好的足球投注网站策略,有哪些信誉好的足球投注网站全部空间的一部分,确保所作的测试次数较少,分类速度较快。算法的计算时间与样本例子个数、特征个数、节点个数三者的乘积呈线性关系。 (4)ID3算法与最基础的决策树算法一样,非常适合处理离散值样本数据,并且利用树型结构的分层的效果,可以轻而易举地提取到容易理解的If-Then分类规则。 (5)由于引进了信息熵的概念,ID3算法能得出节点数最少的决策树。 ID3算法存在的不足之处 (1)当遍历决策树空间时,ID3算法仅维护单一的当前假设,它失去了表示所有一致假设带来的优势。比如,它不能判断有多少其他的决策树也是与现有的训练数据一致的,或者使用新的实例查询来最优地区分这些竞争的假设。 (2)ID3算法在有哪些信誉好的足球投注网站中不进行回溯,每当在树的某一层选择了一个属性进行测试,它不会再回溯重新考虑这个选择。这样,算法容易收敛到局部最优的答案,而不是全局最优的。 (3)ID3算法使用的基于互信息的计算方法依赖于属性值数目较多的属性,但是属性值较多的属性不一定是分类最优的属性。 (4)ID3算法是一种贪心算

文档评论(0)

ktj823 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档