第8章 集成学习理论.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8章 集成学习理论

主要内容;;在机器学习中,直接建立一个高性能的分类器是很困难的。 但是,如果能找到一系列性能较差的分类器,并把它们集成起来的话,也许就能得到更好的分类器。 日常生活中,所谓的民主决策,便是部分的利用了这种想法。 譬如选总统,每个人都以自己的考虑,投下自己的一票,但最后由多数人选出的总统,似乎应该好于由一个人指定的总统。;集成学习,就是一种把输入送入多个学习器,再通过某种办法把学习的结果集成起来的办法。 这每一个学习器,也就相应的被称为“弱学习器”。 集成学习最早也叫做“Committee Voting Method”,也就是因为它和投票的过程相似。;弱学习机(weak learner): 对一定分布的训练样本给出假设(仅仅强于随机猜测) 强学习机(strong learner): 根据得到的弱学习机和相应的权重给出假设(最大程度上符合实际情况:almost perfect expert) 弱学习机 强学习机;Classifier ensemble; 同时,Valiant和Kearns首次提出了PAC学习模型中弱学习算法和强学习算法的等价性问题(1988) ,即任意给定仅比随机猜测略好的弱学习算法,是否可以将其提升为强学习算法? 如果二者等价,那么只需找到一个比随机猜测略好的弱学习算法就可以将其提升为强学习算法,而不必寻找很难获得的强学习算法。 ;;Boosting由来(1);Boosting由来(2);我们一般选定加权平均的方法来构造集成学习的最终学习器。 但是里面的每一个Classifier i怎样做呢? 有一些研究,是针对每个学习器都不同构的情况,比如识别一个人,一个学习器考虑脸,另一个考虑步态,另一个考虑指纹。这种研究通常称为Information Fusion,不在我们今天讨论的范畴。 我们今天讨论的,是用同样的学习算法来构造不同的弱学习器的方法。;办法就是改变训练集。 通常的学习算法,根据训练集的不同,会给出不同的学习器。这时就可以通过改变训练集来构造不同的学习器。然后再把它们集成起来。;在原来的训练集上随机采样,可以得到新的训练集。;采样时,我们可以给训练集里的每个元素不同的权。 权值可以通过上一次训练的结果来确定。;通过给训练数据赋以不同的权,实际上使??每个学习器关注训练集中的某一部分,这也符合我们最初民主投票的想法。 直观上,每个学习器关注训练集中的某一部分,很多个训练集应该可以覆盖训练集中的大部分,只要巧妙的选择加权平均的权,就可以得到更好的学习效果。;【用多个学习器覆盖样本空间】;集成学习实际上代表了一种与传统不同的思维理念。 传统的机器学习一般都自认为是单模型的,对于模型的分析总是在整体上完成。 Rosenblatt:Perceptron Rumelhart: BP Vapnik: SVM 但是,所有这些模型其实都可以看作是一种加权平均的多模型。;所以,当然应该考虑研究一般的多模型。 实际上,从90年代开始,对集成学习的研究取得了一系列突破进展。 在算法上,集成学习的典型代表AdaBoost算法,已经成为与SVM并立的方法。而且,集成学习比SVM更为一般,可能可以有更广阔的前景。;泛化:generalization 泛化能力越强,处理新数据的能力越好; 集成学习(Ensemble Learning)是一种机器学习范式,它使用多个(通常是同质的)学习器来解决同一个问题;由于集成学习技术可以有效地提高学习系统的泛化能力,因此它成为国际机器学习界的研究热点,并被国际权威 T.G. Dietterich 称为当前机器学习四大研究方向之首[T.G. Dietterich, AIMag97];集成学习技术已经在行星探测、地震波分析、Web信息过滤、生物特征识别、计算机辅助医疗诊断等众多领域得到了广泛的应用;期望结果;既然多个个体的集成比单个个体更好,那么是不是个体越多越好?;分类器设计的重采样技术也被称为“自适应的权值重置和组合(arcing, adaptive reweighting and combining); 这类方法的主要思想是利用同一个训练样本集合构造多个分类器,然后以某种方式将这些分类器组合成一个分类器; 主要方法包括:bagging算法和boosting算法;从大小为n的原始数据集D中独立随机地抽取n’个数据(n’=n),形成一个自助数据集; 重复上述过程,产生出多个独立的自助数据集; 利用每个自助数据集训练出一个“分量分类器”; 最终的分类结果由这些“分量分类器”各自的判别结果投票决定。 ;boosting算法同样是利用训练样本集合构造多个分量分类器,它只要求这个分量分类器是一个弱分类器—准确率比平均

文档评论(0)

djdjix + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档