- 1、本文档共44页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖据技术集成学习方法(ensemble learnig) 王磊 (副教授) 经济信息工程学院 在机器学习中,直接建立一个高性能的分类器是很困难的。 但是,如果能找到一系列性能较差的分类器(弱分类器),并把它们集成起来的话,也许就能得到更好的分类器。 日常生活中,“三个臭皮匠,胜过诸葛亮”,便是体现了这种思想。 我们一般选定加权平均的方法来构造集成学习的最终学习器。 但是里面的每一个 弱分类器(i)怎样构造呢? 有一些研究,是针对每个学习器都不同构的情况,比如识别一个人,一个学习器考虑脸,另一个考虑步态,另一个考虑指纹。这种研究通常称为Information Fusion,不在我们今天讨论的范畴。 狭义的集成学习(ensemble learning),是用同样类型的学习算法来构造不同的弱学习器的方法。 办法就是改变训练集。 通常的学习算法,根据训练集的不同,会给出不同的学习器。这时就可以通过改变训练集来构造不同的学习器。然后再把它们集成起来。 在原来的训练集上随机采样,可以得到新的训练集。 集成策略 有多种策略可以将q个弱分类器组合成集成分类器。 从大小为n的原始数据集D中独立随机地抽取n’个数据(n’=n),形成一个自助数据集; 重复上述过程,产生出多个独立的自助数据集; 利用每个自助数据集训练出一个“分量分类器”; 最终的分类结果由这些“分量分类器”各自的判别结果投票决定。 Boosting流程描述 Step1: 原始训练集输入 Step2: 计算训练集中各样本的权重 Step3: 采用已知算法训练弱学习机,并对每个样本进行判别 Step4: 计算对此次的弱学习机的权重 Step5: 转到Step2, 直到循环到达一定次数或者某度量标准符合要求 Step6: 将弱学习机按其相应的权重加权组合形成强学习机 核心思想 样本的权重 没有先验知识的情况下,初始的分布应为等概分布,也就是训练集如果有N个样本,每个样本的分布概率为1/N 每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大, 使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。 弱学习机的权重 准确率越高的弱学习机权重越高 循环控制:损失函数达到最小 在强学习机的组合中增加一个加权的弱学习机,使准确率提高,损失函数值减小。 简单问题演示(Boosting训练过程) 算法—boosting数学描述 训练集 { (x1,y1), (x2,y2),…, (xN,yN) } xi ?Rm, yi? {-1,+1} Dt 为第t次循环时的训练样本分布(每个样本在训练集中所占的概率, Dt总和应该为1) ht:X?{-1,+1} 为第t次循环时的Weak learner,对每个样本给出相应的假设,应该满足强于随机猜测: wt为ht的权重 为t次循环得到的Strong learner 样本权重 思想:提高分错样本的权重 反映了strong learner对样本的假设是否正确 采用什么样的函数形式? 弱学习机权重 思想:错误率越低,该学习机的权重应该越大 为学习机的错误概率 采用什么样的函数形式? 和指数函数遥相呼应: AdaBoost算法 Adaboost的缺点 随机森林算法 随机森林算法是Leo Breiman于2001年提出的一种新型分类和预测模型,它具有需要调整的参数少,不容易过度拟合,分类速度快,能高效处理大样本数据等特点。 Bagging和AdaBoost等方法只是通过改变样本的权重来获得不同的弱分类器。随机森林(RF)则通过同时改变样本和特征子集来获得不同的弱分类器。 随机森林算法 随机森林是采用随机的方式建立一个森林,森林有很多决策树组成,每棵决策树之间没有关联。对于新的测试样本,让森林中的每一棵决策树分布分别进行一下判断,依据多数者投票方法决定样本的类别。 完全分裂的方式 随机特征选取 当特征个数M较多时,随机选择m个用于训练决策树。m越小,树的相关性越小,且训练速度越快。 当特征个数M较少时,可以由M个特征进行随机线性组合来产生M’ 个扩展特征,然后,在(M+M’)上随机选择m个特征,构建决策树。 其中,每一个扩展特征的构造如下: 从现有M特征中随机抽取L个,它们的权重系数是[-1,+1]区间的均匀随机数。然后,由L个已有特征线性组合出扩展特征。 随机特征数的确定 选择性集成算法 一方面,使用更多的学习器将导致更大的计算和存储开销,另一方面
文档评论(0)