adaboost算法原理.pptVIP

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
adaboost算法原理

Adaboost 对于m=1,在权值分布为D1(10个数据,每个数据的权值皆初始化为0.1)的训练数据上,经过计算可得: 阈值v取2.5时误差率为0.3(x 2.5时取1,x 2.5时取-1,则6 7 8分错,误差率为0.3), 阈值v取5.5时误差率最低为0.4(x 5.5时取1,x 5.5时取-1,则3 4 5 6 7 8皆分错,误差率0.6大于0.5,不可取。故令x 5.5时取1,x 5.5时取-1,则0 1 2 9分错,误差率为0.4), 阈值v取8.5时误差率为0.3(x 8.5时取1,x 8.5时取-1,则3 4 5分错,误差率为0.3)。 所以无论阈值v取2.5,还是8.5,总得分错3个样本,故可任取其中任意一个如2.5,弄成第一个基本分类器为: 从而得到G1(x)在训练数据集上的误差率(被G1(x)误分类样本“6 7 8”的权值之和)e1=P(G1(xi)≠yi) = 3*0.1 = 0.3。 然后根据误差率e1计算G1的系数: 这个a1代表G1(x)在最终的分类函数中所占的权重,为0.4236。 迭代过程1 Adaboost 迭代过程1 接着更新训练数据的权值分布,用于下一轮迭代: 值得一提的是,由权值更新的公式可知,每个样本的新权值是变大还是变小,取决于它是被分错还是被分正确。 即如果某个样本被分错了,则yi * Gm(xi)为负,负负等正,结果使得整个式子变大(样本权值变大),否则变小。 第一轮迭代后,最后得到各个数据新的权值分布D2 = (0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.1666, 0.1666, 0.1666, 0.0715)。由此可以看出,因为样本中是数据“6 7 8”被G1(x)分错了,所以它们的权值由之前的0.1增大到0.1666,反之,其它数据皆被分正确,所以它们的权值皆由之前的0.1减小到0.0715。 分类函数f1(x)= a1*G1(x) = 0.4236G1(x)。 此时,得到的第一个基本分类器sign(f1(x))在训练数据集上有3个误分类点(即6 7 8)。 从上述第一轮的整个迭代过程可以看出:被误分类样本的权值之和影响误差率,误差率影响基本分类器在最终分类器中所占的权重。 Adaboost 迭代过程2 对于m=2,在权值分布为D2 = (0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.1666, 0.1666, 0.1666, 0.0715)的训练数据上,经过计算可得: 阈值v取2.5时误差率为0.1666*3(x 2.5时取1,x 2.5时取-1,则6 7 8分错,误差率为0.1666*3), 阈值v取5.5时误差率最低为0.0715*4(x 5.5时取1,x 5.5时取-1,则0 1 2 9分错,误差率为0.0715*3 + 0.0715), 阈值v取8.5时误差率为0.0715*3(x 8.5时取1,x 8.5时取-1,则3 4 5分错,误差率为0.0715*3)。 所以,阈值v取8.5时误差率最低,故第二个基本分类器为: 面对的还是下述样本: 很明显,G2(x)把样本“3 4 5”分错了,根据D2可知它们的权值为0.0715, 0.0715, 0.0715,所以G2(x)在训练数据集上的误差率e2=P(G2(xi)≠yi) = 0.0715 * 3 = 0.2143。 Adaboost 迭代过程2 计算G2的系数: 更新训练数据的权值分布: D3 = (0.0455, 0.0455, 0.0455, 0.1667, 0.1667, 0.01667, 0.1060, 0.1060, 0.1060, 0.0455)。被分错的样本“3 4 5”的权值变大,其它被分对的样本的权值变小。 f2(x)=0.4236G1(x) + 0.6496G2(x) 此时,得到的第二个基本分类器sign(f2(x))在训练数据集上有3个误分类点(即3 4 5)。 封面 目录 过渡 过渡 过渡 过渡 图表 图片 文字 文字 文字 图片 文字 文字 文字 文字 文字 文字 封底 Adaboost Adaboost 算法的原理与推导 目录 1 2 3 Adaboost算法基础 Adaboost算法原理 Adaboost算法示例 Adaboost 1 Adaboost算法基础 Adaboost 分类是数据挖掘的一种非常重要的方法。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型(即:分类器(Classifier))。

文档评论(0)

骨干 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档