机器学习第一次.ppt

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习第一次重点讲义

更新权值向量分布 线性组合 最终分类器 的符号表示实例的类,绝对值表示分类的确信度 * * * * AdaBoost算法的模型为加法模型,损失函数为指数损失,算法是前向分步算法,其功能十分强大,能够快速处理其他分类器很难处理的数据集,基本分类器可以为任何分类器,比如以决策树为基本分类器就构成了提升树;并且效率高,训练误差以指数速率下降,不用考虑过拟合等问题,广泛应用于人脸图像检测、人体目标检测和数字识别技术中 T H A N K ~ S * * * 李新卫 * * 机器学习 熟悉K近邻法、朴素贝叶斯、决策树、logistic回归和SVM等理论知识 了解提升方法、EM算法、隐马尔科夫和条件随机场 * * 机器学习是利用统计学、工程技术等学科知识,以计算机为工具对海量数据进行处理,把无序的数据转化为有用的信息,主要分为监督学习、非监督学习、半监督学习和强化学习。 简 介 * * 学习一个模型,使模型能够对任意给定的输入,对应输出一个好的预测,主要包括分类与回归。 数据集: 监督学习 * * 方法=模型+策略+算法 模型:条件概率分布、决策函数,比如线性模型 策略:按照学习准则选择最优模型, 包括经验风险最小化和结构风险最小化 算法:考虑用什么计算方法求解最优模型 学习方法 * * 一种描述对实例进行分类的树形结构,内部结点表示特征,叶结点表示类。从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子结点,如此递归地对实例进行测试并分配,直至达到叶结点 决策树 * * 条件熵: 信息增益: 信息增益越大,分类能力越强 * * 决策树的生成: ID3算法:以信息增益准则选择特征,递归地构建决策树,直到所有特征的信息增益均很小或没有特征可以选择 C4.5算法:避免了 ID3算法中偏向于选择取值较多的特征,使用信息增益比进行校正 其中: * * 决策树的修剪:为了避免过拟合现象的产生,需要对决策树进行修剪来提高模型的泛化能力,具体地,从已生成的树上剪掉一些子树,将其父结点作为新的叶结点来降低模型的复杂度,以此来降低结构风险最小化 * * AdaBoost方法 通过改变训练样本的权重,学习多个弱分类器,将这些弱分类器线性组合,提高分类能力。 如何改变权重? 提高被前一轮弱分类器错误分类样本的权值,同时降低那些被正确分类样本的权值 如何将弱分类器组合成强分类器? 加大分类误差率小的弱分类器的权值,使其在表决中起重要作用;减小分类误差率大的弱分类器的权值,使其在表决中起次要作用 * * 初始化训练数据集的权值分布 使用权值分布 得到基本分类器 分类误差率 系数 * * *

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档