- 1、本文档共76页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计学习理论与支持向量机
内容提要 统计学习理论的基本概念与原理 支持向量机 支持向量机在性别分类中的应用 总结与展望 统计学习方法概述 统计方法是主要研究如何从一些观测(样本)出发得出目前尚不能规律,利用这些规律去分析客观现象,对未来数据或无法观测的数据进行预测。就是说,观测一些自然现象或专门安排的实验所得资料,是否与理论相符、在多大的程度上相符、偏离可能是朝哪个方向等等问题,都需要用统计分析的方法处理。 统计学习方法概述 统计学习方法: 传统方法: 统计学在解决机器学习问题中起着基础性的作用。传统的统计学所研究的主要是渐近理论,即当样本趋向于无穷多时的统计性质。统计学中关于估计的一致性,无偏性和估计方差的界等以及关于分类错误率都属于渐进特性。统计方法主要考虑测试预想的假设和数据模型拟合。它依赖于显式的基本概率模型。 模糊集 粗糙集 支持向量机 统计学习方法概述 统计方法处理过程可以分为三个阶段: (1)搜集数据:采样、实验设计 (2)分析数据:建模、知识发现、可视化 (3)进行推理:预测、分类 常见的统计方法有: 回归分析(多元回归、自回归等) 判别分析(贝叶斯判别、费歇尔判别、非参数判别等) 聚类分析(系统聚类、动态聚类等) 统计学习理论的发展 Vladimir N.Vapnik等人早在20世纪60年代就开始研究有限样本情况下的机器学习问题,由于当时这些研究尚不十分完善,在解决模式识别问题上趋于保守,且数学上比较艰涩,而直到90世纪以前并没有能够将其理论付诸实现的较好方法,直到90年代中,有限样本情况下的机器学习理论逐渐成熟起来,形成了一个完善的理论体系---统计学习理论(Statistical Learning Theory简称SLT) 统计学习理论 函数估计模型 学习样本的函数: 期望风险 预测函数 经验风险 经验风险最小化 首先Remp(w)和R(w)都是w的函数,传统概率论中大数定理只说明了(在一定条件下)当样本趋于无穷多时Remp(w)将在概率意义上趋近于R(w),却没有保证使Remp(w)最小的点w*与使R(w) 最小的w’*是同一个点(同步最小),更不能保证Remp(w*) 能够趋于Remp(w’*) 。 其次,即使我们有办法找到这些条件在样本数无穷大时得到保证,我们也无法认定这些前提下得到的经验风险最小化方法在样本数有限时仍能得到最好的结果。 经验风险 过学习 在早期的神经网络研究中,人们总是把注意力集中到如何使Remp(w)最小,但很快发现,一味的训练误差小并不是总是能达到很好的预测效果,人们将学习机器对未来输出进行正确预测能力称为推广性,某些情况下,当训练误差过小反而会导致推广能力的降低,这几乎是所有神经网络遇到的所谓的过学习问题(overfitting)。从理论上看模式识别也存在同样的问题,但因为所用的分类器模型是相对比较简单的,所以学习问题不像神经网络出。 之所以出现过学习现象,一是因为学习样本不充分,二是学习机器设计不合理,这两个问题是相互关联的 过学习 过学习Overfitting and underfitting 统计学习理论的核心内容 统计学习理论被认为是目前针对小样本统计估计和预测学习的最佳理论。它从理论上较为系统的研究了经验风险最小化原则成立的条件,有限样本下经验风险与期望风险的关系及如何利用这些理论找到新的学习原则和方法等问题,其主要包括下面四个方面 (1)经验风险最小化原则统计学习一致性的条件; (2)在这些条件下关于统计学习方法推广性的界的结论; (3)在这些界的基础上建立小样本归纳推理准则 (4)实现这些新的原则的实际方法(算法) 学习过程的一致性问题 学习过程一致性 训练样本数n??时,有 Remp(w) ? R(w),经验风险的最优值可以收敛到真实风险最优值。称该学习过程是一致的,又称该学习过程满足一致性。 学习过程的一致性问题 经验风险和真实风险的关系示意图 统计学习理论的关键定理 如果损失函数有界,则经验风险最小化学 习一致的充分必要条件是 函数集的学习性能与VC维 为了研究函数集在经验风险最小化原则下的学习一致性问题和一致性收敛速度,统计学习理论定义了一系列有关函数集学习性能的指标。 1 指示函数集的熵和生长函数 设指示函数集和训练样本集为 函数集的学习性能 定义2:指示函数的熵 将随机熵取期望,称为指示函数的熵H(n)=E[lnN(Zn)] 定义3生长函数 函数集的生长函数定义为,在所有可能的样本集上的最大随机熵 VC维 VC维 如果存在有h个样本的样本集能够被函数集中的函数“打散”,而不存在有h+1个样本的样本集能够被函数集中的函数“打散”,则函数集的VC维
您可能关注的文档
- 结果和任务.ppt
- 结核病诊疗及其进展.ppt
- 经编针织物CAD系统.ppt
- 经验抗菌药物的诊疗.ppt
- 绘本 好忙的蜘蛛.ppt
- 给学生 Chapter Ten.ppt
- 结肠癌英文文献抄读.ppt
- 绘制工程图.ppt
- 给排水监控系统.doc
- 结构化学 双原子分子.ppt
- 2025年市国资委党委开展深入贯彻中央八项规定精神学习教育工作方案与开展学习中央八项规定主题教育工作方案(2篇文).docx
- 在2025年市商务局党组研究部署深入贯彻中央八项规定精神学习教育专题会上的讲话稿、教育动员部署会议上的讲话提纲【2篇文】.docx
- 开展2025年学习八项规定主题教育工作方案与领导在局机关深入贯彻八项规定精神学习教育部署会上的讲话稿(两篇文).docx
- 2025年深入贯彻中央八项规定精神学习教育实施方案与全面落实中央八项规定精神情况总结(2篇文).docx
- 2025年落实中央八项规定精神情况总结稿与领导在深入贯彻中央八项规定精神学习教育工作会议的主持讲话稿(2篇文).docx
- 2025年组织部长在八项规定学习教育工作专班座谈会的讲话稿与开展学习中央八项规定主题教育工作方案(两篇文).docx
- 学习2025年深入贯彻中央八项规定精神知识测试题135题【附答案】与全面深入贯彻中央八项规定精神学习教育实施方案.docx
- 2025年县委书记在中央八项规定精神学习教育动员会上的讲话稿遵守党的政治纪律和落实中央八项规定精神情况个人对照检查材料(2篇文).docx
- 2025年在深入贯彻中央八项规定精神学习教育动员部署会上的讲话稿与在市委党的建设工作领导小组会议暨部署深入贯彻中央八项规定精神学习教育专题会讲话稿(两篇文).docx
- 2025年市工业园区党工委开展深入贯彻中央八项规定精神学习教育工作方案与深入贯彻中央八项规定精神学习教育动员部署会讲话提纲【2篇文】.docx
文档评论(0)