13模式识别-第十三章_统计学习理论与支持向量机.ppt

下载文档 降价啦

76
0
约6.89千字
约 77页
2017-09-23 发布于北京
举报
版权申诉
保障服务

13模式识别-第十三章_统计学习理论与支持向量机.ppt

1、本文档共77页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

10.4.3 支持向量机支持向量机的数学表达最优分类的优化函数与最优分类函数表达式中都含有内积运算如果将表达式中的内积运算由内积函数来代替，将原来的特征空间作非线性变换，则优化函数成为最优分类函数成为则称为支持向量机。支持向量机的基本思想使用非线性的内积函数，将输入空间作非线性变换，变换到一个高维空间，然后在高维空间中确定最优分类面。非线性变换是由内积函数实现的。支持向量机的拓扑结构支持向量机的拓扑结构类似一个RBF神经网络。输入层：中间层：基于s个支持向量的内积变换输出层：（决策规则）加权系数：常用的内积函数不同的内积函数表现为不同的支持向量机算法，常用的内积函数有以下几类（1）多项式内积函数（2）高斯核内积函数（3）S型内积函数（4）指数型内积函数（5）线性内积函数线性内积函数，是内积函数的一个特例。例题样本集合如图所示。4个样本其中x1 x2，属于第1类，y1=+1 其中x3 x4，属于第2类，y2=-1 由优化函数代入展开利用最优化条件（1）并对Q求偏导，得到方程组解方程组得到：显然x1不是支持向量，乘子?1=0 ，其余样本构成支持向量，乘子不为零。利用最优化条件（2），计算最优加权系数向量w*，为样本点加权线性组合，得到由条件方程求得偏移量 b*=3/4 最优分类面方程为小结 1 统计学习理论与支持向量机是对有限样本下模式识别的一些根本问题的系统的理论研究结果。 2 解决了在机器学习中困扰多年的许多问题模型选择过学习问题非线性维数灾难局部极小问题等等 3 许多传统的机器学习问题可以由支持向量机方法来等价。 4 统计学习理论与支持向量机可以作为机器学习问题的基本框架。 5 存在问题许多理论问题仍然没有解决如函数子集的结构设计 VC维的计算和估计问题支持向量机的内积函数选择等等期望风险——R(w*|n)，在L(y, f(x,w*|n))下的，由式得到的真实风险值。如果满足其中为实际真实风险的下确界。则称为经验风险最小化学习过程是一致的。几何意义定理：学习理论关键定理如果损失函数有界，则经验风险最小化学习一致的充分必要条件是即经验风险一致收敛于真实风险其中： P —— 表示概率 Remp(w)——经验风险 R(w) —— 同一w的真实风险定理说明： 1 在统计学习理论中是即为重要的。 2 将学习一致性问题转化为公式的一致收敛问题。 3 定理既依赖于预测函数集合，又依赖于样本的概率分布。 4 双边一致收敛表达式为 5 经验风险与期望风险都是泛函（预测函数的函数）。 6 目的不是用经验风险取逼近期望风险而是通过求使经验风险最小化的函数来逼近能使期望风险最小化的函数。 7 与传统统计学中的一致性条件相比，该一致性条件更加严格。 8 由公式可知，该一致性条件是取决于预测函数中最差的函数的，因此是最坏情况分析。 9 定理本身虽然给出了经验风险最小化原则成立的充分必要条件，但是该定理并没有给出什么样的方法能够满足这些条件。基于上述讨论，统计学习理论研究了一些评价预测函数集合的性能指标。 10.3.1 函数集合的学习性能与VC维统计学习理论研究了一些评价预测函数集合的性能指标。这些性能指标是基于两类分类函数提出的，扩展到一般函数 ?1 指示函数集的熵和生长函数设指示函数集和训练样本集为函数集中的函数能够对样本集实现不同的分类方法数目，记为N(Zn) 定义1：随机熵将上述不同的分类方法数目的对数定义为随机熵 H(Zn)=lnN(Zn) 说明：随机熵与分类函数集合有关，且与样本集有关。定义2：指示函数的熵将随机熵取期望，称为指示函数的熵 H(n)=E[lnN(Zn)] 又称VC熵。定义3：退火VC熵 Hann(n)=lnE[N(Zn)] 定义4：生长函数函数集的生长函数定义为，在所有可能的样本集上的最大随机熵说明： 1 生长函数描述了函数集把n个样本分成两类的最大可能的分法数目 2 最大值： 3 由于是在所有可能的样本集中取最大，因此与样本分布无关。 VC熵，退火VC熵，生长函数之间的关系为下面是几个关键定理定理1：函数集学习过程双边一致收敛充分必要条件为（由指示函数熵来表示学习理论关键定理，与学习理论关键定理等价定理2：函数集学习过程收敛速度快的充分必要条件为定理3：函数集学习过程一致收敛的充分必要条件是对任意样本分布，