- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[理学]ch8 特征选择和提取
第八章 特征的选择与提取 §1 类别可分离性判据 §2 特征提取 §3 特征选择 特征提取与选择的基本任务是研究如何从众多特征中求出那些对分类识别最有效的特征,从而实现特征空间维数的压缩,即获取一组“少而精”且分类错误概率小的分类待征. 有时特征提取和选择并不是截然分开的。例如,可以先将原始特征空间映射到维数较低的空间,在这个空间中再进行选择以进一步降低维数;也可以先经过选择去掉那些明显没有分类信息的特征,再进行映射以降低维数。 特征的选择与提取举例 细胞自动识别: 原始测量:(正常与异常)细胞的数字图像 原始特征(特征的形成,找到一组代表细胞性质的特征):细胞面积,胞核面积,形状系数,光密度,核内纹理,核浆比 压缩特征:原始特征的维数仍很高,需压缩以便于分类 特征选择:挑选最有分类信息的特征 特征提取:数学变换 傅立叶变换或小波变换 用PCA方法作特征压缩 特征的选择与提取举例 特征提取和选择:对单个鱼的信息进行特征选择,从而通过测量某些特征来减少信息量 长度 亮度 宽度 鱼翅的数量和形状 嘴的位置,等等 … 分类决策:把特征送入决策分类器 特征的选择与提取举例 特征的选择与提取举例 特征的选择与提取举例 特征的选择与提取举例 特征的选择与提取举例 细胞自动识别: 原始测量:(正常与异常)细胞的数字图像 原始特征(特征的形成,找到一组代表细胞性质的特征):细胞面积,胞核面积,形状系数,光密度,核内纹理,核浆比 压缩特征:原始特征的维数仍很高,需压缩以便于分类 特征选择:挑选最有分类信息的特征 特征提取:数学变换 傅立叶变换或小波变换 用PCA方法作特征压缩 §1 类别可分离性判据 1.准则函数-判据 2.基于类间距离的可分性判据 3.基于概率分布的可分性判据 4.基于熵函数的可分性判据 1.准则函数 类别可分离性判据:衡量不同特征及其组合对分类是否有效的定量准则 理想准则:某组特征使分类器错误概率最小 实际的类别可分离性判据应满足的条件: 与错误率有单调关系 当特征独立时有可加性: 度量特性: 单调性: 常用类别可分离性判据:基于距离、概率分布、熵函数 2. 类内类间距离 2. 类内类间距离 2. 类内类间距离 2. 类内类间距离 2. 类内类间距离 2. 类内类间距离 1) 基于类内类间距离的可分离性判据是一种常用的判据,它实际上是各类向量之间的平均距离。 2) 具体而言,即 J(x) 表示各类特征向量之间的平均距离,我们通常认为 J(x) 越大,可分离性越好。 3) 这种判据优点是计算简单;缺点是当类间距离较小,类内距离较大时,判据仍有可能取得较大的值,而此时的可分离性并不大。 3.基于概率分布的可分性判据 上面介绍的距离准则是直接从各类样本间的距离算出的,没有考虑各类的概率分布,不能确切表明各类交叠的情况,因此与错误概率没有直接联系,下面提出一些基于概率分布的可分性判据. 4.基于熵函数的可分性判据 4.基于熵函数的可分性判据 4.基于熵函数的可分性判据 4.基于熵函数的可分性判据 §2 特征提取 1 按欧氏距离度量的特征提取方法 2 基于判别熵最小化的特征提取 3 两维显示 4 基于主成分变换的特征提取方法 §2 特征提取 4 基于主成分变换的特征提取方法 在实际问题中, 研究多变量问题是经常遇到的,然而在多数情况下, 不同指标之间是有一定相关性。由于指标较多, 再加上指标之间有一定的相关性,势必增加了分析问题的复杂性. 主成分分析就是设法将原来指标重新组合成一组新的相互无关的几个综合指标来代替原来指标, 同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息。 这种将多个指标化为少数相互无关的综合指标的统计方法叫做主成分分析(Principal Component Analysis). 4 基于主成分变换的特征提取方法 4 基于主成分变换的特征提取方法 主成分分析的基本方法是通过构造原变量的适当的线性组合, 以产生一系列互不相关的新信息, 从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息, 从而使得用这几个新变量代替原变量分析问题和解决问题成为可能. 当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量. 4 基于主成分变换的特征提取方法 (1)数学模型 (2)主成分的计算方法 分别以S和R作为∑和ρ的估计,按前面所述的方法求得的主成分称为样本主成分.具体有如下结论: 这时 为了消除量纲的影响,我们可以对样本进行标准化,即令 3) 主成分解释 (4)举例 %Example 1 % Cov_x=[1 -2 0;-2 5 0;0 0 2]; % 协方差矩阵; % [V , D]=eig(Cov_x); % 协方差矩阵的特征
文档评论(0)