MATLAB主成分数据处理.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主成分(matlab夏令营数据处理) 主成分分析(principal component Analysis)又称主分量分析,是由皮尔逊(pearson)于1901年首先引入,后来由霍特林(hotelling)于1933年进行了发展。主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的多元统计方法,这些主成分能够反映原始变量的大部分信息,通常表示为原始变量的线性组合,为使得这些主成分所包含的信息互不重叠,要求各主成分之间互不相关。主成分分析在很多领域有着广泛的应用,一般来说,当研究的问题涉及很多变量,并且变量间相关性明显,即包含的信息有所重叠时,可以考虑用主成分分析的方法,这样容易抓住事物的主要矛盾,使得问题得到简化。 本章主要内容包括:主成分分析的理论简介,主成分分析的MATLAB实现,主成分分析的主要具体案例。 11.1主成分分析简介 11.1.1主成分分析的几何意义 假设从二元总体中抽取容量为n的样本,绘出样本观测值的散点图,如图11-1所示。从图上可以看出,散点大致分布在一个椭圆内与呈现出明显的线性相关。这n个样品在轴方向和方向具有相似的离散度,离散度可以用和包含了近视相等的信息量,丢掉其中任意一个变量,都会损失比较多的信息。图11-1中坐标按逆时针旋转一个角度,使得轴旋转到椭圆的长轴方向,轴旋转到椭圆的短轴,则有 (11.1) 此时可以看到,n个点在新坐标系下的坐标和几乎不相关,并且的方差要比的方差大得多,也就是说包含了原始数据中大部分的信息,此时丢掉变量,信息的损失是比较小的。这里称为第一主成分为第二主成分。 主成分分析的过程其实就是坐标系旋转的过程,新坐标系的各个坐标系的轴的方向是原始数据变差最大的方向,各主成分表达式就是新旧坐标转换关系式。 11.1.2 总体的主成分 1从总体协方差矩阵出发求解主成分 设为一个维总体,假定期望和协方差矩阵均存在并已知,记,,考虑如下线性变换 其中,均为单位向量。下面求,使得的方差达到最大。 设为的个特征值,为相应的正交单位特征向量,即,,,, 由矩阵知识可知 其中为正交矩阵,是对角元素为的对角矩阵。 考虑的方差 (11.3) 由式(11.3)可知,当时,的方差达到最大,最大值为。称为第一主成分。如果第一主成分从数据中提取的信息还不够多,还应考虑第二主成分。下面求,在条件下使得的方差达到最大。由 可得,于是 (11.4) 由式(11.4)可知,当时,的方差达到最大,最大值为。称为第二主成分。类似的,在约束下可得,当时的方差达到最大,最大值为。称 为第i主成分。 2主成分的性质 (1)主成分向量的协方差矩阵为对角阵 记 (11.5) 则 , 即主成分向量的协方差矩阵为对角矩阵。 (2)主成分的总方差等于原始变量的总方差: 设协方差矩阵,则,于是 由此可见,原始数据的总方差等于个互不相关的主成分的方差之和,也就是说个互不相关的主成分包含了原始数据中的全部信息,但是主成分所包含的信息更为集中。 总方差中第个主成分的方差所占的比例称为主成分的贡献率。主成分的贡献率反映了主成分综合原始变量信息的能力,也可理解为解释原始变量的能力。由贡献率定义知,个主成分的贡献率依次递减,即综合原始变量信息的能力依次递减。第一个主成分的贡献率最大,即第一个主成分综合原始变量信息的能力强。 前个主成分的贡献率之和称为前个主成分的累积贡献率,它反映了前个主成分综合原始变量信息(或解释原始变量)的能力。由于主成分分析的主要目的是降维,所以需要在信息损失不太多的情况下,用少数几个主成分来代替原始变量,以进行后续的分析,究竟用几个主成分来代替原始变量才合适呢?通常的做法是取较小的,使得恰前个主成分的累积贡献率不低于某一水平(如85%以上),这样就达到了降维的目的。 (3)原始变量与主成分之间的相关系数 由式(11.5)可知于是 (11.6) 从而 (4)前个主成分对变量的贡献率 称 为前个主成分对变量的贡献率。这个贡献率反映了前个主成分从变量中提取的信息的多少。由式(11.6)可知,固所有个主成分对变量的贡献率为 (5)原始变量对主成分的贡献 主成分的表达式为 称为第个主成分在第个原始变量上的载荷,它反映了对的重要程度。在实际问题中,通常根据载荷解释主成分的实际意义。 3,从总体相关系数

文档评论(1)

  • 用户头像 下一个明天☆另一 2015-01-23 15:33:02
    没有说完啊
企业资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档