- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主成分分析 主成分分析(principal component Analysis),是由皮尔逊(pearson)于1901年首先引入,后来由霍特林(hotelling)于1933年进行了发展。 在实际问题中,为了尽可能完整的获取有关的信息,往往需要考虑众多的变量,这虽然可以避免重要信息的疏漏,但也增加了分析的复杂性,一般来说,当研究的问题涉及很多变量,并且变量间相关性明显,即包含的信息有所重叠时,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。这样容易抓住事物的主要矛盾,使得问题得到简化。 主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的多元统计方法,这些主成分能够反映原始变量的大部分信息,通常表示为原始变量的线性组合,为使得这些主成分所包含的信息互不重叠,要求各主成分之间互不相关。 本章主要内容包括:主成分分析的理论简介,主成分分析的MATLAB实现,主成分分析的主要具体案例。 11.1主成分分析简介 11.1.1主成分分析的几何意义 假设从二元总体 (EX=0)中抽取容量为n的样本,绘出样本观测值的散点图,散点大致分布在一个椭圆内与呈现出明显的线性相关。这n个样品在轴方向和方向具有相似的离散度,离散度可以用和包含了近视相等的信息量,丢掉其中任意一个变量,都会损失比较多的信息。逆时针旋转一个角度,使得轴旋转到椭圆的长轴方向,轴旋转到椭圆的短轴,则有 (11.1) 此时可以看到,n个点在新坐标系下的坐标和几乎不相关,并且的方差要比的方差大得多,也就是说包含了原始数据中大部分的信息,此时丢掉变量,信息的损失是比较小的。这里称为第一主成分为第二主成分。 主成分分析的目的就是对原变量加以改造,在不致损失原变量太多信息的情况下尽可能地降低原变量的维数,即用较少的新变量代替原来的各变量。 主成分分析的过程其实就是坐标系旋转的过程,新坐标系的各个坐标系的轴的方向是原始数据变差最大的方向,各主成分表达式就是新旧坐标转换关系式。 11.1.2 总体的主成分 1、从总体协方差矩阵出发求解主成分 设为一个维总体,假定期望和协方差矩阵均存在并已知,记,,考虑如下线性变换 其中,均为单位向量。 下面求,使得的方差达到最大。 设为的个特征值,为相应的正交单位特征向量,即,,,, 由矩阵知识可知 其中为正交矩阵,是对角元素为的对角矩阵。 考虑的方差 (11.3) 由式(11.3)可知,当时,的方差达到最大,最大值为。称为第一主成分。如果第一主成分从数据中提取的信息还不够多,还应考虑第二主成分。下面求,在条件下使得的方差达到最大。由 可得,于是 (11.4) 由式(11.4)可知,当时,的方差达到最大,最大值为。称为第二主成分。类似的,在约束下可得,当时的方差达到最大,最大值为。称 为第i主成分。 2主成分的性质 (1)主成分向量的协方差矩阵为对角阵 记 (11.5) 则 , 即主成分向量的协方差矩阵为对角矩阵。 (2)主成分的总方差等于原始变量的总方差: 设协方差矩阵,则,于是 由此可见,原始数据的总方差等于个互不相关的主成分的方差之和,也就是说个互不相关的主成分包含了原始数据中的全部信息,但是主成分所包含的信息更为集中。 总方差中第个主成分的方差所占的比例称为主成分的贡献率。主成分的贡献率反映了主成分综合原始变量信息的能力,也可理解为解释原始变量的能力。由贡献率定义知,个主成分的贡献率依次递减,即综合原始变量信息的能力依次递减。第一个主成分的贡献率最大,即第一个主成分综合原始变量信息的能力强。 前个主成分的贡献率之和称为前个主成分的累积贡献率,它反映了前个主成分综合原始变量信息(或解释原始变量)的能力。由于主成分分析的主要目的是降维,所以需要在信息损失不太多的情况下,用少数几个主成分来代替原始变量,以进行后续的分析,究竟用几个主成分来代替原始变量才合适呢?通常的做法是取较小的,使得恰前个主成分的累积贡献率不低于某一水平(如85%以上),这样就达到了降维的目的。 (3)原始变量与主成分之间的相关系数 由式(11.5)可知于是 (11.6) 从而 (4)前个主成分对变量的贡献率 称
文档评论(0)