- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主成分分析华东理工版
主成分分析简介 Principal Component Analysis(PCA) 什么是主成分分析? 我们来看一个例子:小学各科成绩的评估可以用下面的综合成绩来体现: a1×語文+a2×数学+a3×自然+a4×社会科学 确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成绩总和就相对于新的综合变量——主成分 什么是主成分分析? 推而广之,当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合起来处理,这就是PCA。 这样综合处理的原则是使新的综合变量能够解释大部分原始数据方差。 什么是主成分分析? 由于各种量测到数据通常是以矩阵的形式记录、表达和存储的,实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看,就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。 主成分分析(Principal Component Analysis, 简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。 为什么要根据方差确定主成分? 对主成分的要求 上例可见,用总分有时可以反映原分数表的情况,保留原有信息,有时则把信息丢尽,不能反映原理的情况和差异。根据总分所对应的方差可以确定其代表了多大比例的原始数据(分数)信息。 一般来说,我们希望能用一个或少数几个综合指标(分数)来代替原来分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具有最大的方差。 主成分分析的目的 压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量,也就是所谓的主成分。 这样就可以消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题。 主成分得分(潜变量-latent variable) 主成分轴、载荷向量 原始数据前的加权系数决定了新的综合变量主成分(得分)的大小和性质,通常称为主成分轴或者载荷向量(载荷轴、载荷系数)。 主成分分析的关键就是确定这些系数,这些系数构成了新的坐标系,将原始变量在新的坐标系下投影就可求得新坐标系下的变量值(主成分得分)。 三变量主成分分析示意图 PC1=a1xi1+a2xi2+a3xi3 PC2= b1xi1+b2xi2+b3xi3 对三维空间下的一组样本(设样本数为n), 其原始变量的坐标系为x1,x2,x3,在对原始坐 标系经过坐标平移、尺度伸缩、旋转等变换 后, 得到一组新的、相互正交的坐标轴v1,v2 , 可使原始变量在新坐标系上的投影值(分 别称为第一、第二主成分)的方差达到最 大。其中v1,v2称为第一、第二载荷轴。对于 m维空间,载荷轴的个数最多为m。 主成分变换将三维空间的样本显示在二维空间 为什么要进行主成分分析? 消除原始变量间存在的共线性,克服由此造成的运算不稳定、矩阵病态等问题 压缩变量个数,剔除冗余信息,使模型更好地反映真实情况。 PCA分析在很多领域有广泛应用(模式识别、化学组分的定量分析、多元物系的组分数目确定、动力学反应机理的确定等) 为什么要进行主成分分析? 对p个变量进行n次观测得到的观测数据可用下面的矩阵表示 采用PCA技术可以将上述矩阵的列数压缩。 基本概念 协方差(covariance) 方差 标准差 基本概念 相关系数(correlation coefficient ) 协方差数据矩阵的每一列对应一个变量的n个量测值,任意两列之间可以计算两变量间的协方差cov(i,j),i=j时, 协方差矩阵 ii)求协方差矩阵Z iii)特征分解 相当于将原来的坐标轴进行旋转得到新的坐标 轴U: —Z的特征值组成的对角阵 U—Z的特征向量按列组成的正交阵,它构成 了新的矢量空间,作为新变量(主成分)的坐 标轴,又称为载荷轴。 iv) 确定主成分个数 (1)根据累积贡献率 当 大于某个阈值时,可认为主成分数目为m。 (2)根据其它准则 * 特征值大于1.0的因子数定为主成分数。 * 利用特征值与因子数目的曲线,到某一因子数后,特征值减小幅度变
文档评论(0)