主成分剖析[指南].pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主成分剖析[指南]

主成分分析 在许多实际问题中,经常用多个变量来刻划某一事物,但由于这些变量之间往往具有相关性,很多变量带有重复信息,这样就给分析问题带来了很多不便,同时也使分析结论不具有真实性和可靠性,因此,人们希望寻找到少量几个综合变量来代替原来较多的变量,使这几个综合变量能较全面地反映原来多项变量的信息,同时相互之间不相关。主成分分析正是满足上述要求的一种处理多变量问题的方法。;一、基本思想 主成分分析就是设法将原来的p个指标重新组合成一组相 互无关的新指标的过程。通常数学上的处理就是将原来的p 个指标做线性组合。 在二维空间,n个样本点的变量信息若用离差平方和来表 示,则变量的信息总量为总方差 对于每个变量的离差平方和,它们的取值可能出现各种情况:; (1)如果离差平方和L和M之间相差悬殊,如取值之比为 10:1,说明变量x1在方差总信息量中占较重要的地位,可剔 除变量x2达到降维的目的; (2)如果L和M数值相差不大,说明两个指标在方差总信息量 中的比重相当,统计分析时,两个指标都不可放弃,此时可 对x1、x2作适当的变量替换,通过某方法寻找到两个新的变 量y1、y2 (必须是原变量x1、x2的线性组合),使新变量: 上式说明新变量y继承了原变量x的全部信息,并且要求L1和 L2数值比例相差较大,;这时仅用y1来分析原问题就可以了,变量的个数从2变为了 1。此时的y1方差最大,包含的信息最多。y1称之为第一主 成分,y2称为第二主成分。 推而广之,第一主成分y1的方差达到最大,其方差越大,表 示其所包含的信息越多。如果第一主成分还不能反映原指标 的全部信息,再考虑选取第二主成分y2,y2在剩余的线性组 合中方差最大,并且与y1不相关,如若第一、第二主成分仍 然不能反映原变量的全部信息,再考虑选取第三主成分y3, y3在剩余的线性组合中方差最大,并且与y1、y2不相关,依 此可求出全部p个主成分,它们的方差是依次递减的。在实 际工作中,在不损失较多信息的情况下,通常选取前几个主 成分来进行分析,达到简化数据结构的目的。;二、数学模型 主成分分析可以针对总体,也可以针对样??,但在许多问题 中所涉及的总体都是未知的,所以主要讨论样本的主成分。 仍从二维空间入手,设有两个变量的信息,大部分的样本点 集中在椭圆范围内: 如果取椭圆的长轴y1、短轴y2作为样本点新的坐标轴,容易 看出y1坐标变化程度大,即y1的方差最大,而y2的变化程度 相对较小,即y2的方差较小。于是可以说变量(x1,x2)的信 息大部分集中在新变量y1上,而小部分集中在新变量y2上。;上图中的新坐标y1,y2是x1,x2经过坐标旋转而得到的,其 旋转公式为: 称y1为它们的第一主成分,y2为它们的第二主成分,坐标的 正交变换为主成分变换。推广开来,设有n个样本点,每个 样本点都有p项变量x1,x2,…,xp,其原始数据矩阵表示为: ;其中xij是第i个样本点第j个指标的观测值。如前所述,通过主 成分变换得到的线性组合可以表示为x1,x2,…,xp的线性组合 (*) 如果系数uij满足; 而且系数uij的确使yi、与yj(i≠j)相互无关,并使y1是 x1,x2,…,xp的一切线性组合中方差最大者,y2是与y1不相关 的x1,x2,…,xp的所有线性组合中方差最大者,……,yp是与 y1,y2,…,yp-1都不相关的x1,x2,…,xp的所有线性组合中 方差最大者,则称y1,y2,…,yp为原变量的第一,第二,…, 第p主成分。 ;三、模型的求解 要求原始变量的主成分,关键在于求公式(*)的系数值。在应 用主成分分析研究问题时,通常先将数据标准化,以消除量 纲对结果的影响。标准化的常用公式为: 标准化后的数据均值为0,方差为1。变量x1,x2,…,xp标 准化以后,其协方差矩阵S与相关系数矩阵R相等 . 为了求出主成分,只需求样本协方差矩阵S或相关系数矩阵R 的特征根和特征向量就可以。设R的特征根 λ1≥λ2≥…≥λp0, 相应的单位特征向量为: (ui1 ui2 … uip)’,那么相应的主成分就是: ;那么相应的主成分就是: ;四、主成分的性质 性质1:第k个主成分yk的系数向量是第k个特征根λk所对应 的标准化特征向量Uk 性质2:第k个主成分的方差为第k个特征根λk,且任意两个 主成分都是不相关的,也就是主成分y1,y2,…,yp的样本 协方差矩阵是对角矩阵 性质3:样本主成分的总方差等于原变量样本的总方差 性质4:第k个样本主成分与第j个变量样本之间的相关系数 为: ;在解决实际问题时,

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档