网站大量收购独家精品文档,联系QQ:2885784924

人民大学应统计专硕多元统计分析部分总结.docx

人民大学应统计专硕多元统计分析部分总结.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
人民大学应统计专硕多元统计分析部分总结

多元统计分析 主成分分析 一.主成分分析概念 主成分分析是指通过考察变量间的相关性,找到少数几个主成分代表多个变量的一种多元统计方法。 主成分分析是通过考察变量之间的相关性找到少数几个主成分来代表原来大多数的变量,同时使它们尽可能保留原始变量的信息。这些主成分之间彼此不相关,数量远远少于原始变量的个数,从而达到降维的目的(两个变量存在着相关关系,这意味着两个变量提供的信息有重叠,如果把两个变量用一个新变量来表示,同时这一新变量又尽可能包含原来的两个变量的信息,这就是降维的过程)。如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,可以使用主成分分析。 二.怎样选取主成分? 载荷:各主成分和原来变量的线性相关系数。系数越大说明主成分对该变量的代表性越强。 统计上降维的处理过程是将原始的变量进行线性组合作为新的变量(主成分),原来有多少变量就有多少主成分。我们不能选择所有的主成分这样达不到降维的目的,选择的标准是所选择的主成分所代表的主轴长度之和应该占主轴总长度之和的大部分。 所选的第一个主成分应该是主轴最长的(方差最大的,主成分所代表的原始变量的信息用方差来表示),如果第一个主成分不足以代表原来变量的信息在考虑第二个。主成分之间互不相关且方差递减。 标准:1.选择的主成分的方差之和占全部方差的80%以上即可;2.此外还可以考虑特征根的大小,如果特征根小于1,就不再选作主成分了,因为该主成分的解释力度还不如直接用原始变量的解释力度大;3.碎石图,从碎石图中我们可以看出主轴长度(特征根)的变化趋势,一般情况下,选择碎石图中主轴变化趋势出现拐点的前几个主成分作为原始变量的代表。 原始变量之间相关程度越高降维的效果越好,所选着的主成分也就越少。如果原始变量之间不怎么相关不如用它们本身。 三.主成分建模的步骤 特征根:又称方差,反应主成分对原始变量影响程度的一个量,表示引入改主成分后可以在多大程度上解释原始变量的信息。 主成分方差贡献率:某个特征根占总特???根总和的比例称为主成分方差贡献率。 对原有的变量进行标准化处理,以消除变量水平和量纲的影响。 根据标准化后的数据计算相关系数矩阵。如果变量之间存在着较强的相关系数说明适合做主成分分析。 求出相关系数矩阵的特征根,即主轴或方差,及对应的单位特征向量。从各主成分的方差贡献率和累积方差贡献率来选择主成分。 确定主成分,并对主成分的含义做出适当的解释。对主成分进行解释主要根据主成分的因子载荷矩阵。通过因子载荷可以看出主成分分别主要代表哪些原始变量。但是主成分的这种解释模棱两可主要原因是因子载荷含义不清楚。 因子分析 因子分析含义 因子分析是通过对变量之间关系的研究,找出能综合原始变量的少数几个因子代表多个原始变量的一种多元统计方法。 主成分分析和因子分析的联系和区别 联系:都是找出少数几个新的变量来代表原始变量,从而达到降维的目的。 区别:1.主成分中的主成分个数与原始变量的个数相同,有几个变量就有几个主成分而因子分析则需要事先确定要找几个因子,然后将原始变量综合和为少数的几个因子以再现原始变量与因子之间的关系。2.主成分是因子分析的一个特例,因子分析是主成分分析的推广和拓展。3.因子分析的计算较主成分分析更加复杂。 4.因子分析在实际中广泛应用,而主成分分析通常只作为大型数据分析的中间步骤,不再单独使用,但它的思想对我们有很大的启迪。 因子分析模型 因子载荷:载荷为变量与因子之间的线性相关系数,反应变量与因子之间的相关程度。 公因子:由于因子出现在每个原始变量与因子的线性组合中因此也成为公因子。 变量共同度量:它是公因子对特定的变量的方差贡献率。(计算方法为一个线性组合中相关系数的平方和);共同度量越大说明公因子对原始变量的解释能力越强。 公因子的方差贡献率:指的是某个因子对变量所提供的方差总和,反映了某个因子的相对重要程度。方差贡献率越大表明该公因子对变量的贡献越大。 因子分析模型把每个变量看成是个因子的线性组合。考察变量的信息能够被k个公因子所解释的程度。 因子分析的步骤 因子分析的步骤分为数据检验,因子提取,因子的命名和解释,计算因子得分并进行综合评价。 数据检验 数据检验用语判断手头上的数据是否适合作因子分析。因子分析的目的是把原始变量降维,如果原始变量是独立的意味着每个变量的作用都是不可替代的,也就无法降维了。 条件一:用于因子分析的变量必须是相关的。 方法一:计算变量之间的相关系数矩阵,并观察各相关系数。一般来说若相关矩阵的大部分相关系数小于0.3,就不适合作因子分析 方法二:可以作KMO检验和Bartlett球度检验来判断;Bartlett检验是以变量的相关系数矩阵为基础,如果相关系数矩阵是单位阵,则变量是独立的,也就无法进行因子分析

您可能关注的文档

文档评论(0)

135****6041 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档