多元统计分析课件(主成分分析)讲解材料.ppt

多元统计分析课件(主成分分析)讲解材料.ppt

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多元统计分析课件(主成分分析)讲解材料.ppt

在实际问题中,利用主成分的目的是为了减少变量的个数,所以一般不用P个主成分,而是根据如下方法选取前K个主成分。 定义 为第i主成分Fi的方差贡献率。 这个值越大,说明这个主成分Fi综合原指标信息的能力越强。 定义 ( K≤P) 为主成分Fl, F2,…,Fk的累积方差贡献率。 当前K个主成分的累积方差贡献率达到85%以上时,就取K个主成分。这样K个主成分基本反映了原指标的信息,指标数目由P个减少到K个。 这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。 变量的标准化: 由于主成分是根据变量的离散度也即方差的大小来确定主成分的,这样当不同指标的量纲不同时,不同指标的方差大小差別很大,主成分会受到影响, 例如: X1表年收入,从万元到百万元变化, X2表净收入与总资产之比,从0.01到0.60变化, 那么X1的方差的绝对量将远远大于X2的方差, 这样主成分会过于照顾方差大的变量,为使主成分能均等地对待每一个原变量,应将原变量作标准化处理. 标准化公式: (i=1,2, …P) 这时有 = 因此求U时可用 的特征向量。 还可以证明 = 所以 = = 2、主成分的性质 性质1:F的协方差阵 为对角阵 性质2: 性质3: (i=1,2, …P) 对于标准化后的变量,则 原始变量与主成分之间的相关系数 主成分得分: 当选取了n个主成分后,把样本数据代入各主成分表达式可得样本的主成分得分。 若主成分是由原始数据协方差阵计算的,则计算主成分得分时,代原始数据。 若主成分是由标准化数据计算,即由R计算,则计算主成分得分时,一定要代标准化数据,否则会出现错误。 主成分的综合得分 利用主成分Fl,F2,…, Fk作线性组合,并以每个主成分Fi的方差贡献率作为权数构造一个综合函数: F= 根据计算出的F值大小进行排序。 第四节 主成分的计算步骤及实例 主成分的计算步骤: 原始数据矩阵 1、原始数据标准化 2、计算样本协差阵或相关系数矩阵R 3、求R的非零特征根及对应的标准正交特征向量 4、? 求出主成分 (i=1,2, …P)? 根据累计方差贡献率大于等于80%,85%,90%等,确定选取主成分个数。 第七章 主成分分析 第一节 什么是主成分分析及基本思想 主成分分析(Principal Components Analysis) 也称主分量分析 是将多项指标,化为少数几个不相关的 综合指标的一种统计方法。 在经济问题研究中,为了全面、系统地分析问题,我们必须考虑众多对某经济过程有影响的因素,这些因素也叫指标,在多元统计分析中也称为变量。 每个指标都在不同程度上反映了所研究问题的某些信息。但是 1、指标之间彼此有一定的相关性,使得相应的统计数据在一定程度上反映的信息有重叠。 主成分分析可将相关的指标化成一些不相关的指标,避免了信息重叠带来的虚假性。 2、在用统计方法研究多变量问题时,变量太多会增大计算量和增加分析问题的复杂性,人们自然希望在进行定量分析的过程中所涉及的变量要少,而得到的信息量又要多。 主成分分析是解决这些问题的理想工具。 在综合评价工业企业的经济效益中,考核指标有: 1每百元固定资产原值实现产值、 2每百元固定资产原值实现利税、 3每百元资金实现利税、 4每百元工业总产值实现利税、 5每百元销售收入实现利税、 6每吨标准煤实现工业产值、 7每千瓦电力实现工业产值、 8全员劳动生产率、 9每百元流动资金实现的产值 指标间信息有重叠,指标数量又多。 经过主成分分析计算,最后确定选择了2个主成分作为综合评价工业企业经济效益的依据,变量数由9个减少到2个,这两个主成分代表的信息达91.6%,使所研究的问题简化。 所谓主成分就是原指标的线性组合。 主成分可以有很多个, 反应原指标信息最多的称为第一主成分, 其次是第二主成分, …等等。 所谓反应原指标的信息多就是其方差大,方差越大,它反应的信息就越多,因此选方差最大的作为第一主成分,…。 一项十分著名的工作是 美国的统计学家斯通(stone)在1947年关于国民经济的研究。 选择17个反映国民收入与支出的变量因素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、

文档评论(0)

youngyu0329 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档