主成分分析和因子分析(朱艳科).pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主成分分析和因子分析(朱艳科)

主成分分析和因子分析法 一、主成分分析概论 主成分分析的工作对象是样本点×定量变量类型的数据表。它的工作目标,就是要对这 种多变量的平面数据表进行最佳综合简化。也就是说,要在力保数据信息丢失最少的原则下, 对高维变量空间进行降维处理。 很显然,识辨系统在一个低维空间要比一个高维空间容易得多。英国统计学家斯格特 (M.Scott )在 1961 年对 157 个英国城镇发展水平进行调查时,原始测量的变量有 57 个。 而通过主成分分析发现,只需 5 个新的综合变量(它们是原变量的线性组合),就可以 95% 的精度表示原数据的变异情况,这样,对问题的研究一下子从 57 维降到 5 维。可以想象, 在 5 维空间中对系统进行任何分析,都比在 57 维中更加快捷、有效。 另一项十分著名的工作是美国的统计学家斯通(Stone)在 1947 年关于国民经济的研究。 他曾利用美国 1929~1938 年各年的数据,得到了 17 个反映国民收入与支出的变量要素,例 如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息和外贸平衡等等。 在进行主成分分析后,竟以 97.4%的精度,用三个新变量就取代了原 17 个变量。根据经济 学知识,斯通给这三个新变量要别命名为总收入F 、总收入变化率F 和经济发展或衰退的 1 2 趋势F3 (是时间t 的线性项)。更有意思的是,这三个变量其实都是可以直接测量的。 二、主成分分析的基本思想与理论 1、主成分分析的基本思想 在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律, 人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产生了 如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考 虑指标的增多增加了问题的复杂性,同时也由于各指标均是对同一事物的反映,不可避免地 造成信息的大量重叠,这种信息有时甚至会抹杀事物的真正特征与内在规律。基于上述问题, 人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如 何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。 既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共 同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原 始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降 1 维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用主成分 分析得到的主成分与原始变量之间有如下基本关系: (1) 每一个主成分都是各原始变量的线性组合。 (2 ) 主成分的数目大大少于原始变量的数目。 (3 ) 主成分保留了原始变量绝大多数信息。 (4 ) 各主成分之间互不相关。 通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利 用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的 一些深层次的启发,把研究工作引向深入。 2、主成分分析方法的理论简介 以下将从统计分析的角度来说明主成分分析的方法。我们考虑的统计问题可以陈述如 下: 设有p 个指标x , x , ,x ,这p 个指标反映了客观对象的各个特征,因此每个对象观 1 2 p 察到的 p 个指标值就是一个样本值,它是一个 p 维的向量。如果观察了 n 个对象,就有 n 个p 维向量,共有 np 个数据,用矩阵X 表示就有 ⎛x11 x12 x1p ⎞ ⎜ ⎟ x x x X ⎜ 21 22 2

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档