- 1、本文档共33页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十讲 主分量(主成分)分析培训资料.ppt
第七章 主分量(主成分)分析; 一般情况下,系统是由多要素构成的复杂结构,多变量问题是经常会遇到的.变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的.
因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息? ;;如何利用指标对每一儿童的生长发育作出正确评价?
仅用单一指标:
结论片面;
没有充分利用原有数据信息.
利用所有指标:
各指标评价的结论可能不一致,使综合评价困难,
工作量大.;
找出几个综合指标(长度、围度、特体),这些综合指标是由原始指标的线性组合而来,既保留了原始指标的信息,且相互独立.
衡量一个指标的好坏除了正确性与精确性外,还必须能充分反映个体间的变异,即指标能提供显著的个体区分度,一项指标在个体间的变异越大,提供的“信息量”就越多.
各综合指标提供的“信息量”大小用其方差来衡量.
; 事实上,这种想法是可以实现的,主分量(主成分)分析方法就是综合处理这种问题的一种强有力的工具.
主分量(主成分)分析是把原来多个变量划为少数几个综合指标的一种统计分析方法.
从数学角度来看,这是一种降维处理技术.
; 主成分概念首先由Karl Parson在1901年首先提出,当时只是对非随机变量来讨论的.1933年Hotelling将这个概念推广到随机变量,作了进一步发展.把从混合信号中求出主分量(能量最大的成份)的方法称为主分量分析.
(principal components analysis,PCA)
; 定义:记x1,x2,…,x P为原变量指标,z1,z2,…,z m(m≤p)为新变量指标; 从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2 ,…, p)在诸主成分zi(i=1,2,…,m)上的系数 lij( i=1,2,…,m; j=1,2 ,…,p).
从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量. ;三、主分量分析的计算步骤 ;(二)计算特征值与特征向量
① 解特征方程 ,常用雅可比法(Jacobi) 求出特???值,并使其按大小顺序排列 ; ;③ 计算主成分贡献率及累计贡献率
贡献率:第i个主成分的方差在全部方差中所占比重
反映了原来P个指标多大的信息,有多大的综合能力 .
; 在实际工作中,主成分个数的多少取决于能够反映原来变量85%以上的信息量为依据,即当累积贡献率≥85%时的主成分的个数就足够了.最常见的情况是主成分为2到3个.;四、主分量分析主要作用;3.进行探索性分析
利用因子载荷阵,找出影响各综合指标的主要原始指标.
4.对样品进行分类
利用主成分得分对样品进行分类.
;五、使用PRINCOMP过程进行主成分分析
1. PRINCOMP过程的功能简介
1) PRINCOMP过程计算结果有:简单统计量,相关
阵或协方差阵,从大到小排序的特征值和相应特征向
量,每个主成分解释的方差比例,累计比例等.
由特征向量得出相应的主成分,用少数几个主成分代
替原始变量,并计算主成分得分.
2) 主成分的个数可以由用户自己确定,主成分的名
字可以用户自己规定.; 3) 输入数据集可以是原始数据集、相关阵、协方差阵等.输入为原始数据时,还可以规定从协方差阵出发还是从相关阵出发进行分析,由协方差阵出发时方差大的变量在分析中起到更大的作用.
4) 该过程还可生成两个输出数据集:一个包含原始数据及主成分得分,它可作为主成分回归和聚类分析的输入数据集;另一个包含有关统计量,类型为TYPE = CORR或COV的输出集,它也可作为其他过程的输入SAS集.;;其中:
1) PROC PRINCOMP语句用来规定输入输出和一些运行选项,其选项及功能见表7-1.
表7-1 PROC PRINCOMP语句的选项
2) VAR语句指定用于主成分分析的变量,变量必须为数值型(区间型)变量.缺省使用DATA = 输入数据集中所有数值型变量进行主成分分析.;
例1 对全国30个省市自治区经济发展基本情况的八项指标作
主成分分析,原始数据如表7-2.
表7-2 全国30个省市自治区经济发展基本情况;;(1) 数据集
假定上述数据已经存放在数据集li7_1中.
(2) 执行主成分分析的PRINCOMP过程
对数据集l
文档评论(0)