[理学]sas讲稿第5章.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[理学]sas讲稿第5章

SAS软件与应用统计 第五章 SAS多元统计分析 多元统计分析是统计学的重要应用工具,SAS实现了许多常用的多元统计分析方法。SAS用于多变量分析的过程有PRINCOMP(主分量分析),FACTOR(因子分析),CANCORR(典型相关分析),MDS(多维标度过程),MULTTEST(多重检验),PRINQUAL(定性数据的主分量分析),CORRESP(对应分析),用于判别分析的过程有DISCRIM(判别分析),CANDISC(典型判别),STEPDISC(逐步判别),用于聚类分析的过程有CLUSTER(谱系聚类),FASTCLUS(K均值快速聚类),MODECLUS(非参数聚类),VARCLUS(变量聚类),TREE(画谱系聚类的结果谱系图并给出分类结果)。我们这一章介绍最常见的多元统计方法,更详细的资料请参考《SAS系统SAS/STAT软件使用手册》。 5.1 多变量分析 现实中的统计对象经常用多个指标来表示,比如人口普查,就可以有姓名、性别、出生年月日、籍贯、婚姻状况、民族、政治面貌、地区等,企业调查,可以有净资产、负债、盈利、职工人数、还贷情况等等。多个指标(变量)可以分别进行分析,但是,我们往往希望综合使用这些指标,这时,有主分量分析、因子分析等方法可以把数据的维数降低,同时又尽量不损失数据中的信息。 5.1.1 主分量分析 1. 理论介绍(选讲,学生可以自己看) 主分量分析的目的是从原始的多个变量取若干线性组合,能尽可能多地保留原始变量中的信息。从原始变量到新变量是一个正交变换(坐标变换)。设有X=(X1…Xp)是一个p维随机变量,有二阶矩,记(=E(X),∑=Var(X)。考虑它的线性变换 易见 i,j = 1,…,p 如果要用Y1尽可能多地保留原始的X的信息,经典的办法是使Y1的方差尽可能大,这需要对线性变换的系数l1加限制,一般要求它是单位向量,即l1l1=1。其它的各Yi也希望尽可能多地保留X的信息,但前面的Y1…Yi-1已保留的信息就不再保留,即要求Cov(Yi, Yj)=0,j=1…,i-1,同时对li也有lili=1的要求,在这样的条件下使Var(Yi)最大。 设协方差阵∑的特征值为(1 ( (2 ( … ( (p ( 0,相应的单位特征向量分别为a1,a2,…,ap(当特征根有重根时单位特征向量不唯一)。这时X的第i个主成分为Yi=aiX,i=1,…,p,且Var(Yi)=(i。记 A=(a1,a2,…,ap),,Y=(Y1,Y2,…,Yp),则A为正交阵,Y=AX,Var(Y)=(,且,其中(ii为(的主对角线元素。 主分量Yk与原始变量Xi的相关系数((Yk,Xi)称为因子负荷量(factor loading),可以证明 ,k,i = 1, …, p, , 。 为了减少变量的个数,希望前几个Yi就可以代表X的大部分信息。定义为主分量Yi的贡献率,称为主分量Y1,…,Ym的累计贡献率。一般取m使得累计贡献率达到70%~80%以上。累计贡献率表示m个主分量从X1,…,Xp中提取了多少信息,但没有表达用它来恢复每一个Xi能恢复多少,为此定义m个主分量Y1,…,Ym对原始变量Xi的贡献率vi,vi为Xi对Y1,…,Ym的复相关系数平方,可以用公式计算(注意m=p时vi(1)。前m个主分量Y(m)=(Y1…Ym),在X的m个线性组合中能对X最好地线性逼近。 在上面的主分量计算方法中,方差越大的变量越被优先保留信息,实际中为了消除这种影响经常把变量标准化,即令 , i = 1,…,p 这时的协方差阵就是X的相关阵R。这时,主分量的协方差阵是,其中为R的特征根;;Xi*与主分量Yk*的相关系数(因子负荷量)为,其中为R的对应(k*的单位特征向量;。 对于X的观测样本,设第t次观测为x(t)=(xt1,…,xtp),t=1,…,n,把数据写成矩阵形式为 由得协方差阵∑的估计和相关阵R的估计,从或可以得到主分量分解。计算特征值和单位特征向量,仍记为和a1,a2,…,ap,用Y=aiX作为X的第i主分量,而Y(t)=x(t)A称为第t个观测的主分量得分。结果得到的主分量得分矩阵为=XA。可以把的前几列作为维数压缩后的数据。在SAS的PRINCOMP中计算主分量得分时如果主分量分解是用相关阵得到的则原始自变量要先标准化(减去均值并除以标准差),如果分解用的是协方差阵则计算主分量得分时只对原始变量中心化(减去均值)。 2. 用PRINCOMP过程计算主分量分析(不要求掌握) SAS的PRINCOMP过程有如下功能: ( 完成主分量分析。 ( 主分量的个数可以由用户自己确定,主分量的名字可以用户自己规定,主分量得分

文档评论(0)

jiupshaieuk12 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6212135231000003

1亿VIP精品文档

相关文档