- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SPSS软件中对应分析
对应分析
当A与B 的取值较少时,把所得的数据放在一张列联表中,就可以很直观的对A 与B 之间及它们的各种取值之间的相关性作出判断,当较大时,则说明属性变量A的第i状态与B的第j状态之间有较强的依赖关系.但是,当A或者B 的取值比较多时,就很难正确的作出判断,此时就需要利用降维的思想简化列联表的结构.
几个基本定义:
我们此处讨论因素A有n个水平,因素B 有p个水平。
行剖面:当变量A的取值固定为i时(i=1,2,…,n),变量B的各个状态相对出现的概率情况,即:可以方便的把第i行表示成在p维欧氏空间中的一个点,其坐标为:
,i=1,2,… , n ,
实际上,该坐标可以看成p维超平面上的点。记n个行剖面的集合为n(r)。
由于列联表行与列的地位是对等的,由上面行剖面的定义方法,可以很容易的定义列剖面。
列剖面:
,j=1,2,… , p,
实际上,该坐标可以看成n维超平面上的点。记p个列剖面的集合为p(c)。
定义了行剖面和列剖面之后,我们看到属性变量A的各个取值情况可以用p维空间的n个点来表示,而B的不同取值情况可以用n维空间上的p个点来表示。而对应分析就是利用降维思想,把A的各个状态表现在一张二维图上,又把B的各个状态表现在一张二维图上,且通过后面的分析可以看到,这两张二维图的坐标有着相同的含义,即可以把A的各个取值与B的各个取值同时在一张二维图上表示出来。
距离:
通过行剖面与列剖面的定义,A的不同取值可以利用P维空间中的不同点表示,各个点的坐标分别为(i=1,2,…,n)。而B的不同取值可以用n维空间中的不同点表示,各个点的坐标分别为(j=1,2,…,p)。对此,就可以引入距离概念来分别描述A的各个状态之间与B的各个状态之间的接近程度。
定义A的第k状态与第l状态之间的加权距离为:
,
该距离也可以看做是坐标为:
,i=1,2,…,n (1)
的任意两点之间的普通欧式距离。
类似的,定义属性变量B的两个状态s,t之间的加权距离为:
总惯量:
根据上面的准备,可以给出行剖面集合n(r)的总惯量的定义:
由(1)式定义的n个点与其重心的欧式距离之和称为行剖面集合n(r)的总惯量,记为。
注意:(1)总惯量类似方差,反映差异信息。
(2)经过数学分解,我们可以得知,总惯量与统计量仅相差一个常数,而由前面列联表的分析我们知道,统计量反映了列联表横栏与纵栏的相关关系。
对应分析就是在总惯量信息损失最小的前提下,简化数据结构以反映两属性变量之间的相关关系。实际上,总惯量的概念类似于主成分分析或因子分析中方差总和的概念。在SPSS软件中进行对应分析,系统会给出对总惯量的提取情况。
完全对应的,我们对列进行相应分析,可以得到列剖面集合的总惯量为:
SPSS中有一个概念:惯量:相当于因子分析中的特征根,用于说明对应分析各个维度的结果能够解释列联表中两变量联系的程度。
对应分析基本理论:
经过上述变化后,就可以直接计算属性变量各个状态之间的距离,通过距离大小反映各个状态之间的接近程度,同类型的状态之间距离应当较短,而不同类型的状态之间距离应当较长,据此可以对各个状态之间进行分类以简化数据结构。但是,这样做不能对两个属性变量同时进行分析。因此,我们不计算距离,代之求协方差矩阵,进行主成分分析,提取主成分,用主成分所定义的坐标轴作为参照系,对两个变量的各个状态进行分析。
计算行剖面的协方差矩阵,列剖面的协方差矩阵。具体分解过程可参考《多元统计分析》,何晓群。
由矩阵的知识可知,,有相同的非零特征根。
,对该式两边左乘矩阵,有
,
即。
该式表明:对于因素A降维,投影方向为 ,
对于因素B降维,投影方向为 ,这两个直角坐标重合。这样,因素A 和因素B 降维后可以在同一个坐标轴中表示出来,只不过对坐标轴有一个拉伸。
注意: 与具有相同的非零特征根,而这些特征根正是各个公因子所解释的方差,或提取的总惯量的份额,即有:
。那么变量B的第一主成分、第二主成分…….直到第r个主成分与变量A的相对应的各个主成分在总方差中所占的百分比完全相同。这样就可以用相同的坐标轴同时表示两个属性变量的各个状态,把两个变量的各个状态同时反映在具有相同坐标轴的因子平面上,以直观的反映两个属性变量及各个状态之间的相关关系。一般情况下,我们取两个,这样就可以在一张二维图上同时画出两个变量的各个状态。
对应分析的优点:
结果直观、简单;适用于研究较多分类变量;
对应分析的缺点:
不能进行具体联系的检查,本质是一种统计描述方法;
无法自动判断最佳维度数;
分析结果对极端值敏感。所以数据量不能太少,样本量越大越好。
例题讲解:
这里以较为经典的头发颜色与眼睛颜色的研究案例说明SPSS中对应分析的实现方法,该数据由Fisher在
文档评论(0)