SPSS应用基础解析.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
操作步骤: 1.在SPSS中打开数据文件Hierachical Cluster.sav,选择【分析】 →【分类】 → 【系统聚类】(Analyze→ Classify→Hierachical Cluster),调出系统聚类分析主界面,并将变量X1~X5移入变量(Variables)框中。在分群(Cluster)栏中选择个案(Cases)单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。在输出(Display)栏中选择统计量(Statistics)和图(Plots)复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。 4. 点击方法(Method)按钮,设置系统聚类的方法选项。聚类方法(Cluster Method)下拉列表用于指定聚类的方法,包括组间连接法、组内连接法、最近邻元素法、最远邻元素法等;度量标准(Measure)栏用于选择对距离和相似性的测度方法;剩下的转换值(Transform Values)和转换度量(Transform Measures)栏用于选择对原始数据进行标准化的方法。这里我们仍然均沿用系统默认选项。单击继续(Continue)按钮,返回主界面。 5. 点击保存(Save)按钮,指定保存在数据文件中的用于表明聚类结果的新变量。无(None)表示不保存任何新变量;单一方案(Single solution)表示生成一个分类变量,在其后的矩形框中输入要分成的类数;方案范围(Range of solutions)表示生成多个分类变量。这里我们选择方案范围,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,分别表明将样品分为2类、3类和4类时的聚类结果。点击继续(Continue),返回主界面。 主要运行结果解释: 1. 在结果输出窗口中我们可以看到聚类树形图(Dendrogram)。 从下面的树形图可以清楚地看到,若将20个样品分为两类, 则样品2、6、19、7、和样品1为一类,其余的为另一类;若将样品分为三类,则样品8、9、4从第二类中分离出来,自成一类;依此类推。 2. 由于我们已经在保存(Save)子对话框中设置了在数据文件中生成新的分类变量,所以,在数据编辑窗口中,我们可以看到生成的三个表示分类结果的新变量。变量名为clu4_1、clu3_1和clu2-1的三个分类变量分别表明了把样品分成4类、3类和2类的分类情况。 系统聚类法需要计算出不同样品或变量的距离,还要在聚类的每一步都要计算“类间距离”,相应的计算量自然比较大;特别是当样本的容量很大时,需要占据非常大的计算机内存空间,这给应用带来一定的困难。而K—均值法是一种快速聚类法,采用该方法得到的结果比较简单易懂,对计算机的性能要求不高,因此应用也比较广泛。 K均值法是麦奎因(MacQueen,1967)提出的,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤: 1.将所有的样品分成K个初始类; 2.通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标; 3.重复步骤2,直到所有的样品都不能再分配时为止。 K均值法和系统聚类法一样,都是以距离的远近亲疏为标准进行聚类的,但是两者的不同之处也是明显的:系统聚类对不同的类数产生一系列的聚类结果,而K—均值法只能产生指定类数的聚类结果。具体类数的确定,离不开实践经验的积累;有时也可以借助系统聚类法以一部分样品为对象进行聚类,其结果作为K—均值法确定类数的参考。 下面通过一个具体问题说明K均值法的计算过程。 【例】假定我们对A、B、C、D四个样品分别测量两个变量和得到结果见下表: 试将以上的样品聚成两类。 第一步:按要求取K=2,为了实施均值法聚类,我们将这些样品随意分成两类,比如(A、B)和(C、D),然后计算这两个聚类的中心坐标,如下表所示。 第二步:计算某个样品到各类中心的欧氏平方距离,然后将该样品分配给最近的一类。对于样品有变动的类,重新计算它们的中心坐标,为下一步聚类做准备。先计算A到两个类的平方距离: 由于A到(A、B)的距离小于到(C、D)的距离,因此A不用重新分配。计算B到两类的平方距离: 由于B到(A、B)的距离大于到(C、D)的距离,因此B要分配给(C、D)类,得到新的聚类是(A)和(B、C、D)。更新中心坐标如下表所示: 第三步:再次检查每个样品,以决定是否需要重新分类。计算各样品到各中心的距离平方,得样品聚类结果,如下表所示: 到现在为止,每个样品都已经分配给距离中心最近的类,因此聚类过程到此结束。最终得到K=2的聚类结果是A独自成一类,B、C、D聚成一类。 在SPSS中利用K均值法进行聚类分析

文档评论(0)

w6633328 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档