【基础科学】SPSS聚类分析(共35页).pptVIP

【基础科学】SPSS聚类分析(共35页).ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【基础科学】SPSS聚类分析(共35页).ppt

确定初始凝聚点,初始分类 调整重心,修改分类 实例 人源和猪源猪链球菌的同源性研究 中华流行病学杂志,2000,21(6):427 标准株 猪源(海安) 人源(海安) 猪源(海安) 猪源(海安) 猪源(海安,1999) 人源(如皋) 人源(如皋) 实验 现收集到2001年全国31个省市自治区各类小康和现代化指数的数据(资料来源:《全国各省市区全面小康社会目标实现程度的综合评价》),见数据9-5.sav。请根据这些指标对全国31个省市自治区进行聚类分析,并阐明其实际含义。 聚类分析要注意的问题 用什么指标(变量)表达要分析的样品? 用什么统计量(距离、相似系数)描述样本间的相似程度? 用什么方法(类间距离等)进行聚类? 分成几类比较合适? SPSS聚类分析 西南交通大学数学建模 例 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。 一、 什么是聚类分析 应聘者 1 2 3 4 5 6 7 8 9 10 X 28 18 11 21 26 20 16 14 24 22 Y 29 23 22 23 29 23 22 23 29 27 Z 28 18 16 22 26 22 22 24 24 24 我们直观地来看,这个分类是否合理? 计算4号和6号得分的离差平方和: (21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和: (28-18)2+(29-23)2+(28-18)2=236 计算1号和3号得分的离差平方和为482,由此可见一般,分类是合理的,欧氏距离很大的应聘者没有被聚在一。 由此,我们的问题是如何来选择样品间相似的测度指标,如何将有相似性的类连接起来? 聚类分析 聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。 聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。 聚类分析的分类 样品聚类 ( Q 型聚类):对事件(Cases)进行聚类,或是说对观测量进行聚类。 变量聚类 ( R 型聚类):进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息 距离的度量 为了将样品(或指标)进行分类,就需要研究样品之间关系。 目前用得最多的方法有两个: 一种方法:相似系数; 另一种方法:距离 ; 距离的定义方式 绝对值距离 欧氏(Euclidean)距离 切比雪夫(Chebychev)距离 明氏(Minkowski)距离 相似系数 夹角余弦 Pearson相关系数 指数相似系数 系统聚类的基本思想 物以类聚。 相近的聚为一类(以距离表示,样品聚类) 相似的聚为一类(以相似系数表示,变量聚类) 系统聚类的基本步骤 构造n个类,每个类包含且只包含一个样品。 计算n个样品两两间的距离,构成距离矩阵,记作D0。 合并距离最近的两类为一新类。 计算新类与当前各类的距离。若类的个数等于1,转到步骤(5),否则回到步骤(3)。 画聚类图。 决定类的个数,及各类包含的样品数,并对类作出解释。 系统聚类(Hierarchical clustering) 最短距离法(single linkage) 最长距离法(complete linkage) 中间距离法(median method) 可变距离法(flexible median) 重心法(centroid) 类平均法(average) 可变类平均法(flexible average) Ward最小方差法(Ward’s minimum variance) 类间距离 S1 S3 S2 S4 S5 最短距离(single linkage) 最长距离(complete linkage) 类间距离 S1 S3 S4 S5 类间距离 S1 S3 S2 S4 S5 重心间距离(centroid) 类间距离 S1 S3 S2 S4 S5 平均距离(average) 类间距离 S1 S3 S2 S4 S5 最短距离 例 6个不同民族的标化死亡率与出生时的期望寿命 民族 原始数据 标准化数据 标化死亡率(‰) 出生时 期望寿命(岁) 标化死亡率(‰) 出生时 期望寿命(岁) 满族 5.80 70.59 -1.59 1.44 朝鲜族 7.44 67.14 -0.62 0.73 蒙古族 8.11 65.48 -0.22 0.38 维吾尔族 10.21

文档评论(0)

czy2014 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档