cha 17 sas 聚类分析.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * thanks 本文来自网络,请不要使用盗版文档,尊重作者的辛苦劳动,谢谢 G 我爱朱丹老婆 中华人民共和国 20100808080808080808080808080808080808080808080808080808080808080 Lvdd我爱你ZDLP * * 多变量分析方法 和软件应用 * * 第十七章 SAS 聚类分析 * * 概述 聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类。 * * 概述 基本思想是根据事物本身的特性研究个体分类的方法;聚类原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。 * * 概述 基本程序:是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。 * * 概述 聚类方法 由小类合并到大类的方法 由大类分解为小类的方法 静态聚类法、动态聚类法 按样本聚类(Q)、按指标聚类(R) * * Q型聚类 Q型聚类 Q型聚类以距离作为统计量.系统聚类法(层次聚类法) 在聚类分析的开始,每个样本自成一类; * * Q型聚类 然后,按照某种方法度量所有样本之间的亲疏程度,并把最相似的样本首先聚成一小类; * * Q型聚类 接下来,度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类; * * Q型聚类 再接下来,再度量剩余的样本和小类间的亲疏程度,并将当前最接近的样本或小类再聚成一类;如此反复,直到所有样本聚成一类为止。 * * R型聚类 R型聚类 R型聚类以相似系数作为统计量。 是一种降维的方法,用于在变量众多时寻找有代表性的变量,以便当用少量、有代表性的变量代替大变量时损失信息很少。 * * 聚类分析和判别分析的比较 判别分析时总体中各类别的划分是十分清楚的。 聚类分析时总体中各类别的划分是不清楚的,甚至到底应分成几类也不知道,用于聚类分析的原始数据中没有类别变量。 * * 聚 类 统 计 量 在聚类分析中反映样品或 变量间关系亲疏程度的统计量称为 聚类统计量,常用的聚类统计量分 为距离和相似系数两种。 * * 距 离:用于对样品的聚类。 常用欧氏距离,在求距 离前需进行标准化 。 相似系数: 用于对变量的聚类。 一般采用相关系数 。 * * SAS提供的聚类过程有: Cluster 过程 及其它 。 * * 1、CLUSTER对坐标数据或距离数据的观测值用11种方法进行系统聚类,当观测值数太多时,不宜直接采用。 * * 2、FASTCLUS对于坐标数据,用K-均值法对观测值进行逐步聚类,当观测值很多时,则先用FACTCLUS过程对其进行初步聚类,然后再用CLUSTER过程进行系统聚类。 * * 3、VARCLUS通过斜交多组分量分析对变量进行系统聚类或逐步聚类。 * * 4、TREE为CLUSTER过程产生的输出结果画树状图。 * * CLUSTER过程 * * 开始每个观测值自成一类,然后求两两之间的距离,将距离最近的两个观测值合成一类。这个过程一直进行下去,每次减少一类,直到合成一类为止。 * * 聚类方法有11种,可根据问题的性质选用,它们的区别在于怎样计算两类之间的距离。 METHOD=指定方法 * * AVERAGE(平均法) CENTROID(重心法) COMPLETE(最大距离法) DENSITY(密度法) MEDIAM(中位数法) 等 * * 例: 美国十个城市某病患病状况分类: (根据两个城市间患病人数差值作分类依据)。 * * 原始数据是两两之间差值的三角阵 输入格式 55列为城市 15位 平均法 重心法 最小距离法 输出F及t统计量 * * 观测值之间距离的均方根 输出结果: 类数 指出被合并的类 新类中的观测值数 类间距离除以观测值间距离均方根得来 F、t**2峰值(起伏)越大说明分类显著 * * * * * * * *

文档评论(0)

huayagonga + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档