聚类分析[参考].pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Statistical Analysis System 第14章 聚类分析 本章主要内容 概述 Cluster过程 FastClus过程 Tree过程 概述 聚类分析(Cluster Analysis)相关研究 数理分类法(Numerical Taxonomy) Q 分析法(Q-Analysis) 分节法(Partitioning) 拓扑法(Typology) 自由原型识别法(Unsupervised Pattern Recognition) 分类法(Classification) 系统方法(Systematics) 团摺法(Clumping) 计程学(Taximetrics) 分类描述学(Taxonorics) 花序分类学(Botryology) 形状分类学(Morphometrics) 疾病描述学(Noxography) 疾病分类学(Nosology) 菊状分类学(Aciniformics) 集群分类法(Agminatics) 等 概述 聚类分析是一组分类方法的统称,是研究各种事物和现象分类的统计方法,如土壤、作物品种分类等。 聚类分析把相似的变量或观察个体归为一类,也称为一个集群(Cluster),而有较大差异的则归为不同的类别。 具体地说,就是根据已知数据,计算各个观察个体或变量之间亲疏关系的统计量(距离或相关系数),再根据某种准则(最短距离法、最长距离法、中间距离法、重心法等)合并观察个体或变量,使同一类内差别较小,类与类之间差别较大,最终分为若干类别。 概述 一般我们把分类依据的条件称为指标或变量,而把要对其进行分类的对象称为样品。 根据聚类对象(变量或观察个体)的不同,聚类分析可分为指标聚类(Clustering for variables)和样品聚类(Clustering for individuals)。 聚类有多种方法:如系统聚类法(Hierarchical Cluster,谱系聚类法)、相斥式聚类法(Disjoint Cluster、分离聚类法)、调优法、图论法等。 概述 聚类方法——系统聚类法: 首先,每一个样品分别作为独立的类别,计算各类别之间的距离,距离最近的两个类别形成一个新类别; 然后,重新计算各类别之间的距离,再将距离最近的两个类别合并为一个新类别; 如此反复,直到所有的类别合并到一个类别中。 最后,将结果绘制成一张聚类树形图,直观地反映聚类过程。 概述 聚类方法——相斥式聚类法: 基于“上限-中心点-重心”原理。 首先,将样品初步分为U类,作为聚类个数的“上限”,从中确定其“中心点”,作为迭代起点。 然后,考察一个样品,将它移到最靠近的那个中心,形成“聚类”,并算出每一类的“重心”,再考察一个样品,将其移到另一类。 若能减少样品对于各自中心的离差之和,则把此两类的中心同时移到新的重心,并且以重新计算的重心取代原来的重心。 如此反复迭代,直到再也无法降低样品与重心离差之和为止,移动终止,形成各个聚类。 概述 聚类依据: 距离法,就是将每一样品看成m维空间的一个点,这样研究样品间的关系就可以变为研究m维空间中点与点间的关系,而点与点间的关系常用距离来表示。 相似系数法,越相近的样品,它们的相似系数越接近1(或-1),而彼此无关的样品则相似系数接近0。这样就可以根据相似系数的值,把比较相似的样品归为一类,而把不相似的样品归为不同的类。 概述 SAS中常用的聚类过程: Cluster过程 FastClus过程 VarClus过程 Tree过程 AceClus过程 Cluster过程 可使用11种距离中的任一种对SAS数据集中的观测(样品)进行系统聚类。 输入数据可以是原始数值或观测之间的距离。 若数据为原始数值,默认的距离计算方法为欧氏距离。如果要使用其他的距离计算方法,可以先调用Distance过程将数据转换为相应的距离数据,再调用Cluster过程进行分析。 Cluster不太适合大样本数据聚类。 Cluster过程 语句格式: Cluster过程 Cluster语句选项(部分): 选项 功能及用法 OutTree 将聚类分析结果输出到指定的SAS数据集,此数据集可由Tree过程绘制树状聚类图。若忽略此项,数据集将默认保存为“DATAn”。 Method= 指定类间距离的定义方法。 Standard 对变量进行标准化。 Print= 指定结果中显示聚类过程的层数。 Cluster过程 类间距离的定义方法(选项method=): 关键字 对应的方法 Method Average或Ave 类平均法、均连法、欧几里德平均距离法 Average linkage method Centroid或Cen 重心法 The centroid method Complete或COM

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档