聚类分析与SAS.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析与SAS

聚类分析与SAS 1.概述 一、含义:聚类分析(Cluster Analysis)是利用多个 样品或多个观测指标(变量)对样品或指标进行分类 的一种多元统计方法 。 二、适宜资料:多个样品的多个观测指标待分类的数 据。 三、分析目的:利用多个样品的多个观测指标(变 量),从量的角度对客观事物进行分类,从而揭示不 同事物的数量本质及其差异,弥补定性分类综合性及 客观性不强的弱点。 四、基本思想:所研究的样品或指标(变量)之间存 在程度不同的相似性或亲疏关系,关系近的聚为一 类,关系远的聚为另外一类。 聚类分析(Cluster Analysis)是将一批样本按其考察诸指标的亲疏程度进行分类。分类的依据是样本间的距离系数或相似系数。距离系数一般用于样本的分类,相似系数一般用于变量的聚类。聚类方法常用的有系统聚类法、动态聚类法等等。 系统聚类法:该法是按样本指标(变量)的距离定义类间距离。它首先将N个样本(或指标)分成N类,每个样本自成一类,然后每次将两类距离最小的样本合并为一新类,重新计算新类与其它类间的距离。如此反复进行,直到所有样本合并为一类,最后结果用聚类图展现(谱系图),由该图可直观方便地进行分类。 动态聚类法:它首先将N个样本(或变量)初分为若干类,然后用某种最优准则进行调整,并不断地进行调整,直到不能调整为止。 2 聚类分析的SAS过程 CLUSTER过程 该过程为系统聚类过程,是以数据间的距离或相似系 数为聚类的根据。 PROC CLUSTER 选项串; VAR 变量名称串;指明资料中用作聚类分析的变量 名称。 COPY 变量名称串;指明将输入文件的变量复印到 输出资料文件中。 FREQ 变量名称;指明样本(个体)重复出现的次 数。 语句说明: PROC CLUSTER的选项有:①DATA=输入文件名 称。②OUTTREE=输出文件名称,以供制作树形图。 ③METHOD=一种算法。一个CLUSTER过程只能含一 个METHOD=算法。其算法有11种:M=AVE(类平均 法)、M=CEN(重心法)、M=COM(最长距离 法)、M=DEN(非参概率密度法)、M=EML(最大 似然法)、M=FLE(可变距离法)、M=MCQ(马氏 法)、M=MED(中间距离法)、M=SIN(最短距离 法)、M=TWO(双连法)、M=WAR (离差平方 法)。④NONORM;阻止数据被标准化,当M=WAR 时,可阻止类间平方和被总平方和正态化。 当M=DEN、EML、TWO时,该选项无效。 ⑤ NOSQUARE;当M=CEN、MED、WAR时,阻止 数据点间的欧氏距离被平方。 ⑥CCC;要求打印出聚类判别数据的立方(Cubic Clustering Criterion),以及在均等分布无效假设下 近似的期望值R2,该值越大,所对应聚类的数目越正 确。⑦S;印出描述性统计值。⑧TRIM=P用来剔除数 据中过于分散的劣值数据。 ⑨ STANDARD将变量标 准化,使其平均数为0,标准差为1,等等。 FASTCLUS过程 该过程为动态聚类过程,其聚类是相互排斥的,即一 个数据只能属于一个类别,适用于大样本分析。 PROC FASTCLUS 选项串; VAR 变量名称串; ID 变量名称; FREQ 变量名称; WEIGHT 变量名称; 语句说明: PROC FASTCLUS语句 其选项有⑴界定输入、输出 文件;①DATA=输入文件名称。②SEED=输入文件 名称,其中含有初始中心点,而无原始数据。 ③OUT=输出文件名称,含有输入文件的数据等。 ④MEAN=输出文件名称,含有聚类的平均数和其他 统计量等。 ⑵控制聚类的初始中心点;①MAXC=正整数,界定 聚类数目的最大值,内设值为100。 ②RADIUS=正实数;选择新中心点最短距离,当选 用REPLACE=RANDOM时,该选项失效。 界定聚类中心点的取代方式:为FULL时,中心点的取 代由以上①、②选项决定,为PART时,则当数据点和 任何一个中心点的距离必须大于任何两个现存中心点 的距离时,初选的中心点会被取代;为NONE时,初选 中心点不被取代;为RANDOM时,SAS会选择一组随 机数点为聚类的初选中心点。 ⑶控制中心点的最后决定有:①DRIFT;每处理一个 观察值,即当前类的平均距离,替换上次聚类的中心 点。聚类中心是“漂流”的,是不断变化的。② MAXITER=正整数;界定重复计算聚类中心点所需的 最大迭代次数(内设值为1)。 ③STRICT=正整数,设定一个距离准则,若某一个 数据点与它最邻近聚类中心点的距离超过该准则,此 数据不能归到任一现存的聚类中,此类数据将全归于 另一聚类中。此外还有SHORT、SUMMARY选项, 要求

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档