第二十章 聚类分析SAS程序设计.doc

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二十章 聚类分析SAS程序设计

第二十章 聚类分析SAS程序设计 一、聚类基本思想 什么是聚类分析 ?? ???聚类分析(cluster analysis):是一种将样本数据按一定科学方法分为若干类的统计方法。聚类使得在同一类的事物具有高度的同质性(homogeneity),不同类事物具有高度的异质性(heterogeneity)。??聚类分析是为达到“物以类聚”目的分类。 聚类分析是研究事物的分类,事先对事物个体没有分类信息,完全根据数据的内在规律按相近原则划分新的类别。 对一个指标分类相对容易,当有多个指标,要进行分类就不是很容易了,对于事物按多指标同时考虑进行分类需要进行多元分类,即聚类分析。? ???聚类分析是依赖一批样本,不知道它们的分类,甚至连分成几类也不知道,希望用某种方法把观测样本进行合理的分类,使得同一类的观测比较接近,不同类的观测相差较多。 聚类分析依赖于对观测样本间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。聚类是相将近或相似的个体归为一类,聚类的实质就是相似性衡量。 类就是相似元素的集合。 聚类分析所要研究的是 (1)、如何衡量事物之间的相似性---相似性度量。 (2)、如何将相似事物归为一类---聚类方法。 (3)、分类后如何描述这些类。如何根据专业知识对所分的真实的类,自然客观的而非主观加工的类,进行经济意义或社会意义的解释。 2、相似度量 聚类分析就是要找出具有相近程度的样本聚为一类;相似性度量的种类有多种,主要 衡量这个“相近程度”的有距离、相似系数、相关系数、夹角余弦等。 距离的四个条件 相似性度量的结果是得到一个相似测度矩阵。若样本容量为n,n个样本的相似测度矩阵为n*n的对称矩阵。 样本间距离用欧式距离Euclid),马式距离(Mathalanobis),相关系数,夹角余弦等。但SAS聚类分析只用欧氏距离为相似度量,如果要用其它的距离度量,要用data步和IML过程。 类与类间的距离:SAS软件设计了最短距离法、最长距离法等10多个。 3、确定类的个数。快速聚类法要求是先确定类的个数。系统聚类法不给出类的个数。 (1)用树形图确定 (2)类间的距离结合专业知识确定 (3)利用散点图确定(只有二 三维变量时用,多维时用典型相关降维) (4)统计量法: ①立方聚类准则CCC,CCC为在均匀的原假设下立方聚类标准CCC统计量和R2,,仅用于座标数据,不适用于最近距离聚类法,CCC统计量是一种考察聚类效果的统计量,其值越大说明上一次聚类效果越好。 ②伪F. Pseudo F 为伪F统计量,如果分为k个类合理,则类内离差平方和(分母)应该较小,类间平方和(分子)相对较大。所以应该取伪F统计量较大而类数较小的聚类水平。 ③伪t2, , Pseudo t**2为伪 统计量,其值越大聚类效果越差,不应合并。仅用于座标数据,不适用于最近距离聚类法, ④ RSQ是 R2统计量 反映类内离差平方和的大小, R2统计量大说明类内离差平方和小。聚类效果好。仅用于座标数据,不适用于最近距离聚类法, ⑤SPRSQ是半偏R2 ,说明了本次合并信息损失程度,半偏R2越大说明信息损失程度越大。为合并类引起的类内离差平方和的增量,半偏相关越大,说明这两个类越不应该合并. ERSQ是在均匀零假设下的 的近似期望值, Norm RMS Dist是正规化的的两类元素间距离的均方根, Tie指示距离最小的候选类对是否有多对。 4、SAS聚类计算方法 SAS/STAT中提供了系统聚类法(CLUSTER)、快速聚类法(FASTCLUS)、变量聚类法(VARCLUS)、非参数聚类法(MODECLUS)四种聚类过程。 系统聚类法CLUSTER过程。对样本观测数据或样本间距离矩阵逐步合并进行聚类,有11种方法。 快速聚类法FASTCLUS过程。对样本数据用K-MEANS法进行动态聚类,也是迭代方法,快速聚类适用于大样本。 变量聚类VARCLUS过程。对变量进行聚类。 聚类结果画图过程TREE,将聚类结果画成树形结构图。 5、聚类分析应用步骤 1、选择聚类变量,收集数据,对量纲有影响的数据标准化。 2、选择本似性度量方法(欧氏距离,马氏距离,相关系数等) 3、选择聚类方法 (1)系统聚类法CLUSTER(类间测度有最小距离法等), (2)动态聚类法FASRCLUS, (3)变量聚类法VARCLUS 4、结合专业知识,由 树形图和统计量,确定分类个数 5、对聚类结果的进行专业解释。 6、调用proc freq 过程对各类进行描述统计 SAS系统聚类法 (一)系统聚类方法(谱系聚类方法):系统聚类是一种逐次合并类的方法,最后得到一个聚类。具体聚类步骤是:先将n 个观测样本各视为一类,先计算其两两的距离得到一个n*n的距离

文档评论(0)

ligennv1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档