- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
sas聚类分析(SAS)
聚类分析的思想 聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。 聚类分析是根据样品或指标的“相似”特征进行分类的一种多元统计分析方法。 例10.1 若我们需要将下列11户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于下表。 表中的8个指标,前6个是定量的,后2个是定性的。如果分得更细一些,指标的类型有三种尺度: (1)间隔尺度。变量用连续的量来表示,如“各种奖金”、“各种津贴”等。 (2)有序尺度。指标用有序的等级来表示,如文化程度分为文盲、小学、中学、中学以上等有次序关系,但没有数量表示。 (3)名义尺度。指标用一些类来表示,这些类之间没有等级关系也没有数量关系,如表中的性别和职业都是名义尺度。 不同类型的指标,在聚类分析中,处理的方式是大不一样的。总的来说,提供给间隔尺度的指标的方法较多,对另两种尺度的变量处理的方法不多。 聚类分析根据实际的需要可能有两个方向,一是对样品,一是对指标聚类。第一位重要的问题是“什么是类”?粗糙地讲,相似样品(或指标)的集合称作类。由于经济问题的复杂性,欲给类下一个严格的定义是困难的。 相似性度量 从一组复杂数据产生一个相当简单的类结构,必然要求进行“相关性”或“相似性“度量。在相似性度量的选择中,常常包含许多主观上的考虑,但是最重要的考虑是指标(包括离散的、连续的和二态的)性质或观测的尺度(名义的、次序的、间隔的和比率的)以及有关的知识。 当对样品进行聚类时,“靠近”往往由某种距离来刻画。另一方面,当对指标聚类时,根据相关系数或某种关联性度量来聚类。 为定义个体间的距离应先将每个样本数据看成k维空间的一个点,通常,点与点之间的距离越小,意味着他们越“亲密”,越有可能聚成一类,点与点之间的距离越大,意味着他们越“疏远”,越有可能分别属于不同的类。 例:下表是同一批客户对经常光顾的五座商场在购物环境和服务质量两方面的平均得分,现希望根据这批数据将五座商场分类。 聚类分析中“亲疏程度”的度量 对“亲疏程度”的测度一般有2个角度: 一是个体间的相似程度,衡量个体间的相似程度通常可以用简单相关系数或者等级相关系数等;一是个体间的差异程度,通常通过某种距离来测度。 2、计数变量个体间距离的计算方式 卡方(Chi-Square measure)距离 Phi方(Phi-Square measure)距离 聚类分析的几点说明 个体与小类、小类与小类间“亲疏程度”的度量方法 SPSS中提供了多种度量个体与小类、小类与小类间“亲疏程度”的方法。与个体间“亲疏程度”的测度方法类似,应首先定义个体与小类、小类与小类的距离。距离小的关系亲密,距离大的关系疏远。这里的距离是在个体间距离的基础上定义的,常见的距离有: 最近邻居(Nearest Neighbor)距离:个体与小类中每个个体距离的最小值。 最远邻居(Furthest Neighbor )距离:个体与小类中每个个体距离的最大值。 组间平均链锁(Between-groups linkage)距离:个体与小类中每个个体距离的平均值。 组内平均链锁(Within-groups linkage)距离:个体与小类中每个个体距离以及小类内各个体间距离的平均值。 重心(Centroid clustering)距离:个体与小类的重心点的距离。重心点通常是由小类中所有样本在各变量上的均值所确定的点。 离差平方和法(Ward’s method):聚类过程中使小类内离差平方和增加最小的两小类应首先合并为一类。 红绿(2,4,6,5)8.75 离差平方和增加8.75-2.5=6.25 黄绿(6,5,1,5)14.75 离差平方和增加14.75-8.5=6.25 黄红(2,4,1,5)10-10=0 故按该方法的连接和黄红首先连接。 分类数的确定 到目前为止,我们还没有讨论过如何确定分类数,聚类分析的目的是要对研究对象进行分类,因此如何选择分类数成为各种聚类方法中的主要问题之一。谱系聚类法(系统聚类法)中我们最终得到的只是一个树状结构图,从图中可以看出存在很多类,但问题是如何确定类的最佳个数。 实际应用中人们主要根据研究的目的,从实用的角度出发,选择合适的分类数。Demir-men曾提出了根据树状结构图来分类的准则: 准则1:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。 准则2:各类所包含的元素都不要过分地多。 准则3:分类的数目应该符合使用的目的。 准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。 根据样本统计量确定类的个数 1.R2统计量:值越大,聚类效果越好。但需动态考察,即聚类到某一步时,样品已经被分为k个类,下一步分为k-1类时,R2值有明显下降,则认为
文档评论(0)