- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
研《聚类分析》
聚类分析 聚类分析 含义: 聚类分析(Cluster Analysis)又称群分析、点群分析、簇类分析等,根据事物本身的特性研究个体分类的方法,是研究“物以类聚”的一种方法。 应用聚类分析的例子 市场销售:帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划; 土地使用: 在一个陆地观察数据库中标识那些土地使用相似的地区; 保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户; 城市规划:根据类型、价格、地理位置等来划分不同类型的住宅; 地震研究:根据地质断层的特点把已观察到的地震中心分成不同的类; 聚类分析的基本思想 在聚类分析的基本思想是认为研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些能够度量样本或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些彼此之间相似程度较大的样本(或指标)聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。 聚类分析的基本方法 分层聚类(Hierarchical Cluster),反映事物特点的变量很多,根据所研究的问题选择部分变量对事物的某一方面进行研究。 快速样本聚类(Quick Cluster),就是对观测值进行聚类,是反映被观测对象特征的各变量进行分类;当要聚成的类数已知时,使用快速聚类过程可很快将观测量分到各类中去。 分类数的确定 层次聚类法最终得到的只是一个树状结构图,从图中可以看出存在很多不同的类,但需要如何确定类的最佳个数。 快速样本聚类之前需要指定分类数; 确定分类数的问题是聚类分析中尚未完全解决的问题之一,主要的障碍是对类的结构和内容很难给出一个统一的定义,实际应用中人们主要根据研究的目的,从实用的角度出发,选择合适的分类数。 聚类分析的基本步骤 1、数据标准化 计算绝对偏差的平均值: 其中 计算标准度量值 (Z-Score) 2、计算对象之间的相异度 通常使用距离衡量两个对象之间的相异度。 常用的距离度量方法有: (1) 明考斯基距离(Minkowski distance): 其中 i = (xi1, xi2,…, xip) 和 j = (xj1, xj2,…,xjp) 是两个p维的数据对象, q是一个正整数。 当q =1时, d 称为曼哈坦距离( Manhattan distance) 当q=2时,d 就成为欧几里德距离: 距离函数有如下特性: d(i,j) ? 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) ? d(i,k) + d(k,j) (2)相关系数 (3)马氏距离(Mahalanobis) 层次聚类分析 层次聚类分析中的Q型聚类 样本数据之间的亲疏程度 样本数据与小类、小类与小类之间的亲疏程度测量方法 所谓小类,是在聚类过程中根据样本之间亲疏程度形成的中间类,小类和样本、小类与小类继续聚合,最终将所有样本都包括在一个大类中。 在SPSS聚类运算过程中,需要计算样本与小类、小类与小类之间的亲疏程度。 对一个班学生的数学水平进行聚类,聚类的依据是第一次数学考试的成绩和入学考试的成绩,数据如下表所示: 层次聚类分析中的R型聚类 R型聚类的计算公式和Q型聚类的计算公式是类似的,不同的是R型聚类是对变量间进行距离的计算,Q型聚类则是对样本间进行距离的计算。 研究问题:对一个班同学的各科成绩进行聚类,分析哪些课程属于一个类。聚类的依据是4门功课的考试成绩,数据如下表所示。 快速聚类分析过程 快速聚类分析SPSS过程 首先需要用户指定聚类成多少类(比如K类)。 然后SPSS根据样本数据的实际情况,选择K个有代表性的样本数据作为初始类中心。初始类中心也可以由用户自行指定,需要指定K组样本数据作为初始类中心点。 计算所有样本数据点到K个类中心点的欧氏距离,SPSS按照距K个类中心点距离最短原则,把所有样本分派到各中心点所在的类中,形成一个新的K类,完成一次迭代过程。 Read initial 选项:选中表示从某个SPSS数据文件中读入初始类中心点。这个SPSS文件需要事先创建并存储在计算机中。其中:各变量的变量名应与当前SPSS数据编辑窗口中的变量名完全吻合;需要指定K个样本的数据,分别对应K个类的初始中心点。 Write final 选项:选中表示将快速聚类分析的最终类中心点写入某个SPSS数据文件中,通过单击其后的File按钮进行指定。 用于确定快速聚类分析的迭代终止条件: Maximum Iterations框:指定最大的迭代次数,迭代达到该次数时终止聚类分析过程。 Conve
有哪些信誉好的足球投注网站
文档评论(0)