SPSS系列培训之:聚类分析.pptxVIP

  1. 1、本文档共52页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

SPSS系列培训之:聚类分析安木

方法原理按照个体(记录)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性,而类别之间则具有尽可能高的异质性。为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象之间的联系的紧密程度。直观的理解为按空间距离的远近来划分类别SPSS统计分析系列课程安木2

方法原理假定研究对象均用所谓的“点”来表示。在聚类分析中,一般的规则是将“距离”较小的点归为同一类,将“距离”较大的点归为不同的类。常见的是对个体分类,也可以对变量分类此时一般使用相似系数作为“距离”测量指标SPSS统计分析系列课程安木3

方法原理例:根据年龄将人群分成适当的类,从图中可见,人群被分为两类是比较合适的。SPSS统计分析系列课程安木4

方法原理在右图中可以看到五个样品应当可能被分为两组或者三组,C/D组x和y的取值均偏低,而另三个所在组x和y的取值均偏高分为两类或三类都是可接受的从图中可以直观的理解“距离”的含义SPSS统计分析系列课程安木5

方法原理当用于聚类的变量逐渐增多时,分析思路完全相同,只是这样简单、清晰的图示展现类别情况变得逐渐不大可能多维空间中的观察可能的解决方法放弃图示化观察,改用复杂的统计指标缩减维度,使得可以在低维度空间进行呈现SPSS统计分析系列课程安木6

特点聚类分析前所有个体所属的类别是未知的,类别个数一般也未知,分析的依据就是原始数据,可能事先没有任何有关类别的信息可参考。严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体。一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对相关假设的检验还需要借助其它统计方法。安木7SPSS统计分析系列课程

用途设计抽样方案分层抽样预分析过程先通过聚类分析达到简化数据的目的,将众多的个体先聚集成比较好处理的几个类别或子集,然后再进行后续的多元分析。细分市场、个体消费行为划分先聚类,然后再利用判别分析进一步研究各个群体之间的差异。SPSS统计分析系列课程安木8

聚类分析的基本步骤总结步骤1:确定研究问题选择研究目的:分类描述;数据简化;揭示相互联系选择分类变量步骤2:研究设计对个体聚类还是对变量聚类?分类变量是什么类型?选择用“距离”还是“相似系数”?是哪一种?数据是否需要标准化?是否需要删除奇异点?步骤3:考虑是否满足基本的假定样本对总体是否有代表性?聚类变量是否存在共线性?共线性是否足以影响结果?SPSS统计分析系列课程安木9

聚类分析的基本步骤总结步骤4:选择聚类方法采用谱系聚类法、非谱系聚类法、还是两者的结合?采用哪种具体的聚类方法?应该聚成几个类别?步骤5:解释聚类分析的结果考察类别的中心是否存在显著的差异?观察树形图和冰柱图是否可以根据分类变量给各个类别命名?步骤6:评价聚类分析结果的有效性利用适当的结果变量进行评价;利用其它描述性的变量描述各个类别的轮廓。SPSS统计分析系列课程安木10

K-meansCluster过程属于非系统聚类法的一种方法原理选择(或人为指定)某些记录作为凝聚点按就近原则将其余记录向凝聚点凝集计算出各个初始分类的中心位置(均值)用计算出的中心位置重新进行聚类如此反复循环,直到凝聚点位置收敛为止SPSS统计分析系列课程安木11

K-meansCluster过程方法特点要求已知类别数可人为指定初始位置节省运算时间样本量过大时有必要考虑只能使用连续性变量SPSS统计分析系列课程安木12

案例:移动通讯客户细分telco.sav数据包含6个变量是客户编号(Customer_ID)工作日上班时期电话时长(Peak_mins)工作日下班时期电话时长(OffPeak_mins)周末电话时长(Weekend_mins)国际电话时长(International_mins)总通话时长(Total_mins)平均每次通话时长(average_mins)根据前期的调研,研究者认为移动用户应当被分为5个主要群体,现希望得到相应的定量聚类结果。SPSS统计分析系列课程安木13

聚类结果第一类:高端商用客户,总通话时间长,工作日上班时间通话比例高第二类:少使用低端客户,总通话时间短,各时段通话时间都短第三类:中端商用客户,总通话时间居中,工作日上班时间通话比例高第四类:中端日常用客户,总通话时间居中,工作日下班时间通话比例高第五类:长聊客户,每次通话时间长SPSS统计分析系列课程安木14

HierarchicalCluster过程属于系统聚类法的一种其聚类过程可以用树形结构(treelikestructure)来描绘的方法方法原理先将所有n个变量/观测看成不同的n类然后将性质

您可能关注的文档

文档评论(0)

gcmguochunming + 关注
实名认证
文档贡献者

高级工程师持证人

小小的人

领域认证该用户于2025年07月19日上传了高级工程师

1亿VIP精品文档

相关文档