2016数据分析方法11-聚类分析.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2016数据分析方法11-聚类分析课案

10.1 聚类分析的一般问题 10.2 层次聚类 (重点) 10.3 K-Means聚类;10.1 聚类分析的一般问题;10.1.1 聚类分析的意义; 例如,学校里有些同学经常在一起,关系比较密切,而他们与另一些同学却很少来往,关系比较疏远。究其原因可能会发现,经常在一起的同学的家庭情况、性格、学习成绩、课余爱好等方面有许多共同之处,而关系比较疏远的同学在这些方面有较大的差异性。为了研究家庭情况、性格、学习成绩、课余爱好等是否会成为划分学生小群体的主要决定因素,可以从有关这些方面的数据入手,进行客观分组,然后比较所得的分组是否与实际相吻合。对学生的客观分组就可采用聚类分析方法。;10.1.2 聚类分析中“亲疏程度”的度量方法;为定义个体间的距离应先将每个样本数据看成k维空间的一个点。通常,点与点之间的距离越小,意味着他们越“亲密”,越有可能聚成一类,点与点之间的距离越大,意味着他们越“疏远”,越有可能分别属于不同的类。 个体间距离的定义会受变量类型的影响。;例:下表是同一批客户对经常光顾的五座商场在购物环境和服务质量两方面的平均得分,现希望根据这批数据将五座商场分类。;欧式距离(Euclidean distance) 平方欧式距离(Squared Euclidean distance ) =上式的平方 切比雪夫(Chebychev)距离 Block距离 夹角余弦系数、相关系数等;选上统计量中的相 似性矩阵的输出结果;2、二值变量个体间距离的计算方式 简单匹配系数(Simple Matching) 雅科比系数(Jaccard) 3、定序变量的计算方式 对等级值进行标准化 4、计数变量个体间距离的计算方式 卡方(Chi-Square measure)距离 Phi方(Phi-Square measure)距离 ;所选择的变量应符合聚类的要求:所选变量应能够从不同的侧面反映我们研究的目的; 各变量间不应有较强的线性相关关系;各变量的变量值不应有数量级上的差异(对数据进行标准化处理):聚类分析是以各种距离来度量个体间的“亲疏”程度的,从上述各种距离的定义看,数量级将对距离产生较大的影响,并影响最终的聚类结果。;5.2 层次聚类;5.2.1 层次聚类的两种类型和两种方式;5.2.1 层次聚类的两种类型和两种方式;凝聚方式聚类:其过程是,首先,每个个体自成一类;然后,按照某种方法度量所有个体间的亲疏程度,并将其中最“亲密”的个体聚成一小类,形成n-1个类;接下来,再次度量剩余个体和小类间的亲疏程度,并将当前最亲密的个体或小类再聚到一类;重复上述过程,直到所有个体聚成一个大类为止。可见,这种聚类方式对n个个体通过n-1步可凝聚成一大类。;分解方式聚类:其过程是,首先,所有个体都属一大类;然后,按照某种方法度量所有个体间的亲疏程度,将大类中彼此间最“疏远”的个体分离出去,形成两类;接下来,再次度量类中剩余个体间的亲疏程度,并将最疏远的个体再分离出去;重复上述过程,不断进行类分解,直到所有个体自成一类为止。可见,这种聚类方式对包含n个个体的大类通过n-1步可分解成n个个体。;5.2.2 个体与小类、小类与小类间“亲疏程度”的度量方法;最近邻居(Nearest Neighbor)距离:个体与小类中每个个体距离的最小值。 最远邻居(Furthest Neighbor )距离:个体与小类中每个个体距离的最大值。 组间平均链锁(Between-groups linkage)距离:个体与小类中每个个体距离的平均值。;组内平均链锁(Within-groups linkage)距离:个体与小类中每个个体距离以及小类内各个体间距离的平均值。 重心(Centroid clustering)距离:个体与小类的重心点的距离。重心点通常是由小类中所有样本在各变量上的均值所确定的点。 离差平方和法(Ward’s method):聚类过程中使小类内离差平方和增加最小的两小类应首先合并为一类。;5.2.3 层次聚类的基本操作; 2、把参与层次聚类分析的变量选到Variable(s)框中。 3、把一个字符型变量作为标记变量选到Label Cases by框中,它将大大增强聚类分析结果的可读性。 4、在Cluster框中选择聚类类型。其中Cases表示进行Q型聚类(默认类型);Variables表示进行R型聚类。 5、在Display框中选择输出内容。其中Statistics表示输出聚类分析的相关统计量;Plot表示输出聚类分析的相关图形。; 6、单击Method按钮指定距离的计算方法。; Measure框中给出的是不同变量类型下的个体距离的计算方法。其中Interval框中的方法适用于连续型定距变量;Counts框中

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档