聚类分析快速聚类分析课件.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

第1页,共14页,星期日,2025年,2月5日快速样本聚类的基本概念:当要聚成的类数已知时,使用快速聚类过程可以很快将观测量分到各类中去,其特点是处理速度快,占用内存少。K-MeansCluster执行快速样本聚类,使用K均值分类法对观测量进行聚类。可以完全使用系统默认值执行该命令,也可以对聚类过程设置各种参数进行人为的干预。例如,可以事先指定把数据文件的观测量分为几类:指定是聚类过程中止的判据,或迭代次数等。第2页,共14页,星期日,2025年,2月5日快速聚类适用于大样本的聚类分析,它能快速的把个观测量分到各类中去。进行快速样本聚类首先要选择用于聚类分析的变量和类数。参与聚类分析的变量必须是数值型变量,且至少要有一个。为了清楚地表明各观察量最后聚到哪一类,还应该指定一个表明观测量特征的变量作为标识变量,例如编号、姓名之类的变量。聚类必须大于等于2,但是聚类数不能大于数据文件中的观测数。第3页,共14页,星期日,2025年,2月5日如果选择了n个数值型变量参与聚类分析,最后要求聚类数为k。那么可以由系统首先选择k个观测量(也可以由用户指定)作为聚类的种子,n个变量组成n维空间。每个观测量在n维空间中是个点。K个事先指定的观测量就是k个聚类中心点,也称为初始类中心。按照距这几个类中心的距离最小原则把观测量分派到各类中心所在地类中;形成第一次迭代形成的k类。根据组成每一类的观测量计算各变量均值,每一类中的n个均值在n维空间中又形成k个点,这就是第二次迭代的类中心,按照这种方法依次迭代下去,直到达到指定的迭代次数或中止迭代的判别要求时,迭代停止,聚类结束。从上述分析过程可以看出,K-MeansCluster不仅是快速样本聚类过程,而且是一种逐步聚类分析。所谓逐步聚类分析就是先把聚类对象进行初步原始分类,然后逐步进行调整,得到最终分类。第4页,共14页,星期日,2025年,2月5日举例:为研究儿童生长发育的分期,调查1253名1个月至7岁儿童的身高(Cm)、体重(Kg)、胸围(Cm)和坐高(Cm)资料。资料作如下处理:先把1个月至7岁划成19个月份段,分算出各指标的平均值,将第一个月的各指标平均值与出生时的各指标平均值比较,求出月平均增长率(%),然后第二个月起的各月份指标平均值与前一月比较,亦求出月平均增长率(%),结果见SPSS软件窗口。欲将儿童生长发育分为四期,故指定聚类的类别数为4,请通过聚类分析确定四个儿童生长发育的起止区间。第5页,共14页,星期日,2025年,2月5日表1,初始分类中心第6页,共14页,星期日,2025年,2月5日表2,初始分类中心第7页,共14页,星期日,2025年,2月5日表3,中止分类中心第8页,共14页,星期日,2025年,2月5日表4,方差分析第9页,共14页,星期日,2025年,2月5日表5,每类例数第10页,共14页,星期日,2025年,2月5日

文档评论(0)

xiaozhuo2022 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档