Clementine 聚类模型 ——K-means 聚类.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Clementine 聚类模型 ——K-means 聚类

Clementine 聚类模型 ——K-means 聚类 报告人:张兰兰 指导教师:谢邦昌 日期:2007年11月16日 聚类分析 聚类(Clustering)就是按照某个特定标准(一般为距离准则)把一个数据集分割成不同的类或簇(Cluster),使得在同一个簇内的数据对象的相似性尽可能的大,不在同一个簇中的数据对象的差异性也尽可能的大。聚类是一种无指导的学习。 Clementine11.0中提供的聚类方法有三种: K-means Two-step Kohonen K-means聚类 K-means聚类简介 K-mean又称快速聚类,是由Macqueen 于1967年提出的。 K-means 目的是:把样品聚集成K个类的集合,要求同一类中样品彼此相似,而不同类间的样品差异较大。K的大小是事先确定好的。 K-means基本思想是:把每个样品聚集到其最近形心(均值)类中去 K-means聚类 建立K-means模型的要求:需要一个以上的In字段。方向为Out、Both、None的字段将被忽略。 优点:建立K-means模型不需要分组数据。对于大型数据集,K-means模型常常是最快的分群方法。 K-means 算法步骤 1 从原始数据中选取K个点作为初始的K个聚类中心。通常由Clementine自动选。 2 计算各样本到K个聚类中心的距离,把样本归到离它最近的那个聚类中心所在的类。 3 计算新形成的K个类的均值作为新的聚类中心,重复步骤2重新聚类 4 重复步骤3,直到到达最大迭代次数或前后两次迭代之间的差异小于制定阀值,聚类过程结束。 K-means聚类实例 现有数据drink.sav,收集了16种饮料的热量(calorie)、咖啡因(caffeine)、钠(sodium)及价格(price)四个变量的值。现在希望利用这四个变量对这16种饮料进行聚类。 Clementine 实现步骤 1 导入数据及预处理: 插入一个spss类的数据源节点(Soures\spss file),双击该节点对其进行编辑。 data框: 在”import file”中输入数据drink.sav的 物理路径 filter框:认为四个变量都很重要,所以不用过滤 type框:对变量类型进行定义,然后利用“read values”进行实例化,如图1所示: Clementine 实现步骤 变量类型的定义及实例化 Clementine 实现步骤 2 查看源数据(output\table) 通过一个table结点与源数据相连,执行 Table结点即可。 Clementine 实现步骤 3 建立K-means聚类模型(Modeling\k-means) 建立一个k-means结点与源数据相连,然后对k-means结点进行编辑: Clementine 实现步骤 K-means结点model选项框 在本例中我们将number of clusters设置为3,即k=3,将样本聚 成三类; 选中Generate distance field,,以产 生一个新的变量来表示各样本到其 类中心的距离; 选中show cluster proximity,以在 模型输出结果中包含类间的离; 其余选项采用默认选项。 Clementine 实现步骤 k-means结点Expert选项框 将mode设置为Expert,可对迭 代停止(Stop on)条件进行设 置。 默认(Default)的停止条件是迭 代超过20次或相邻两次迭代结果 差异小0.000001。 也可以选中Custom自己设定停 止条件。 本例采用默认的迭代停止条件。 Clementine 实现步骤 4 模型结果分析 执行k-means结点即可得到聚类模型。双击模型图标可查看模型结果。将模型图标与源数据相连,再通过一个table节点可查看各样本的具体分类情况。 Clementine 实现步骤 样本分类结果: Clementine 实现步骤 生成模型的model对话框 样本被聚成为三类,三类包含 的样本数分别为2、7、7。 展示了各类中四个变量的类均 值及标准差,如归入第 一类的 饮料的caffeine的平 均含量为 1.65,标准差为2.333。 Proximities展示了类与类之间 的距离。值越小表明越相近。 Clementine 实现步骤 生成模型的Viewer对话框 该对话框以图形的形式形象的将 模

文档评论(0)

yurixiang1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档