ch11聚类与判别分析.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十一章 聚类与判别分析 第一节 聚类基础知识回顾 第二节 系统聚类法 第三节 动态聚类法 第四节 判别分析 第一节 聚类基础知识回顾 基本概念 聚类统计量 无量纲化方法 基本概念 聚类分析概念: 建立一种分类方法,它将一批样品或变量(指标),按照它们在性质上的相似、疏远程度进行科学的分类。 基本概念——聚类分析的方法 在实际应用中聚类的方法有多种,最常 用的是系统聚类法,按照不同的分类较常用 的有以下几种: 1、根据聚类过程不同分为: 分解法和凝聚法 2、根据聚类调整次数分为: 静态聚类法和动态聚类法 3、根据聚类的对象分为: Q型聚类和R型聚类 聚类统计量 Q型聚类统计量 绝对距离、欧氏距离、明氏距离、切比 雪夫距离、马氏距离、兰氏距离 R型聚类统计量 夹角余弦、相似系数、同号率 无量纲化方法1 极差正规化法 无量纲化方法2 功效系数法 第二节 系统聚类法 系统聚类又称为分层聚类,它是在 众多的聚类方法中应用最多的一种聚类 方法。根据聚类过程不同又分为凝聚法 和分解法。 基本思想: 距离最近或最相似的聚为一类 。 实施步骤 选择参与分析的变量和标签变量 选择进行的是R或Q聚类 选择对数据进行无量纲化的方法 Q聚类选择样本点距离的计算方法,R聚类选择变量相关系数的计算公式 确定类与类距离的测量方法 选择使用其它附加功能 对输出结果进行合理的解释 应用实例-Q型聚类 数据背景 为研究山东省2002年农村居民生活消 费的分布规律,根据调查资料做类型划分。 数据文件: 农村居民消费支出2002.sav 要求: 应用实例-R型聚类 R型聚类是一种降维的方法,用于在变 量众多时寻找有代表性的变量。(例如衣服尺 寸变量的选择) 选择代表性指标的方法: 1.根据专业知识选择。 2.利用计算确定 应用实例-R型聚类 数据背景: 有10个测试项目,分别用变量x1~x10 表示,50名学生参加测试。(10项指标均为 百分数) 数据文件为:data14-03.sav 要求: 最长距离法、皮尔逊相关、输出相关阵、分成3组,找出3个代表性变量。 选取分成三类的第三组代表性指标 第三组包含的变量为X3、X8、X9、X10从相关系数矩阵中读取相关系数,计算各相关指数: 第三节 动态聚类法 动态聚类又叫快速聚类,其特点是 处理速度快,占用内存少,适用于大样 本的聚类分析。 基本思想 实施步骤 第一步:数据标准化(descriptives) 第二步:选择参与分析的变量和标签变量 第三步:确定分类数 第四步:输入聚类中心点(凝聚点) 第五步:确定迭代次数或收敛判据 第六步:其他功能设置 第七步:对输出结果进行合理的解释 应用实例及参数说明 数据背景: 为研究山东省2002年农村居民生活消 费的分布规律,根据调查资料做类型划分。 数据文件: 农村居民消费支出2002.sav 凝聚点文件: 标准化凝聚点.sav (注意文件格式) 注意问题 快速聚类使用的是欧氏距离平方 快速聚类变量必须是连续变量 对数据一定事先考察有无量纲影响 第四节 判别分析 含义: 判别分析就是解决在研究对象用某种法 方法已经分成若干类(组)的情况下,确定新 的观测数据(样本点)属于已知类别中哪一 类的多元统计分析方法。 基本思想: 通常建立一个判别函数,来描述新样本点与已知组别的接近程度,从而决定样本归属。 方法分类: 1、按判别组数分: 两组判别分析和多组判别分析 2、按区分总体所用数学模型分: 线性判别和非线性判别 注:fisher判别是常用的线性判别 3、按处理方法不同分: 逐步判别、序贯判别等 实例分析 数据背景: 有三种鸢尾花的花瓣、花萼的长、宽数 据。共搜集了三种鸢尾花,每种50个观测, 共150个观测量的数据。建立判别函数,并 判断花萼长50、花萼宽33、花瓣长14、花 瓣宽2的鸢尾花属于哪一种? 数据文件:data14-04.sav 判别结果 将花萼长50、花萼宽33、花瓣长14、 花瓣宽2的鸢尾花数据代入三个判别函数中 得: F1=76.129 (刚毛鸢尾花) F2=33.572 (变色鸢尾花) F3=-9.547 (佛吉尼亚鸢尾花) F1最大,得出此种花属于刚毛鸢尾花。 无量纲化方法1 none不进行标准化 z scores 把数值标准化到Z分数 range 0 t

文档评论(0)

junjun37473 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档