数理统计学进阶5幻灯片.pptxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数理统计学进阶5幻灯片

第4章 聚类和判别分析;? 聚类分析的基本概念 根据某些数量特征将观察对象进行分类的一种数理统计方法。聚类分析属于分类学,它是人们认识自然界未知事物的基本工具之一。通过分类人们可以将研究事物划分为不同类别,并探索产生这种类别的原因,进而提出合理、有效的处理该类事物的办法。譬如,生物学家根据生物的特点,将它们按照界、门、纲、目、科、属、种进行分类;卫生部门根据医疗水平、工作效率等众多指标,将若干医院分为几个等级类别等。在多元统计分析中,通过聚类分析可以将众多的观察变量分类,确定各类中的典型变量以达到降维目的。;?聚类方法 根据聚类的对象不同,聚类可以分为对样品聚类(Q-型聚类)和对变量聚类(R-型聚类);根据聚类方法的不同,大致可以归为以下几种: (1)系统聚类法:首先将n个样品看成n类,然后将性质最接???的两类合并为一类,得到 (n-1)类,之后再从这些类中找出性质最接近的两个类合并为 (n-2)类,重复上述步骤,一直到所有样品聚为一类。整个过程可以绘成聚类图或树状图,按图作出适当的分类; (2)加入法:假设已经存在一个分类系统,将所有样品依次加入已有的聚类图,得到一个新的聚类图。 (3)分解法:首先将所有样本分为一类,然后根据某种最优准则将它们分为两类。再用同样的方法把这两类各自分为两类,从中选一个使目标函数较好者,这样两类变成了三类,如此下去,一直到每类只有一个样品为止,将分类过程画成图,根据图适当做出分类。 (4)动态分类法:首先将样品粗糙分为n类,然后根据某种最优准则进行调整至不能调整为止。 其它,还有有序样品的聚类、条件系统聚类、有重叠的类、预报、模糊聚类、运筹方法聚类等。;? 距离和相似系数 聚类分析的实质就是将性质相近的样品或变量聚在一起。在聚类分析中反映样品或变量间性质远近的统计量称为聚类统计量,常用的聚类统计量有距离和相似系数。 (1)距离:用于对样品的聚类。距离有绝对值距离、欧式距离、明氏聚类、马氏距离等,常用的是欧氏距离。 对于任意两个样品i和k可定义欧氏距离(Euclidean distance):;(2)相似系数:常用于对变量的聚类。相似系数有夹角余弦、相关系数等。 对于连续性资料常用的有Pearson相关系数;对于分类资 料常用的有Pearson列联系数。 Pearson相关系数:;? 两步聚类(Two Step Cluster)实例;? K类中心聚类(K-Means Cluster)实例;? 系统聚类(Hierarchical Cluster)实例;例题4-4 为了研究我国31个省、市、自治区(未包括台湾、 香港和澳门)2007年城镇居民生活消费的分布规 律,根据调查资料以区域消费类型划分。指标名 称如下,原始数据见下表。样品数 n=31,变量个 数p=8。试进行聚类分析。 食品:人均食品支出(元/人); 衣着:人均衣着商品支出(元/人); 设备:人均家庭设备用品及服务支出(元/人); 医疗:人均医疗保健支出(元/人); 交通:人均交通和通信支出(元/人); 教育:人均娱乐教育文化服务支出(元/人); 居住:人均居住支出(元/人); 杂项:人均杂项商品和服务支出(元/人);;;系统聚类结果; 分两类 ;? 判别分析(Discrminant Analysis);?判别分析的前提条件 (1)样本量应尽可能大; (2)对已知分类或分组(即因变量)的标准要尽可能客观、准确 和可靠,使建立起来的判别函数起到准确的判别效果。 (3)自变量(即观察指标)和因变量之间要有重要的影响关系, 选择自变量时应挑选既有区别性又有重要性的指标,这样可 以用最少的变量达到较高的判别能力。 (4)各观察指标变量尽可能服从正态分布。 (5)各观察指标变量应是连续型变量,判断类别或组别变量应是 分类变量。 (6)所选择的各观察指标变量之间的相关性应较弱,也就是相关 性检验不能达到显著水平,并且两个变量之间的相关性在不 同的类别或组别中应一致。;?判别分析法 判别分析的方法较多,常用的有 Fisher判别分析、Bayes判别分析、距离判别分析、最大似然判别分析和逐步判别分析等。 ?判别函数的优劣评价 常用的评价方法有回代考核、前瞻性考核以及刀切法。回代考核是把训练样本带入新建的判别函数,根据判别结果和原始结果的符合率来评价判别函数的优劣,一般要求符合率高于80%,表示判别效果好;前瞻性考核对训练样本以外样本(外考核样本)进行判别。前瞻性考核

文档评论(0)

liangyuehong + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档