- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数理统计学进阶5幻灯片
第4章 聚类和判别分析;? 聚类分析的基本概念
根据某些数量特征将观察对象进行分类的一种数理统计方法。聚类分析属于分类学,它是人们认识自然界未知事物的基本工具之一。通过分类人们可以将研究事物划分为不同类别,并探索产生这种类别的原因,进而提出合理、有效的处理该类事物的办法。譬如,生物学家根据生物的特点,将它们按照界、门、纲、目、科、属、种进行分类;卫生部门根据医疗水平、工作效率等众多指标,将若干医院分为几个等级类别等。在多元统计分析中,通过聚类分析可以将众多的观察变量分类,确定各类中的典型变量以达到降维目的。;?聚类方法
根据聚类的对象不同,聚类可以分为对样品聚类(Q-型聚类)和对变量聚类(R-型聚类);根据聚类方法的不同,大致可以归为以下几种:
(1)系统聚类法:首先将n个样品看成n类,然后将性质最接???的两类合并为一类,得到 (n-1)类,之后再从这些类中找出性质最接近的两个类合并为 (n-2)类,重复上述步骤,一直到所有样品聚为一类。整个过程可以绘成聚类图或树状图,按图作出适当的分类;
(2)加入法:假设已经存在一个分类系统,将所有样品依次加入已有的聚类图,得到一个新的聚类图。
(3)分解法:首先将所有样本分为一类,然后根据某种最优准则将它们分为两类。再用同样的方法把这两类各自分为两类,从中选一个使目标函数较好者,这样两类变成了三类,如此下去,一直到每类只有一个样品为止,将分类过程画成图,根据图适当做出分类。
(4)动态分类法:首先将样品粗糙分为n类,然后根据某种最优准则进行调整至不能调整为止。
其它,还有有序样品的聚类、条件系统聚类、有重叠的类、预报、模糊聚类、运筹方法聚类等。;? 距离和相似系数
聚类分析的实质就是将性质相近的样品或变量聚在一起。在聚类分析中反映样品或变量间性质远近的统计量称为聚类统计量,常用的聚类统计量有距离和相似系数。
(1)距离:用于对样品的聚类。距离有绝对值距离、欧式距离、明氏聚类、马氏距离等,常用的是欧氏距离。
对于任意两个样品i和k可定义欧氏距离(Euclidean distance):;(2)相似系数:常用于对变量的聚类。相似系数有夹角余弦、相关系数等。
对于连续性资料常用的有Pearson相关系数;对于分类资
料常用的有Pearson列联系数。
Pearson相关系数:;? 两步聚类(Two Step Cluster)实例;? K类中心聚类(K-Means Cluster)实例;? 系统聚类(Hierarchical Cluster)实例;例题4-4 为了研究我国31个省、市、自治区(未包括台湾、
香港和澳门)2007年城镇居民生活消费的分布规
律,根据调查资料以区域消费类型划分。指标名
称如下,原始数据见下表。样品数 n=31,变量个
数p=8。试进行聚类分析。
食品:人均食品支出(元/人);
衣着:人均衣着商品支出(元/人);
设备:人均家庭设备用品及服务支出(元/人);
医疗:人均医疗保健支出(元/人);
交通:人均交通和通信支出(元/人);
教育:人均娱乐教育文化服务支出(元/人);
居住:人均居住支出(元/人);
杂项:人均杂项商品和服务支出(元/人);;;系统聚类结果;
分两类 ;? 判别分析(Discrminant Analysis);?判别分析的前提条件
(1)样本量应尽可能大;
(2)对已知分类或分组(即因变量)的标准要尽可能客观、准确
和可靠,使建立起来的判别函数起到准确的判别效果。
(3)自变量(即观察指标)和因变量之间要有重要的影响关系,
选择自变量时应挑选既有区别性又有重要性的指标,这样可
以用最少的变量达到较高的判别能力。
(4)各观察指标变量尽可能服从正态分布。
(5)各观察指标变量应是连续型变量,判断类别或组别变量应是
分类变量。
(6)所选择的各观察指标变量之间的相关性应较弱,也就是相关
性检验不能达到显著水平,并且两个变量之间的相关性在不
同的类别或组别中应一致。;?判别分析法
判别分析的方法较多,常用的有 Fisher判别分析、Bayes判别分析、距离判别分析、最大似然判别分析和逐步判别分析等。
?判别函数的优劣评价
常用的评价方法有回代考核、前瞻性考核以及刀切法。回代考核是把训练样本带入新建的判别函数,根据判别结果和原始结果的符合率来评价判别函数的优劣,一般要求符合率高于80%,表示判别效果好;前瞻性考核对训练样本以外样本(外考核样本)进行判别。前瞻性考核
您可能关注的文档
最近下载
- 高级机工见习记录薄填写.docx VIP
- gossen starlite测光表 说明书.pdf VIP
- 断亲协议书模板.doc VIP
- 《配电网典型供电模式》(发展规二〔2014〕21号)资料.doc VIP
- 高级值班机工(值班机工)见习记录簿(案例参考)专题三.pdf VIP
- 《新闻稿撰写》课件.ppt VIP
- 喘息性支气管炎护理查房ppt课件.pptx VIP
- 体验经济与网络文学研究的范式转型-core.pdf VIP
- ADR21 00中文版-2006年车辆标准(澳大利亚设计规则2100—仪表板).doc VIP
- 2025年执业药师考试《中药学专业知识二》考试真题(附有答案) .pdf VIP
文档评论(0)