数理统计学进阶5幻灯片.pptxVIP

下载本文档

14
0
约2.16千字
约 17页
2017-08-21 发布于浙江
举报
版权申诉

数理统计学进阶5幻灯片.pptx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数理统计学进阶5幻灯片

第4章聚类和判别分析;? 聚类分析的基本概念根据某些数量特征将观察对象进行分类的一种数理统计方法。聚类分析属于分类学，它是人们认识自然界未知事物的基本工具之一。通过分类人们可以将研究事物划分为不同类别，并探索产生这种类别的原因，进而提出合理、有效的处理该类事物的办法。譬如，生物学家根据生物的特点，将它们按照界、门、纲、目、科、属、种进行分类；卫生部门根据医疗水平、工作效率等众多指标，将若干医院分为几个等级类别等。在多元统计分析中，通过聚类分析可以将众多的观察变量分类，确定各类中的典型变量以达到降维目的。;?聚类方法根据聚类的对象不同，聚类可以分为对样品聚类（Q-型聚类）和对变量聚类（R-型聚类）；根据聚类方法的不同，大致可以归为以下几种： (1)系统聚类法：首先将n个样品看成n类，然后将性质最接???的两类合并为一类，得到 (n-1)类，之后再从这些类中找出性质最接近的两个类合并为 (n-2)类，重复上述步骤，一直到所有样品聚为一类。整个过程可以绘成聚类图或树状图，按图作出适当的分类； (2)加入法：假设已经存在一个分类系统，将所有样品依次加入已有的聚类图，得到一个新的聚类图。 (3)分解法：首先将所有样本分为一类，然后根据某种最优准则将它们分为两类。再用同样的方法把这两类各自分为两类，从中选一个使目标函数较好者，这样两类变成了三类，如此下去，一直到每类只有一个样品为止，将分类过程画成图，根据图适当做出分类。 (4)动态分类法：首先将样品粗糙分为n类，然后根据某种最优准则进行调整至不能调整为止。其它，还有有序样品的聚类、条件系统聚类、有重叠的类、预报、模糊聚类、运筹方法聚类等。;? 距离和相似系数聚类分析的实质就是将性质相近的样品或变量聚在一起。在聚类分析中反映样品或变量间性质远近的统计量称为聚类统计量，常用的聚类统计量有距离和相似系数。 (1)距离：用于对样品的聚类。距离有绝对值距离、欧式距离、明氏聚类、马氏距离等，常用的是欧氏距离。对于任意两个样品i和k可定义欧氏距离(Euclidean distance)：;(2)相似系数：常用于对变量的聚类。相似系数有夹角余弦、相关系数等。对于连续性资料常用的有Pearson相关系数；对于分类资料常用的有Pearson列联系数。 Pearson相关系数：;? 两步聚类(Two Step Cluster)实例;? K类中心聚类(K-Means Cluster)实例;? 系统聚类(Hierarchical Cluster)实例;例题4-4 为了研究我国31个省、市、自治区（未包括台湾、香港和澳门）2007年城镇居民生活消费的分布规律，根据调查资料以区域消费类型划分。指标名称如下，原始数据见下表。样品数 n=31，变量个数p=8。试进行聚类分析。食品：人均食品支出（元/人）；衣着：人均衣着商品支出（元/人）；设备：人均家庭设备用品及服务支出（元/人）；医疗：人均医疗保健支出（元/人）；交通：人均交通和通信支出（元/人）；教育：人均娱乐教育文化服务支出（元/人）；居住：人均居住支出（元/人）；杂项：人均杂项商品和服务支出（元/人）；;;系统聚类结果; 分两类 ;? 判别分析(Discrminant Analysis);?判别分析的前提条件 (1)样本量应尽可能大； (2)对已知分类或分组（即因变量）的标准要尽可能客观、准确和可靠，使建立起来的判别函数起到准确的判别效果。 (3)自变量（即观察指标）和因变量之间要有重要的影响关系，选择自变量时应挑选既有区别性又有重要性的指标，这样可以用最少的变量达到较高的判别能力。 (4)各观察指标变量尽可能服从正态分布。 (5)各观察指标变量应是连续型变量，判断类别或组别变量应是分类变量。 (6)所选择的各观察指标变量之间的相关性应较弱，也就是相关性检验不能达到显著水平，并且两个变量之间的相关性在不同的类别或组别中应一致。;?判别分析法判别分析的方法较多，常用的有 Fisher判别分析、Bayes判别分析、距离判别分析、最大似然判别分析和逐步判别分析等。 ?判别函数的优劣评价常用的评价方法有回代考核、前瞻性考核以及刀切法。回代考核是把训练样本带入新建的判别函数，根据判别结果和原始结果的符合率来评价判别函数的优劣，一般要求符合率高于80%，表示判别效果好；前瞻性考核对训练样本以外样本（外考核样本）进行判别。前瞻性考核