SAS类分析方法.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SAS类分析方法

SAS 聚类分析(描述算法) 系统聚类法 系统聚类法(Hierarchical clustering method)是目前使用最多的一种方法。其基本思想是首先将n个样品看成n类(即一类包括一个样品),然后规定样品之间的距离和类与类之间的距离。将距离最近的两类合并为一个新类,在计算新类和其他类之间的距离,再从中找出最近的两类合并,继续下去,最后所有的样品全在一类。将上述并类过程画成聚类图,便可以决定分多少类,每类各有什么样品。 系统聚类法的步骤为:①首先各样品自成一类,这样对组样品就相当于有类;②计算各类间的距离,将其中最近的两类进行合并;③计算新类与其余各类的距离,再将距离最近的两类合并;④重复上述的步骤,直到所有的样品都聚为一类时为止。下面我们以最短距离法为例来说明系统聚类法的过程。最短距离法的聚类步骤如下: ① 规定样品之间的距离,计算样品的两两距离,距离矩阵记为,开始视每个样品分别为一类,这时显然应有; ② 选择距离矩阵中的最小元素,不失一般性,记其为,则将与合并为一新类,记为,有; ③ 计算新类与其他各类的距离,得到新的距离矩阵记为; ④ 对重复开始进行第②步,…,直到所有样本成为一类为止。 值得注意的是在整个聚类的过程中,如果在某一步的距离矩阵中最小元素不止一个时,则可以将其同时合并。  系统聚类法是最常用的一种聚类方法,常用的系统聚类方法有最短距离法、最长距离法、中间距离法、类平均法、重心法、Ward最小方差法、密度估计法、两阶段密度估计法、最大似然估计法、相似分析法和可变类平均法。  大多数的研究表明:最好综合特性的聚类方法为类平均法或Ward最小方差法,而最差的则为最短距离法。Ward最小方差法倾向于寻找观察数相同的类。类平均法偏向寻找等方差的类。具有最小偏差的聚类方法为最短距离法和密度估计法。拉长的或无规则的类使用最短距离法比其他方法好。最没有偏见的聚类方法为密度估计法。 1)最短距离: (1.1) 类与类之间距离定义为和中最邻近的两个样品的距离。最短距离法有许多理想的理论性质,但在蒙特卡洛(Monto Carlo)模拟研究中(例:Milligan 1980)进行得很不顺利。它不对类的形状加以限制,保证了对拉长和不规则类的检测,。 2) 最长距离: (1.2) 类与类之间距离定义为和中最远的两个样品的距离。最长距离法严重地倾向于产生直径粗略相等的类,而且可能被异常值严重地扭曲。 3) 重心法距离: (1.3) 类与类之间距离定义为两个重心或均值和之间欧氏距离的平方。重心法在处理异常值上比其他谱系方法更稳健,但是在其他方便不如Ward或类平均距离法的效果好(Milligan 1980)。 4) 类平均距离: (1.4) 类与类之间距离定义为和中所有两个样品对之间距离的平均。类平均距离法趋向于合并具有较小偏差的类,而且稍微有点倾向与产生相同方差的类。 5) Ward最小方差法或Ward离差平方和距离: 若采用直径的定义方法,用、分别表示和的直径,用表示大类的直径,则 , (1.5) (1.7) 其中。用离差平方和法定义和之间的距离为两个类对所有变量的ANOVA平方和,即 (39.16) 可以证明这种定义是有意义的,并且 (39.17) 那么 (39.18) 如果样品间的距离采用欧氏距离,上式可表为 (39.19) 这表明,与重心法的距离(式39.12)只差一个常数倍,这个倍数显然与这两类的样品数和有关。 Ward离差平方和距离法在每次合并类和类为类时,总是选择这样两个类和类,使它们合并成类后的值最小,故也称为Ward最小方差法。合并后增加的最小方差除以合并后总的离差平方和的比值(即半偏)的统计意义是容易解释的。Ward最小方差法一般是在多元正态混合型、等球形协方差、等抽样概率假设下合并类。所以,Ward方法趋向于合并具有少量观察的类,并倾向于形成具有大约相同数目观察的类。Ward方法对异常值也很敏感(Milligan 1980)。 6) 密度估计法: 密度估计法是一类使用非参数概率密度的聚类方法。包括两个步骤:①使用一种基于密度估计的新的非相似测度来计算样品和的近邻关系;②然后根据基于方法计算的距离,采用最小距离法进行聚类。有三种不同的密度估计法: ① 最近邻估计法 最近邻估计法(Wong和Lane 1983)使用最近邻密度估计来计算距离。令为点到第个最近观察的距离。考虑以点为中心为半径的封闭球,在点的密度估计函数等于球内的观察数目除以球的体积所得比值。这样,新的非相似测度距离为: (39.20) 最近邻估计法适用于样品数目较多且密度较高的类。 ② 均匀核估计法 均匀核估计使用了均匀核密度估计来计算距离。考虑以点为中心为半径的封闭球,在点的密度估计函数等于球内的观察数目除以球的体积所得比值。它与最近邻

文档评论(0)

ipad0d + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档