第十一讲聚类分析.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十一讲聚类分析

第十一讲 聚类分析 一、基本概念与主要步骤 (一)基本概念 聚类分析是通过建立一种分类的方法,将一批样本数据(或变量)按照它们在性质上的亲疏程度在没有先验知识的情况下自动进行分类。 其要点是:(1)一个类就是一个具有相似性的个体的集合,不同类之间具有明显的非相似性;(2)在分类中,人们不必事先给出一个分类标准,聚类分析能够从样本数据出发,客观地决定分类标准。 例如:表1是5名学生的两门课程的成绩 表1 聚类分析模拟数据 将5名学生以两门课的成绩为依据分成两类。很明显,001号和002号学生应是一类,003、004、005是另一类。进一步,如果将这5名学生分成三类,则001和002学生是一类,003学生自成一类,004和005号学生是一类。 可见,对学生的分类是在没有指定任何分类标准的前提下进行的,分类的依据完全是从样本数据出发的。 001和002号学生之所以在一类中,完全是由于他们的成绩相近,他们之所以没有和005号学生分在一类,也是由于他们的成绩相远。聚类分析正是基于这种出发点,实现样本数据的自动分类。 (二)聚类分析的主要步骤 1、选择变量 理论和经验是选择的前提,同时这些变量应该具有以下两个特点:(1)和聚类分析的目标密切相关,能够反映要分类对象的特征;(2)变量之间具有明显差异,不应该高度相关。 2、计算相似性,判别亲疏程度。 3、聚类。涉及两个问题:一是选定聚类方法,二是确定形成的类数。 4、对聚类结果进行解释和证实。 二、层次聚类法 (一)基本思想 在聚类分析开始,每个样本自成一类;然后,按照某种方法度量所有样本之间的亲疏程度,把其中最紧密或最相似的样本首先聚成一小类;接下来,度量剩余的样本和小类间的亲疏程度,并将当前最亲密的样本或小类再聚成一类;接下去再度量剩余的样本和小类(或小类和小类)间的亲疏程度,并将当前最紧密的样本或小类再聚成一类;如此反复,直到所有样本聚成一类为止。 如何衡量数据间的亲疏程度呢?这涉及到两个方面的问题,一是如何度量样本数据间的亲疏程度;二是如何度量样本数据与小类之间,小类和小类之间的亲疏程度。 (二)样本数据间亲疏程度的度量 1、欧氏距离(Euclidean Distance):两样本(x,y)之间的距离是两样本每个变量值之差的平方和的平方根(k个变量)。 2、欧氏距离平方(Squared Euclidean Distance):两样本(x,y)之间的距离是各样本每个变量值之差的平方和(k个变量)。 3、Chebychev距离:两样本(x,y)之间的距离是各样本所有变量之差绝对值中的最大值(k个变量)。 CHEBYCHEV(x,y)=max 4、Block距离:两样本(x,y)之间的距离是各样本每个变量值之差的绝对值的总和(k个变量)。 BLOCK(x,y)= 5、Minkowski距离:两样本(x,y)之间的距离是各样本每个变量值之差的绝对值的p次方的总和,再求p次方根(k个变量,p可以任意指定)。 MINKOWSKI(x,y)= 6、 Customized距离:用户自定义距离。两样本(x,y)之间的距离是各样本每个变量值之差的绝对值的p次方的总和,再求q次方根(k个变量,p,q可以任意指定)。 CUSTOMIZED(x,y)= 表2 表1数据的欧氏距离矩阵 表2显示,004与005号学生的成绩距离最短(3.606),因此,在聚类时它们首先聚成一小类。 连续变量亲疏程度的度量,除了上面的各种距离外,还可以计算其他统计指标,如:pearson简单相关系数,Cosine相似度等。 定序或定类变量的样本亲疏测度方法有卡方统计量,也可以通过计算一些相似性的统计指标来测定样本间的亲疏程度。 (三)样本数据与小类、小类与小类间亲疏程度的度量 在度量了样本数据间的亲疏程度以后,就可以将最紧密(距离最小或相关系数最大)的样本首先聚成小类,例如表2中,004和005学生首先聚成一小类。 接下来的工作是如何将某个样本与已经形成的小类继续聚集,以及如何将已经形成的小类和小类继续聚集。于是就必然需要度量样本与小类以及小类和小类之间的亲疏程度。 聚类分析中,有常用的6种度量方法: 1、最短距离法(Nearest Neighbor) 以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。 例如:表2中,样本001和(004,005)这个小类的最短距离为26.907。 2、最长距离法(Furthest Neighbor) 以当前某个样本与已经形成的

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档