第14章_聚类概念.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第14章 聚类分析 14.1 聚类分析概述 例:对7种产品的销售情况进行检验。共有两个指标,销售额和销售量,其数值分别如下表所示。选择合适的统计方法对这些产品进行分类。 14.1 聚类分析概述 现在如果将这七个产品按照销售量和销售额的大小把他们分成两类。很容易得出,产品1,2,3应该是一类的,产品4,5,6,7应该是一类的。如果将他们分成三类,则仍很易得出产品1,2,3还是一类的,产品4,5,6是一类的,产品7是自成一类的。 可见对产品的分类事先是没有给定标准的,完全从给出的样本数据出发进行分类。产品1和2,3在一类是因为在销售量和销售额上的接近,与产品4,5,6,7不在一类,则是因为在销售量和销售额上比较大的差距。 14.1 聚类分析概述 聚类分析的作用正是在于此,主要用于辨认具有相似性的事物,并根据彼此不同的特性加以“聚类”,即自动分类,使同一类的事物具有高度的相似性,不同类的事物有较大的差异性。 它是把事物按其相似程度进行分类,并寻找不同类别事物特征的分析工具。在分类过程中,人们无需自己先定义一个分类标准,聚类分析能够从现有的样本数据(或变量)出发,按它们的亲疏程度分成若干类,并能通过变量与变量(样本与样本)的连接状况,揭示在同一类别中不同变量或样本的亲疏程度。 14.2 距离和相似系数 1. 变量测量尺度的类型 为了将样本进行分类,就需要研究样品之间的关系;而为了将变量进行分类,就需要研究变量之间的关系。但无论是样品之间的关系,还是变量之间的关系,都是用变量来描述的,变量的类型不同,描述方法也就不同。通常,变量按照测量它们的尺度不同,可以分为三类。 (1)间隔尺度。指标度量时用数量来表示,常为连续型和离散型指标变量,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是离散数量,测量得到的数量是连续数量。在间隔尺度中如果存在绝对零点,又称比例尺度。 14.2 距离和相似系数 (2)顺序尺度,又称有序多态变量,这种变量无法度量,即没有明确的数量表示,只有次序关系,或虽用数量表示,但相邻两数值之间并没有绝对任何基数效应,它只表示一个有序状态序列,数值之间只有序数效应。如评价学生的学习成绩,分成优、良、中、差四等,或一等、二等、三等、四等。 (3)名义尺度,也称无序多态指标,指标度量时既没有数量表示也没有次序关系,只有一些特性状态,如性别的男、女,一年四季的春、夏、秋、冬等等。 14.2 距离和相似系数 2. 样品间亲疏程度的测度 研究样品或变量的亲疏程度的数量指标有两种,一种叫距离,它是将每一个样品看作一个点,并用某种度量测量点与点之间的距离,距离近的归为一类,距离远的点应属于不同的类。 另一种叫相似系数,它们的相似系数的绝对值越接近于1,则变量或样品的关系越密切,性质越接近,当绝对值越接近于0,则变量或样品的关系越疏远,相似的为一类,不相似的属于不同类。 变量之间的聚类即型聚类分析,常用相似系数来测度变量之间的亲疏程度。而样品之间的聚类即型聚类分析,则常用距离来测度样品之间的亲疏程度。 14.2 距离和相似系数 1. 距离的定义和特点 以表示第个样本与第个样本间的距离,需要满足以下四个条件: 14.2 距离和相似系数 2. 常用距离的分类 由于距离的类型不同,其定义式也稍有差异,下面介绍聚类分析中对连续型变量常用的几种距离及其定义式。 (1)欧氏距离(Euclidean Distance):两样本之间的距离是两个样本在每个变量上的相应值之差的平方和的平方根。 14.2 距离和相似系数 (2)欧氏距离平方(Squared Euclidean Distance ):两样本之间的距离是两个样本在每个变量上的相应值之差的平方和。 14.2 距离和相似系数 (4)马氏距离 (Block):也称广义欧氏距离,是两个样本在每个变量上的相应值之差的绝对值的总和。 14.2 距离和相似系数 (6)自定义距离(Customized): 两样本x,y 之间的距离是两个样本在每个变量上的相应值之差的绝对值的p次方的总和再求q次方根。 14.2 距离和相似系数 3. 相似系数的计算 (1)夹角余弦 夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。它是受相似形的启发而来的,在形状相似而长度不是主要矛盾时用夹角余弦能反映出指标之间的关系。 设在n维空间的向量: 定义夹角余弦为: 14.2 距离和相似系数 (2)相关系数 相关系数常用rij表示,这是大家较为熟悉的统计量之一。为了和其它相似系数的符号统一,这里将它记做ci

文档评论(0)

5201394 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档