聚类分析法幻灯片.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析方法 方法介绍 聚类分析 (Clauster Analysis) 数值分类法的一种,在社会应用中称类型学。 Robert Tryon于1939年提出的一种心理学研究方法。 目的:用数量关系对事物进行分类。 对于可以用某些数量描述的事物,采用样本间的距离来将性质接近的事物归为一类,从而达到对事物的分析和评价。 聚类分析作分类时各类群乃至类群数事先未知,而是根据数据的特征确定的,又称为无师可循的分类。 一般分为逐步聚类、系统聚类和其它方法。 16种饮料的热量、咖啡因、钠及价格四种变量 聚类分析(cluster analysis) 对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件、样品)来分类(相当于对数据中的行分类)。 比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类。 当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。 如何度量远近? 如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。 如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。 三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。 如果以n个数值型变量(n维空间)来描述某一类事物,则一个事物就是n维空间中是一个点。 聚类的类型 聚类有两种类型: “Q聚类”,也可解释为样本聚类。 这种聚类将在聚类过程中发现具有共同属性的样本。 “R聚类”,也可解释为变量聚类。而“R聚类”则可以在某些变量中选择出具有代表性的变量。 (一)基本概念 样品:样品是分类对象的单一个体。在零件分类中,每一个零件即为一个样品。 分类全域:分类全域是欲分类样品的集合。在车间生产流程分析中,进入车间加工的全部零件为其分类全域。 类:类是分类全域的一个子集。自己可以包括一个或多个样品,单一样品亦可以是一个独立的分类。因此,一个零件,既可看成是一个样品,也可看成是只有一个样品的特殊的类。 (一)基本概念 相似系数:是描述两个样品之间相似程度的统计量。在处理不同的具体问题时,可以构造不同的相似系数统计量。在车间生产流程分析中对零件分类,依据是零件工艺过程,即按工艺过程相似性分类。 就一对零件而言,他们的工艺过程中共用的机床数目越多,则这一对零件相似程度就愈高;反之,若共用的机床数目越少,其相似程度就越低。 据此,可定义相似系数的统计量: 相似系数 令加工零件Xi与Xj使用的机床总数目分别为CI与CJ,则有: (二)聚类方法和类相似系数 单一样品对之间可以根据原始数据构造一定的相似系数统计量来描述它们之间的相似性。同样,当样品合并成类时,也可以按一定的法则构造相似系数统计量,以描述样品与类之间或类与类之间的相似程度。 这种构造样品与类与类之间的相似系数统计量的法则称为聚类方法,该统计量称为类相似系数。 常用的聚类方法有最近距离法、最远距离法、类平均法、中值法、可变类平均法等。 零件分类实践表明,类平均法有较好的分类效果,能较好地反映零件之间客观存在的相似性。 类平均法(Average Linkage Method) 在类平均法中,类相似系数的定义为:两个类分别有np及nq个样品,这两个类之间的类相似系数定义为所有np×nq个样品之间相似系数的算术平均值。 为提高零件分类的计算速度,可以用递推算法计算出每聚合一个新类之后该类与其他类之间的类相似系数。 设类Xp及Xq聚合成新类Xr,它们分别具有np 、 nq及nr个样品,用类平均法,按以下的递推公式可算出任意一个类Xk与新类Xr之间的相似系数Skr (三)聚类分析法的零件分类 聚类分析法是根据规定的统计量为判据将多种零件逐次聚合成类。 为此,首先需要计算出零件之间的类相似系数,据此列出原始相似系数矩阵表。 (三)聚类分析法的零件分类 将矩阵中相似系数数值最高的一对零件聚合成新类,然后,再按规定的聚类方法计算出新类与其余的零件类(单一零件亦可认为是一类)之间的相似系数,据此建立相似系数矩阵。 (四)计算机辅助聚类分析法零件分类 采用聚类分析法对众多零件进行分类时,包括有大量的计算和信息处理工作,用手工方式很难胜任,故宜借助于计算机。根据上述聚类分析法零件分类过程,可归纳聚类分析法的算法如下: (1)计算每一对零件之间的相似系数,据此建立一个相似系数矩阵; (2)在相似系数矩阵中有哪些信誉好的足球投注网站最大相似系数值; (3)检查终止条件是否满足?如果满足,转(6),否则转(4); (4)将相似系数最大的那两个零件类合并为新类; (5)计

文档评论(0)

mwk365 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档