- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[教育学]第6章_聚类分析
本章学习目标 掌握地球科学中大量观测数据的样品或变量的数学定量分类思想; 学会样品或变量数据变换和分类标准的数学表示; 数据的聚类:谱系图制作及其地质意义; 学习重点、难点 重点:不同应用目的聚类分析技术的正确选取和聚类分析矩阵的求法以及谱系图的地质意义 难点:实际观测数据的聚类分析矩阵的构建和程序开发,深入理解谱系图的地质意义 问题的提出 地球科学涉及众多的分类问题,如地质学研究中岩石的分类、矿物矿床的分类、古生物的分类。油气勘探、开发过程中,石油成因研究、油藏类型研究、地化资料等的分类与分级。针对上述问题,怎样进行科学分类,分类结果有何启示? 6 聚类分析 第一节 聚类分析的思想 假设所研究的对象中的元素,存在着不同 程度的相似性(亲疏关系)根据其各观测指。 标,找出一些能够度量样品之间相似程度的统 计量,据此,把一些相似程度大的样品聚为一 类,即关系密切的聚合到一个小的分类单位, 疏远的聚合到一个大的分类单位,直到把所有 样品都聚合完毕,形成一个由小到大的分类系 统,最后把分类系统直观地用图形表示出来。 1.对象分类 根据分类对象的不同,聚类分析分为二 种一种是对指标(即变量)进行分类,。 叫做 R 型聚类分析,另一种是对样品进行分类,叫做 Q 型聚类分析。 2.方法分类 从聚类所采用的方法上看,又有聚合法、分裂法、图论法等。 第二节 数据变换与分类尺度(标准) 一、数据变换 设有 n 个样品,每个样品测量了 k 项因素 (变量),得出的数据矩阵: 1. 正规化变换 就是对任何一个测量因素,把 n 个样品的 值化为[0 , 1] 之间的数据。 变换公式: zij=(xij-mj)/dj (i=1,2 ,…, n ; j=1,2 ,…,k) 其中 经过上述变换得到与测量单位无关,且 所有数据都在[0,1] 之间的正规化矩阵: 2. 数据标准化 就是指把每一因素(变量)化为均值为 0 , 方差为 1 的标准化变量具体对( 6-1 )式,即。 是每一列的均值为 0 ,方差为 1 。 变换公式: 二、分类标准 考察原始观测数据矩阵的元素考查 1. 样品(或变量)距离: (1)如果把 n 个样品的 k 个指标(变量)看成 k 维空间的 n 个样品点,则样品间的亲疏程度 可用它们相互间的欧氏距离来衡量第 i 个样。 品与第 j 个样品间的距离为: 为使所求距离在某一确定范围变化,常采用以 下公式: (2).如果对指标(变量)的聚类,则把 n 个样 品的 k 个指标看成是 n 维空间 k 个点,仿此,得到第 i 个变量与第 j 个变量间的距离为: Dij 或 (Dij*) 的值越小,表示二样品点相似程 度越大它是一个n阶对称矩阵,即dij=dji,。 dii=0,或 Dij*=dji*,dii*=0 。 2.相似系数 给定原始数据矩阵,把每个样品看成 k 维空间 中的一个向量,此时第 i 个样品向量[xi1 ,xi2,…, xik]与第 j 个向量[ xj1 , xj2, …, xjk]之间的夹角余弦cosθ ij 称为此二样品的相似系数,即 由于-1 ≤ cos θ ij ≤ 1 ,其值越接近于 1 ,说明 二样品的相似程度越高求出两两样品的相。 似系数,得到相似系数矩阵: 它是一个 n 阶实对称矩阵,其主对角元素为 1 。 仿此作法,把每一个指标(变量)看成是 n 维 空间的向量,可得二变量之间的相似系数: 求出两两变量之间的相似矩阵: 3.相关系数 相关系数是变量之间线性相关程度的一个量度,常用作变量间相似程度的度量,第 i 个变量与第 j 个变量的相关系数为: 可得变量间相关系数矩阵: 它是一个主对角元为 1 的 k 阶实对称矩阵, 其中-1 ≤ rij ≤ 1 ,其值越接近于 1 ,说明 i , j两个变量线性相关性越强。 第三节 谱系图的形成 计算出相似统计量后,就可以它为依据对样品(或变量)进行聚类,最后形成谱系图。如下图所示。 聚合归类时,一般遵循下面四项原则: 若选出一对样品在已经分好的组中都未出现过,则把它们形成一个独立的新组。 若选出的一对样品中,有一个出现在已经分好的组里,把另一个样品也加入到该组。 若选出两个样品,它们分别出现在已经分好的两个组中,则把这两个组联在一起。 若选出的一对样品都出现在同一组中,则这对样品就不再分组了反复进行,直到聚。合分类完毕为止。 第四节 应用实例 一、 一次形成法 河北某铜钼矿含矿岩石、围岩主要化学成分与有用金属分析结果如表 6-1,对因素进行 R 型群分析,求出相似系数矩阵? 作成
文档评论(0)