- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第8章聚类分析2精要.ppt
6 聚类分析与判别分析 6.1 聚类分析 6.2 判别分析 6.1 聚类分析 6.1.1 基本原理和方法 6.1.2 系统聚类法 6.1.3 系统聚类的SPSS应用 6.1.4 K均值聚类法 6.1.5 K均值聚类法的SPSS应用 6.1.1 基本原理和方法 聚类分析:采用定量数学方法,根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据 分类的基本思想:把一些相似程度较大的样品(或指标)聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕 例:对7种产品的销售情况进行检验。共有两个指标,销售额和销售量,其数值分别如下表所示。选择合适的统计方法对这些产品进行分类。 现在如果将这七个产品按照销售量和销售额的大小把他们分成两类。很容易得出,产品1,2,3应该是一类的,产品4,5,6,7应该是一类的。如果将他们分成三类,则仍很易得出产品1,2,3还是一类的,产品4,5,6是一类的,产品7是自成一类的。 可见对产品的分类事先是没有给定标准的,完全从给出的样本数据出发进行分类。产品1和2,3在一类是因为在销售量和销售额上的接近,与产品4,5,6,7不在一类,则是因为在销售量和销售额上比较大的差距。 聚类分析的作用正是在于此,主要用于辨识具有相似性的事物,并根据彼此不同的特性加以“聚类”,即自动分类,使同一类的事物具有高度的相似性,不同类的事物有较大的差异性。 它是把事物按其相似程度进行分类,在分类过程中,人们无需自己先定义一个分类标准,聚类分析能够从现有的样本数据出发,按它们的亲疏程度分成若干类。 聚类分析 例如:有p个指标(变量),n个对象,依据这n个对象在p个指标下的数据,对这n个对象进行聚类。设数据为: 每一个对象是p维空间中的一个点 聚类问题,就是在p维空间中,对这n个点的聚类问题 使用聚类分析的注意的问题 变量(指标)不能太多,否则,难以判断聚类结果的实际意义 指标间有一定的相关关系(不必高度相关),可以对所观察的一群个体分类,从而可以对个体进行进一步的研究 变量(指标)过多,则可对指标分类,把有相近含义的指标聚到一起,把整个指标群分为若干类 聚类分析的分类 样本聚类/Q型聚类:对观测量(Case)进行聚类,不同的目的选用不同的指标作为分类的依据 变量聚类/R型聚类:能够找出彼此独立且有代表性的自变量,而又不丢失大部分信息,主要是对研究对象的观测变量进行聚类,使得具有共同特征的变量作为一类 聚类分析的步骤 ① 选择描述事物对象的变量(指标) ② 形成数据文件,建立样品资料矩阵 ③ 确定数据是否需要标准化 ④ 确定表示对象距离或相似程度的统计量 ⑤ 计算对象间的距离(rij)和相似关系矩阵R(rij) ⑥ 选择类与类之间的距离定义 ⑦ 聚类 ⑧ 分类 度量样本之间相似程度的统计量 距离: 将一个样品看作P维空间的一个点,并在空间用某种度量测量点与点之间的距离,距离越近的点归为一类,距离较远的点归为不同的类 以dij表示第i个样本与第j个样本间的距离,需要满足以下四个条件 dij≥0,对一切i和j成立 dij=0,当且仅当i=j成立 dij=dji≥0,对一切i和j成立 dij≤dik+dkj,对于一切i和j成立 相似系数: 变量或样品的关系越密切,其性质就越接近,它们的相似系数的绝对值越接近1;反之,它们的相似系数的绝对值越接近于零,即样品的关系越疏远 样品之间相似系数大的样品归为一类,样品之间相似系数小的样品归为不同的类,即两点相似系数越接近1,就相当于距离越短,即相似的为一类,不相似的属于不同类 常用距离的分类 由于距离的类型不同,其定义式也稍有差异,下面介绍聚类分析中对连续型变量常用的几种距离及其定义式。 (1)欧氏距离(Euclidean Distance):两样本之间的距离是两个样本在每个变量上的相应值之差的平方和的平方根。 (2)欧氏距离平方(Squared Euclidean Distance ):两样本之间的距离是两个样本在每个变量上的相应值之差的平方和。 (4)马氏距离 (Block):也称广义欧氏距离,是两个样本在每个变量上的相应值之差的绝对值的总和。 (6)自定义距离(Customized): 两样本x,y 之间的距离是两个样本在每个变量上的相应值之差的绝对值的p次方的总和再求q次方根。 相似系数 相似系数的计算 (1)夹角余弦 夹角余弦时从向量集合的角度所定义的一种测量变量之间亲疏程度的相似系数。它是受相似形的启发而来的,在形状相似而长度不是主要矛盾时用夹角余弦能反映出指标之间的关系。 设在n维空间的向量:
您可能关注的文档
- 三合一教学片资料.ppt
- 三合盛资料.ppt
- 三喜行政事业单位内部控制专题讲座之一——行政事业单位内资料.ppt
- 三四线城市操盘思路资料.ppt
- 三国演义导读(整合)资料.ppt
- 三基三严生理解剖制作资料.ppt
- 三基培训中药人员在职教育培训资料.ppt
- 三基培训胸腔穿刺术资料.ppt
- 三基知识资料.ppt
- 三基训练伤寒论绪论05资料.ppt
- 2025年无人机低空医疗物资投放社会效益报告.docx
- 2025年再生塑料行业包装回收利用产业链重构研究.docx
- 《AI眼镜周边产品市场机遇:2025年终端销售与需求增长洞察》.docx
- 2025年坚果加工行业深加工技术突破与市场拓展策略报告.docx
- 2025年通信芯片行业技术竞争与未来趋势报告.docx
- 《2025年生鲜电商配送冷链事故分析与预防措施》.docx
- 《商业航天融资新趋势2025民营卫星企业资本涌入估值分析市场动态》.docx
- 2025年能源绿色健康行业创新技术与市场应用报告.docx
- 2025年无人机低空医疗救援通信方案分析报告.docx
- 2025年烹饪机器人行业市场集中度分析报告.docx
有哪些信誉好的足球投注网站
文档评论(0)