- 1、本文档共70页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据分析PPT6.1_6.2
第六章 聚类分析;*; “物以类聚, 人以群分”,科学研究在揭示对象特点及其相互作用的过程中, 不惜花费时间和精力进行对象分类 ,以揭示其中相同和不相同的特征。
在心理学研究中, 经常遇到的分类包括两种情况:
一是对研究样本或个案的分类, 即根据每个个案的一系列观测指标,将那些在这些观测量方面表现相近的个案归为一类, 将那些在这些观测量方面的表现很不相同的个案归为不同类;
二是对观测量的分类,即将一系列的观测量归类合并为性质明显不同的少数几个方面。; “在生物、经济、社会、人口等领域的研究中,存在着大量量化分类研究。例如:
在生物学中,为了研究生物的演变,生物学家需要根据各种生物不同的特征对生物进行分类。
在经济研究中,为了研究不同地区城镇居民生活中的收入和消费情况,往往需要划分不同的类型去研究。
在地质学中,为了研究矿物勘探,需要根据各种矿石的化学和物理性质和所含化学成分把它们归于不同的矿石类。
在人口学研究中,需要构造人口生育分类模式、人口死亡分类状况,以此来研究人口的生育和死亡规律。 ;判别分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。
判别分析方法假定组(或类)已事先分好,判别新样品应归属哪一组,对组的事先划分有时也可以通过聚类分析得到。
聚类分析方法是按样品(或变量)的数据特征,把相似的样品(或变量)倾向于分在同一类中,把不相似的样品(或变量)倾向于分在不同类中。;;;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*; 4.距离选择的原则
一般说来,同一批数据采用不同的距离公式,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的距离公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时,应注意距离公式的选择。通常选择距离公式应注意遵循以下的基本原则:
(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。; (2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。
(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。;*;采用该方法得到的结果比较简单易懂,对计算机的性能要求不高,因此应用也比较广泛。
快速聚类法是麦奎因(MacQueen,1967)提出的,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括以下三个步骤:
1.将所有的样品分成K个初始类;
2.通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标;
3.重复步骤2,直到所有的样品都不能再分配时为止。;【例5.3】假定我们对A、B、C、D四个样品分别测量两个变量和得到结果见表5.9。
试将以上的样品聚成两类。 ; 第一步:按要求取K=2,为了实施均值法聚类,我们将这些样品随意分成两类,比如(A、B)和(C、D),然后计算这两个聚类的中心坐标,见表5.10所示。; 第二步:计算某个??品到各类中心的欧氏平方距离,然后将该样品分配给最近的一类。对于样品有变动的类,重新计算它们的中心坐标,为下一步聚类做准备。先计算A到两个类的平方距离:
由于A到(A、B)的距离小于到(C、D)的距离,因此A不用重新分配。计算B到两类的平方距离:;由于B到(A、B)的距离大于到(C、D)的距离,因此B要分配给(C、D)类,得到新的聚类是(A)和(B、C、D)。更新中心坐标如表5.11所示。; 第三步:再次检查每个样品,以决定是否需要重新分类。计算各样品到各中心的距离平方,得结果见表5.12。
到现在为止,每个样品都已经分配给距离中心最近的类,因此聚类过程到此结束。最终得到K=2的聚类结果是A独自成一类,B、C、D聚成一类。;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*;*
您可能关注的文档
最近下载
- 考研法律硕士专业基础(法学397)研究生考试2024年模拟试卷与参考答案.docx VIP
- 黑龙江地方课程人文与社会五年级上册教案.pdf
- 电解质代谢紊乱护理查房ppt课件.pptx
- 第五章 信号调理电路.ppt
- 中小学教师数据素养题库及答案(包含期末考试)(1).pdf
- 传递窗紫外灯表面消毒效果验证-嘉和众邦.pdf
- 2025届高考语文一轮复习名篇名句默写基础题训练含答案.doc
- 《中国民间故事》导读.pptx
- 高级供应链管理师职业技能鉴定考试题库资料(含答案).pdf
- IEEE Std 1936.1-2021 IEEE Standard for Drone Applicatons Framework.人机应用框架标准.pdf
文档评论(0)