聚类分析文献综述.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析文献综述 ——曹亚丽 一、引言: 对事物进行分类,是人们认识事物的出发点,也是人们认识事物的一种重要方法。因此分类学是人们认识世界的一门基础学科。以前人们主要是依靠经验作定性分类,致使分类具有主观性和任意性,不能很好的揭示客观事物内在的本质差别与联系。为了克服定型分类存在的不足,人们把数学方法引入到分类中形成了数值分类。后来随着多元统计的不断发展,从树枝分类学中逐渐分离出了聚类分析方法。近年来聚类分析的理论和应用得到了迅速的发展。本综述将以聚类分析的几种分类和它在不同行业的应用发展为例,来说明2002年——2009年间聚类分析的进展。 二、系统聚类法的应用与发展 聚类分析法是理想的多变量统计技术,聚类分析有许多种不同的聚类方法,其中应用的最多、最成熟的方法是系统聚类法,也称分层聚类法。聚类分析的思路为:首先将每个数据对象各视为一类,根据类与类之间的距离或相似程度将最相似的类加以合并,再计算新类与其它类之间的相似程度,并选择最相似的类加以合并,这样每合并一次就减少一类,不断继续这一过程,直到所有数据对象合并为一类为止。早期(2002年—2005年)的系统聚类与多元统计结合,用以检验聚类结果的合理性。如《心理科学》中(2000年第23卷第5期)王益明、王永德等人对“大学新生学科选择结果与人格特征关系的研究”,使用SPSS分别对男女生数据的聚类结果进行类间差异多元方差分析,以检验聚类结果的合理性。 随着聚类分析的发展,在进行系统聚类的分析过程中,不再只是单纯的聚类分析或是与统计分析结合,而是与其他分析结合,如因子分析、多维标度法,使分析的结果更详细、全面,并且可以对分析结果进行一致性检验。是检验结果更加科学、缜密。如《心理学报》中2008年第40卷里,张积家等人对“语言和文化对空间认知的影响”的研究中,对汉族和纳西族的大学生被试的空间认知维度和概念结构,用多维标度法与系统聚类法相结合的方法,检验分析结果的一致性。是研究结果更加具有说服性、科学性。 三、快速聚类法的应用 快速聚类和系统聚类一样,都是以距离的远近亲属为标准进行聚类的,但是不同之处也是明显的:系统聚类对不同的类数产生一系列的聚类结果,而快速聚类法只能产生指定类数的结果。当样本的容量很大,或者变量较多的时候,用系统聚类计算就显得过于繁琐这就显示了快速聚类,既方便又简单易懂,因此其应用也是相当广泛。快速聚类也是与其他分析相结合,共同分析。 四、两步聚类法 随着近年来数据仓库和数据挖掘技术的逐渐成熟,一系列新的智能聚类方法被发展出来。这些智能聚类方法通常计算量小,能够同时处理多个不同类型的变量,能自动判断最适合的类别数,同时又能够发掘类别之间的复杂关系。两步聚类法便是这些智能聚类方法中较为常用的一种。 两步聚类法顾名思义,按照两个步骤完成聚类。首先,通过构建和修改聚类特征树(Cluster Feature Tree)对记录进行初步归类;然后,对这些初步分类的结果再次进行聚类,由于此时的预聚类的数量要远远小于原始数据的数量,在这一阶段使用传统的聚类方法就可以处理了。 用聚类分析的方法进行分类研究是教育研究中的一种重要方法。两步聚类法是近年来发展起来的一种智能聚类方法。它与传统的层次聚类法和快速聚类法相比,有着极其鲜明的优点,特别适合解决研究海量数据、复杂类别结构的聚类分析问题,它所聚类的变量可以是连续的,也可以是离散的。它可以根据一定的统计标准“自动”地建议甚至确定最佳类别数,这些特点都是其他聚类方法所不具有的。因此,采用两步聚类法分析本文所研究的问题是非常合适的,它会使我们更加快速、全面和有效地分析问题。 五、模糊聚类 涉及事物之间的模糊界限时按一定要求对事物进行分类的数学方法。聚类分析是数理统计中的一种多元分析。 模糊聚类分析方法,它是用数学方法定量地确定样本的亲疏关系,从而客观地划分类型。事物之间的界限,有些是确切的,有些则是模糊的。例如人群中的面貌相像程度之间的界限是模糊的,天气阴、晴之间的界限也是模糊的。当聚类涉及事物之间的模糊界限时,需运用模糊聚类分析方法。模糊聚类分析广泛应用在气象预报、地质、农业、林业等方面。通常把被聚类的事物称为样本,将被聚类的一组事物称为样本集。模糊聚类分析有两种基本方法:系统聚类法和逐步聚类法。 六、总结 聚类分析的应用还是很广泛的,其价值也是相当大的。在很多领域里都用到过聚类分析。在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。 聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。 在生物上,聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识 。在地理上,聚类能够帮助在地球中被观察的数据库商趋于的相似性 。在保险

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档