数据挖掘:聚类分析及其应用.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘:聚类分析及其应用

聚类分析及其应用 摘 要: 数据挖掘是信息产业界近年来非常热门的研究方向,聚类分析是数据挖掘中的核心技术。其中聚类分析(Cluster Analysis)又称群分析,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品或数据,要求能合理按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。 关键词: 数据挖掘,聚类分析,聚类算法,中医临床 正 文: 挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。为了创建模型,算法将首先分析您提供的数据,并查找特定类型的模式和趋势。算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。n个数据对象或元组的数据库,一个划分方法构建数据的c个划分,每个划分表示一个簇,且c≤n。通常会采用一个划分准则(经常称为相似度函数),例如距离,以便在同一个簇中的对象是“相似的”,在不同簇中的对象是“相异的”。这些聚类方法对在中小规模的数据库中发现球状簇很适用。为了对大规模的数据集进行聚类,以及处理复杂形状的聚类,基于划分的方法需要进一步的扩展。 层次方法:对给定数据对象集合进行层次的分解。根据层次分解是自底向上还是自顶向下形成,层次聚类的方法可以进一步分为凝聚的和分裂的。层次聚类方法的缺陷在于,一旦一个步骤(合并或分裂)完成,它就不能被撤消,因此而不能更正错误的决定。改进层次方法的聚类质量的一个有希望的方向是将层次聚类和其他聚类技术进行集成,形成多阶段聚类。 基于密度的方法:提出了基于密度的聚类方法是为了发现任意形状的聚类结果。其主要思想是:只要临近区域的密度超过某个阈值,就继续聚类。这样的方法可以用来过滤“噪声”孤立点数据,发现任意形状的簇。 基于网格的方法:基于网格的聚类方法采用一个多分辨率的网格数据结构。把对象空间量化为有限数目的单元,形成了一个网格结构。所有的聚类操作都在这个网格结构上进行。这种方法的主要优点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。 基于模型的方法:基于模型的方法为每个簇假定了一个模型,寻找数据对给定模型的最佳拟合。基于模型的算法可能性通过构建反映数据点空间分布的密度函数来定位聚类。这种聚类方法试图优化给定的数据和某些数学模型之间的适应性。 聚类分析在数据挖掘中的应用 聚类分析在数据挖掘中的应用主要有两个方面:一、聚类分析可以作为其他算法的预处理步骤,这些算法再在生成的簇上进行处理。可作为特征和分类算法的预处理步骤,也可将聚类结果用于进一步关联分析。二、可以作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步分析。可用在市场细分、目标顾客定位、业绩评估、生物群种划分等方面。如在商务上,聚类分析可以帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。三、聚类分析可以完成孤立点挖掘。许多数据挖掘算法试图使孤立点影响最小化,或者排除它们。然而孤立点本身可能是非常有用的。如在欺诈探测中,孤立点可能预示着欺诈行为。 聚类分析在中医方面的运用: 聚类分析在中医辨证客观化、定量化、标准化的研究中,多用于疾病的中医证候分类,为中医临床辨证论治依据提供分型的方法学。由于采集的中医证候信息数据为属性变量,这种变量的特点给聚类分析方法的选择带来一定的局限性。因此在病例的聚类过程中,需进行多种聚类方法的探索性分析。如欧爱华等在SARS与急性上呼吸道感染中医证候分型及指标数量化方法的研究中,运用组间均联法(Between-groupslinkage)和最小方差法(Wards Method)的同时也进行了其他的聚类方法的探索性分析。目前,常用于中医证候聚类分型的方法有:最小方差法、组间均联法,所选择的测度(距离)有:欧几里德距离、形状测度(Shape)等。由于对聚类分析方法优劣的评价至今尚无系统的检验理论,因此在样品聚类分析中,最重要的是根据病人四诊指标的变量类型,进行多种聚类方法下的探索性分析,并且对每次聚类的结果结合专业知识进行判断,最后选取较为符合专业特征的分类结果并给予临床较为合理的证候名称。 参考文献:,孟小峰译 数据挖掘:概念与技术——聚类分析[M].北京:机械工业出版社,2001.223-258 2、 边肇祺 张学工等 模式识别(第二版)。北京:清华大学出版社,2002.273-283 3、 钱锋等,知识发现中的聚类分析及其应用[J] 杭州师范学院学报 2001(2) 34-37 4、张世筠,沈明秀,王先春,等.中医肝证的变量聚类分析[J].中国中西医结合杂志,2004,24(1):75-76 5、李建生,

文档评论(0)

zhengshumian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档