- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类分析 吕江平
层次的方法缺陷: 一旦一个步骤(合并或分裂)完成,就不能被撤销或修正,因此产生了改进的层次聚类方法,如BRICH,BURE,ROCK,Chameleon。详见参考书 划分方法(Partitioning method) 较流行的方法有: 动态聚类法(也称逐步聚类法),如k-均值算法、k-中心点算法 思想: 随机选择k个对象,每个对象初始地代表一个类的平均值或中心,对剩余每个对象,根据其到类中心的距离,被划分到最近的类;然后重新计算每个类的平均值。不断重复这个过程,直到所有的样本都不能再分配为止。(图解) 划分方法(Partitioning method) 特点: k事先定好 创建一个初始划分,再采用迭代的重定位技术 不必确定距离矩阵 比系统聚类法运算量要小,适用于处理庞大的样本数据 适用于发现球状类 划分方法(Partitioning method) 缺陷: 不同的初始值,结果可能不同 有些k均值算法的结果与数据输入顺序有关,如在线k均值算法 用爬山式技术(hill-climbing)来寻找最优解,容易陷入局部极小值 基于距离的方法进行聚类只能发现球状类,当类的形状是任意的时候怎么识别?(黑板图示) 下面介绍其中一种常用的算法: 基于密度的方法(density-based method) 主要有DBSCAN,OPTICS法 思想: 只要临近区域的密度超过一定的阀值,就继续聚类 特点: 可以过滤噪声和孤立点outlier,发现任意形状的类 基于网格的方法(grid-based method) 把样本空间量化为有限数目的单元,形成一个网络结构,聚类操作都在这个网格结构(即量化空间)上进行 基于模型的方法(model-based method) 为每个类假定一个模型,寻找数据对给定模型的最佳拟合。 此不详述,有兴趣可以参考《DataMing Concepts and Techniques》即《数据挖掘概念于技术》Jiawei Han Micheline Kamber机械工业出版社 不稳定的聚类方法 受所选择变量的影响 如果去掉或者增加一些变量,结果会很不同.因此,聚类之前一定要明确目标,选择有意义的变量。 变量之间的相关性也会影响聚类结果,因此可以先用主成分或因子分析法把众多变量压缩为若干个相互独立的并包含大部分信息的指标,然后再进行聚类。 不稳定的聚类方法 输入参数凭主观导致难以控制聚类的质量 很多聚类算法要求输入一定的参数,如希望产生的类的数目,使得聚类的质量难以控制,尤其是对于高维的,没有先验信息的庞大数据。 首先要明确聚类的目的,就是要使各个类之间的距离尽可能远,类中的距离尽可能近,聚类算法可以根据研究目的确定类的数目,但分类的结果要有令人信服的解释。 在实际操作中,更多的是凭经验来确定类的数目,测试不同类数的聚类效果,直到选择较理想的分类。 不稳定的聚类方法 算法的选择没有绝对 当聚类结果被用作描述或探查工具时,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。 不稳定的聚类方法 聚类分析中权重的确定 当各指标重要性不同的时候,需要根据需要调整权重。如加权欧式距离,权重可以用专家法确定。 案例演示 有一个电信公司的数据,变量为: ID:用户电话号码 Mobile:移动电话通话时间 Fixed:固定电话通话时间 DDD: 长途直拨通话时间 IP: IP电话通话时间 研究目的:挖掘不同人群拨打电话的特征 下面用SAS/Enterprise Miner演示 Q A 推荐参考书目 《应用多元分析》(第二版)王学民 上海财经大学出版社 《应用多元统计分析》即《Appied Multivariate Satistics》5th EdRichard A. Johnson, Dean W. Wichern中国统计出版社 《数据仓库》即《Building the Data Warehouse》3th Ed,W.H.Inman机械工业出版社 《数据挖掘原理》《Principles of Data Mining》David Hand Heikki Mannila Padhraic Smgth机械工业出版社 《Data Mining Introduction and Advanced Topics》Margaret H.Dunham 《数据挖掘概念于技术》即《DataMing Concepts and Techniques》Jiawei Han Micheline Kamber机械工业出版社 《数据挖掘——客户关系管理的科学与艺术》即《Mastering Data Mining The Art and Science of Custermer Relationship Management》Michael J.A.Ber
您可能关注的文档
最近下载
- 2025至2030稀土永磁材料行业发展趋势分析与未来投资战略咨询研究报告.docx
- 高考物理一轮复习重难点逐个突破专题81电磁感应中的单、双棒问题(原卷版+解析).docx VIP
- 部编五年级上册语文单元分析.pdf VIP
- 模拟退火算法课件.pptx VIP
- 2025至2030中国钕稀土磁铁行业发展趋势分析与未来投资战略咨询研究报告.docx VIP
- 2025年安徽高考思想政治真题试卷完全解读(含试卷分析与备考策略).docx VIP
- 2025至2030中国MRI磁铁行业发展趋势分析与未来投资战略咨询研究报告.docx VIP
- 水平三新课标体育与健康教案.pdf VIP
- 《立足课标与课本 科学备战》2025安徽省中考化学复习 策略.pptx
- 土石坝安全监测技术规范.pdf VIP
文档评论(0)