四川理工-数据挖掘详解.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
四川理工-数据挖掘详解

I Inoooo 聚类算法分为 1.层次聚类: 1)凝聚算法 a.单连接AGENS(最近邻聚类算法) B.全连接(最远邻聚类算法) c.平均连接 分裂算法(DIANA) a.单元分裂 b.多元分裂 2.划分聚类:K-means(K-均值或K-平均) K-中心点(pam算法) 3.基于密度:DBSCAN 精确度 4.基于网格:STING 、 WaveCluster K-均值K-中心优点简单不受极值影响缺点受极值影响无法处理大数据复杂度O(nkt)O(k(n-k)^2)综合 速度 比较 K-均值算法 (1)K-均值算法描述 K-均值算法性能分析 主要优点:是解决聚类问题的一种经典算法,简单快速;对处理大数据集,该算法是相对可伸缩和高效率的;当结果簇是密集的,而簇与簇之间区别明显时,它效果较好。 主要缺点:在簇的平均值被定义的情况下才能使用,这对于处理符号属性的数据不适用;必须事先给出K(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。 K-均值算法实例 平均误差准则函数 欧式距离 PAM算法 (1)PAM算法描述 输入:簇的数目k和包含n个对象的数据库 输出:k个簇,使得所有对象与其距离最近中心点的相异度总和最小 任意选择k个对象作为初始的簇中心点 (2) Repeat (3) 指派每个剩余对象给离他最近的中心点所表示的簇 (4) Repeat (5) 选择一个未被选择的中心点Oi (6) Repeat (7) 选择一个未被选择过的非中心点对象Oh (8) 计算用Oh代替Oi的总代价并记录在S中 (9) Until 所有非中心点都被选择过 (10) Until 所有的中心点都被选择过 (11) If 在S中的所有非中心点代替所有中心点后的计算出总代价有小于0的存在,then找出S中的用非中心点替代中心点后代价最小的一个,并用该非中心点替代对应的中心点,形成一个新的k个中心点的集合; (12) Until 没有再发生簇的重新分配,即所有的S都大于0. (2)PAM算法性能 (1) 消除了k-平均算法对于孤立点的敏感性。 (2) K-中心点方法比k-平均算法的代价要高 (3) 必须指定k (4) PAM对小的数据集非常有效,对大数据集效率不高。特别是n和k都很大的时候。 (3)用PAM算法对例5.1的样本数据库进行聚类(k=3)。 根据给定的样本数据库,可以算出各点之间的距离关系,如表1所示。 表1 样本点间距 样本点1234567810111.43.64.54.252101.412.83.63.64.2311.4013.24.13.64.541.41102.33.22.83.653.62.83.22.30111.464.53.64.13.2101.4174.23.63.62.811.401854.24.53.61.4110 算法执行步骤如下: 第一步 建立阶段:从8个对象中随机抽取3个点为中心点{1,4,7},则样本被划分为{1,2,3},{4}和{5,6,7,8}。 第二步 交换阶段:假定中心点1、4、7分别被非中心点2、3、5、6、8替换,分别计算下列代价TC12、TC13 、TC15 、TC16 、TC18,TC42、TC43 、TC45 、TC46 、TC48和TC72、TC73 、TC75 、TC76 、TC18。 先求TC12。 (1) 1被2替换以后,1不再是中心点,因为1离2最近,所以1被分配到2中心点代表的簇,C112=d(1,2)-d(1,1)=1 (2) 2 原先属于1中心点所在的簇,现在2是一个中心点,C212=d(2,2)-d(2,1)=-1 (3) 3原先属于1中心点所在的簇,现在3离4最近,所以3被分配到4中心点代表的簇,C312=d(3,4)-d(3,1)=1-1=0 (4) 4原先属于4中心点代表的簇,现在不发生变化,C412=0 (5) 5原先属于7中心点代表的簇,现在不发生变化,C512=0 (6) 6原先属于7中心点代表的簇,现在不发生变化,C612=0 (7) 7原先属于7中心点代表的簇,现在不发生变化,C712=0 (8) 8原先属于7中心点代表的簇,现在不发生变化,C812=0 因此TC12= C112+ C212+ C312+ C412+ C512+ C612+ C712+ C812=0 同理,求得TC133=1+0+(-1)+0+0+0+0+0=0 TC15=1.4+0+0+0+(-1)+(-0.4)+0+0=0 TC16=1.4+0

文档评论(0)

jiayou10 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档