引力势能聚类算法.docVIP

下载本文档

3
0
约2.6千字
约 4页
2017-06-13 发布于北京
举报
版权申诉

引力势能聚类算法.doc

1、本文档共4页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

引力势能聚类算法.doc

引力势能聚类算法摘要：总结密度聚类算法存在的共性问题，即聚类之前的参数设定困难，据此提出密度聚类算法的改进目标。模拟万有引力势能的物理模型，结合核密度估计的概念，构建引力势能影响函数与引力势能密度函数，从而创造引力势能聚类算法，该算法能够克服聚类算法中的参数设定困难。详细介绍了该算法的基本原理、参数设定、聚类评判依据，算法步骤，并通过实际应用案例展示该算法在聚类分析和异常分析中的作用。关键词：聚类；密度；引力势能；参数设定；异常分析中图分类号：TP301 文献标识码：A 文章编号：1009-3044（2013）08-1889-05 放眼当今世界，聚类算法百花齐放。遗憾的是，多数算法要求用户在缺乏先验知识的条件下输入某些参数，这些参数设定往往带有盲目性，却显著影响聚类结果。此外，现实中的数据集很难找出全局最优参数能够反映聚类结构的本质特征。相较之下，密度聚类算法具有许多优良特性，例如能发现任意形状的簇，适于处理噪声，对记录输入顺序不敏感，容易理解和使用范围广泛等等。但在聚类前，仍不免需要输入一些对结果敏感的参数。该文选择密度聚类算法作为研究方向，致力于找出更有效的算法模型，解决参数设定盲目性的难题。 1 密度聚类算法的共性问题以上分析为密度聚类算法指明了改革方向，该文需要设计一种新算法：有能力发现任意形状的簇；允许各簇的密度级别差异悬殊；具有噪声处理能力；尽可能不依赖输入参数；由算法自动确定聚簇的结构、数目、形状、密度和规模。总而言之是要找到一种能够自动确定聚类结构的模型，实现聚类自动化。 2 引力势能聚类算法为解决聚类参数预设的困难，前人已针对多种聚类算法进行过大量改进尝试，但都不算特别成功，看来仅仅改进和修正是很难在聚类自动化方面有所突破的。下面介绍的引力势能聚类算法（Gravitational Potential Energy Clustering Algorithm，缩写为GPECA），正是从自然界基本规律中获得启发，创造而成的。 2.1 GPECA基本原理 2.6 GPECA逐步说明 STEP1是基于相异度的聚类算法的通用过程。 STEP4计算[EC1]和[εC1]是作者经多次不同特性的数据集聚类试验后总结出的技巧，该技巧旨在保持同一聚簇成员的统一特性。不直接使用聚簇边缘成员自身的[Ex]和[εx]参与聚簇判定，可以有效避免极端情况下产生下述错误：因密度逐渐稀疏过渡而将两个或多个不同密度区域连成一片聚簇。 STEP9从定义出发，最终确定整个聚类结构和噪声集合。 2.7 算法性能分析 3 算法验证评价本案例的分析效果：①完成了预期的分析目标；②所获得的38个聚类，虽然包含企业数目差距悬殊的不同聚类规模，而且这些聚类难以给出明确的特征定义，但确实客观反映了这些重点企业的整体分布情况和各自特点；③聚类总数和异常企业比例在分析人员可接受的范围之内；④采用异常指数可以进一步分析各种不同的异常企业问题究竟出在哪里，但异常原因的归纳还不够精细。⑤经重点企业问卷调查和对有严重偷漏税嫌疑的部分企业抽样稽查，证明上述推断准确率超过90%。反观采用DBSCAN分析，若每次设定不同的[ε]和MinPts参数，则每次聚类结果都显著不同。多次迭代聚类的结果有：聚类总数大于80个，异常比例49%；或者聚类总数大于300个，异常比例28%；或者仅有1个聚类，异常点仅6个。这些结果无法综合研究，既不利于分类管理，也不利于异常分析。综上，GPECA能很好地完成税源分类管理、重点税源监控和税务稽查选案三项重要工作，在纳税评估应用中非常有效。 4 结束语 GPECA是一种新颖的密度聚类算法，它可以基本解决多数聚类算法中的参数设定和全局最优参数选择问题。此外，基于客观聚类的结果之上，还能进一步进行异常分析。本算法适用于对中型数据集执行聚类分析和异常分析。参考文献： [1] Soman K P， Diwakar S， Ajay V. Insight into Data Mining： Theory and Practice[M]. India： Prentice Hall of India， 2006. [2] 张兴会.数据仓库与数据挖掘技术[M].北京：清华大学出版社，2011. [3] Ankerst M， Breunig M M， Kriegel H P. Optics： Ordering Points to Identify the Clustering Structure[C]. Proceeding ACM SIGMOD International Conference on Management of Data， Philadelphia， PA， USA， 1999：46-60. [4] Terrell G R， Scott