孤立点挖掘算法研究.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
孤立点挖掘算法研究

孤立点挖掘算法研究 杨永铭,王喆 (兰州交通大学 电子与信息工程学院,甘肃 兰州 730070) 摘 要:针对孤立点检测算法在现时中的应用展开研究。通过对当前的几种孤立点检测算法进行全面深入的分析与比较,归纳和总结了它们的特点。研究者些算法为基础,做进一步分析,提出新的改进算法。 关 键 词:数据挖掘;孤立点;空间数据;数据流;异常检测 中图分类号:TN92 文献标识码:A Re of Outlier Mining Algorithm Yang Yong Ming, Wang Zhe (Institute of Electronic and Information Engineering,Lanzhou jiao tong University,Gansu 730070,China) Abstract: This paper mainly study the outlier detection algorithm in the application of the present. Through a comprehensive in-depth analysis and comparison to several of the current outlier detection algorithm, their features were summarized. This paper also analyse and research the outlier detection algorithm in high dimensional data and spatial data. Based on these algorithm, reserchers can proceed a further analysis and pose a new improved algorithm. Keywords: data mining; outlier; spatial data; data stream; anomaly detection 1 引言 孤立点检测是数据挖掘中的一个重要方面。最早Hawkins[1]给出了孤立点(离群点或异常点)的本质性定义:孤立点如此不同与数据集中的其它数据,以至于使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。孤立点可能是由于度量或执行错误产生的,也有可能是由于固有数据变异产生的,或者其它原因。很多数据挖掘算法通过各种改进来尽量减少孤立点对挖掘结果的影响,或者在挖掘过程中排除孤立点。然而孤立点可能隐藏着重要的信息,也许比一般的数据更有价值。因此人们开始逐渐研究孤立点挖掘算法。 孤立点检测的基本思想是给定一个包含n个数据对象的集合,及预期的孤立点的数目k,发现与剩余的数据相比是显著相异的、异常的或不一致的前k个对象。孤立点挖掘问题可分为两个子问题[1]:(1)在给定的数据集合中定义数据的不一致。(2)找到有效的方法来挖掘这样的孤立点。孤立点挖掘最早应用在统计学领域,在一定程度上,它与聚类分析有相似性。但是两者在概念和目的性方面还有偏差。实际生活中,孤立点挖掘有着广泛的应用,例如网络入侵检测,信用卡欺诈,金融审计,影像处理,恶劣天气预测等。 2 孤立点挖掘算法 近些年来人们提出了大量的孤立点检测算法,大致可以归纳为以下几类:基于统计的方法,基于距离的方法,基于偏移的方法,基于聚类的方法,基于密度的方法。 2.1基于统计的孤立点检测算法 基于统计的方法是出现得最早的离群点检测方法。对给定的数据集合假设了一个分布或概率模型,然后根据模型采用不一致性检验来确立孤立点。基于统计的孤立点挖掘方法易于理解,实现起来也比较方便,但主要的缺点是绝大多数检测仅对数据分布满足某种概率分布的数值型单维数据集较为有效,然而许多数据挖掘问题要求在多维空间中发现孤立点。同时,统计学的方法要求关于数据集合参数的知识,但是,这参数有可能是未知的。当没有特定的检验时,该类方法不能确保所有的孤立点被发现。 2.2基于距离的孤立点检测算法(distance-based) 基于距离的方法最早是由Knorr和Ng[2]在1998年提出的。他们用DB(p,d)来表示数据集中的孤立点,采用不同的参数p与d,DB(p,d)可以表示所有的孤立点。 与此定义相应的算法有三种,它们是基于索引(index-based)的算法[3],嵌套循环(nested-loop)算法[4,5],基于单元或划分(cell-based)的算法[6]等。它们的具体算法不在赘述。基于索引的方法依赖多维索引结构(R-trees,X-trees,KD-tress等)的性能。随着维数的增加,所有的索引结构的性能迅速下降,使得算法性能不佳。N

文档评论(0)

zilaiye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档