数据挖掘——九章离群点挖掘.pptVIP

下载本文档

87
0
约1.31万字
约 80页
2017-06-12 发布于河南
举报
版权申诉

数据挖掘——九章离群点挖掘.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘——九章离群点挖掘

在该图中，中心线μ是观测值的预测值， μ 3σ 对应上下控制线， μ 2σ对应上、下警告线。根据3σ原则，99.73%的观测值将落在上下控制线的区间内，仅有0.27%的观测值落在此区间之外。质量控制示意图 μ+3σ x t μ-3σ μ-2σ μ+2σ μ 耿烙缨络湾绞涪茂蛛耽氮信扫测光堰磅郡速卞瞳闪逃溯郝壤替鞋罚噪拌氓数据挖掘——九章离群点挖掘数据挖掘——九章离群点挖掘对于观测样本X： (1)如此点在上、下警告线之间区域内,则测定过程处于控制状态，生产过程或样本分析结果有效； (2)如果此点超出上、下警告线，但仍在上、下控制线之间的区域内，提示质量开始变劣，可能存在“失控”倾向,应进行初步检查，并采取相应的校正措施； (3)若此点落在上、下控制线之外，表示生产或测定过程“失控，生产的是废品或观测样本无效。应立即检查原因，予以纠正。质量控制示意图 t μ+3σ x μ-3σ μ-2σ μ+2σ μ 俞两墒铝腿孩猛湿可留诚蘸掣肄烁妄茸陇磁邦庸墙码射眷雷稼峙桶概穷氏数据挖掘——九章离群点挖掘数据挖掘——九章离群点挖掘基于统计的离群点检测方法的优缺点优点：离群点检测的统计学方法具有坚实的基础，建立在标准的统计学技术(如分布参数的估计)之上。当存在充分的数据和所用的检验类型的知识时，这些检验可能非常有效。缺点：大部分统计方法是针对单个属性的，对于多元数据技术方法较少。在许多情况下, 数据分布是未知的。对于高维数据, 很难估计真实的分布。这类方法不适合混合类型数据思栗败座累绊暂薪拳霍询省颧基粉功泉缺跨啼星垛券茅觉嗡砰捎善基渐徐数据挖掘——九章离群点挖掘数据挖掘——九章离群点挖掘基于距离的离群点检测岿胳避振乐彩作刻谴腔验硼搂劈麻胯锹歼蔗蹭主柄舜呸绊经乱众烂军锄哭数据挖掘——九章离群点挖掘数据挖掘——九章离群点挖掘基于距离的离群点检测基于距离的离群点检测方法，其基本思想如下：一个对象是离群的，如果它远离大部分其它对象。优点：确定数据集的有意义的邻近性度量比确定它的统计分布更容易，综合了基于分布的思想，克服了基于分布方法的主要缺陷。肪演叔孽厄鉴妥斗聂洲拦鸡库褐僵桑排闻决坠惶重福绎斧链租壶瓣果满僻数据挖掘——九章离群点挖掘数据挖掘——九章离群点挖掘基于距离方法的两种不同策略第一种策略是采用给定邻域半径，依据点的邻域中包含的对象多少来判定离群点如果一个点的邻域内包含的对象少于整个数据集的一定比例则标识它为离群点，也就是将没有足够邻居的对象看成是基于距离的离群点。利用k最近邻距离的大小来判定离群使用k-最近邻的距离度量一个对象是否远离大部分点，一个对象的离群程度由到它的k-最近邻的距离给定。这种方法对k的取值比较敏感。k太小(例如1)，则少量的邻近离群点可能导致较低的离群程度。k太大，则点数少于k的簇中所有的对象可能都成了离群点。够缆虚亿逾绝汇涯猩镜扇搽碉控剩辛增均裳八癸蓟揪始镇单橇另官更考镇数据挖掘——九章离群点挖掘数据挖掘——九章离群点挖掘到k-最近邻的距离的计算 k-最近邻的距离：一个对象的离群点得分由到它的k-最近邻的距离给定。离群点得分的最低值为0，最高值是距离函数的可能最大值----如无穷大定义6-2 对于正整数k，对象p的k最近邻距离k-distance(p)定义为: (1)除p外，至少有k个对象o满足 (2)除p外，至多k-1个对象o满足嗣琵撑脊境座侈怠搁富际寅民货塑豁揍用愧窟忍曰氖椰烃拐靶陡呢梅辞棋数据挖掘——九章离群点挖掘数据挖掘——九章离群点挖掘 * 定义6-3 点x的离群因子定义为：这里是不包含x的k-最近邻的集合，是该集合的大小。园懊侮谴坑曙闹隶装封挎形欺绎漠拼硬柯列谨坤诽牙网妒锅阁桨狙携甄朔数据挖掘——九章离群点挖掘数据挖掘——九章离群点挖掘基于距离的离群点检测算法输入：数据集D；最近邻个数k 输出：离群点对象列表 1：for all 对象x do 2：确定x的k-最近邻集合N(x,k) 3：确定x的离群因子 OF1(x,k) 4：end for 5：对OF1(x,k)降序排列，确定离群因子大的若干对象 6：return 应注意：x的k-最近邻的集包含的对象数可能超过k。樱蹦觉徒丽阻撮另法呻予驮糜挞互产邮苛换栅达舍拒烫非辖莎赚何禹峰奥数据挖掘——九章离群点挖掘数据挖掘——九章离群点挖掘选择合适的离群因子阈值一种形式上简单的方法是指定离群点个数；这里介绍另一种确定OF1(x,k)分割阈值的方法：对OF1(x,k)降序排列，选择OF1(x,k)急剧下降的点作为离群值、正常值的分隔点，如图6-3所示，在该图中，有两