(5.1.2)--1.1异常数据的识别.ppt

(5.1.2)--1.1异常数据的识别.ppt

此“医疗卫生”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共38页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数学建模MathematicalModeling

异常数据的识别方法IdentificationMethodofAbnormalData

异常数据识别的重要性01

一、异常数据识别的重要性在处理实验数据时,常常会遇到个别数据值偏离预期或大量统计数据值的情况,若我们把这些数据值和正常数据值放在一起进行统计,可能会影响实验结果的正确性,若把这些数据值简单地剔除,又可能忽略了重要的实验信息。处理异常数据的重要性异常值如何判别呢?

数据清洗——异常值判别02

二、数据清洗——异常值判别异常值:是指样本中的个别值,其数据明显偏离其余的观测值。异常值也称为离散点,异常值的分析也称为离群点分析。异常值判别:检验数据是否有录入错误以及含有不合常理的数据。定义

异常数据的判别方法物理判别法:是指根据人们对客观事物、业务等已有的认知,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,判断为异常值。统计判别法:是指给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值。常用方法有3σ原则(拉依达准则)、肖维勒准则、格拉布斯准则、狄克逊准则、t检验。箱型图分析法二、数据清洗——异常值判别

?图1统计判别法——拉依达准则(3σ原则)二、数据清洗——异常值判别

?适用范围:①正态或近似正态分布的样本;②测量次数n充分大(n185)。统计判别法——拉依达准则(3σ原则)二、数据清洗——异常值判别

?统计判别法——拉依达准则(3σ原则)二、数据清洗——异常值判别

python运行结果:数据序号评分图2

?统计判别法——肖维勒准则二、数据清洗——异常值判别

?统计判别法——肖维勒准则二、数据清洗——异常值判别

nnnn51.6591.92132.07172.1861,73101.96142,10182.2071.80112.00152.13192.2281.86122.04162.16202.24表1概率积分表(部分表)适用范围:①正态或近似正态分布的样本②n处于[25,185]时,判别效果最好

实际应用:在近代物理实验中,用比长仪测两光谱线之间的距离d共10次,得测量列(mm):162.1911,162.1902,162.1925,162.1890,162.1899,162.1903,162.1910,162.1857,162.1901,162.1883?统计判别法——肖维勒准则二、数据清洗——异常值判别???

python运行结果:光线谱间距(mm)数据序号图2

?统计判别法——格拉布斯准则二、数据清洗——异常值判别?

??统计判别法——格拉布斯准则二、数据清洗——异常值判别

0.950.990.950.9931.1351.155172.4752.78541.4631.492182.5042.82151.6721.749192.5322.85461.8221.944202.5572.88471.9382.097212.5802.91282.0322.231222.6032.93992.1102.323232.6242.963102.1762.410242.6442.987112.2342.485252.6633.009122.2852.550302.7453.103132.3312.607352.8113.178142.3712.659402.8663.240152.4092.705452.9143.292162.4432.747502.9563.336?

实际应用:已知10个评分数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0为一个测试数列。统计判别法——格拉布斯准则二、数据清洗——异常值判别解题步骤:将数列由小至大排序得:4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。???

python运行结果:数据序号评分图3

定义:狄克逊准则是直接根据测得值的顺序统计量,采用极差比的方法来判别可疑数据是否为异常值,避免了数据列的算术平均值、残余误差和标准差反复计算。统计判别法——狄克逊准则二、数据清洗——异常值判别??

常见极差的求法表3常见极差表检验高端离群值检验低端离群值3~78~1011~1314~30统计判别法——狄克逊准则二、数据清洗——异常值判别

n30.9700.99440.8290.92650.7100.82160.6280.74070.5690.68080.6080.71790.5640.672100.5300.635表4?

?统计判别法——狄克逊准则二、数据清洗——异常值判别适用条件:一般用于一组测定数据的一致性检验和异常值的检验;当最大值和最小值同时为可疑值

文档评论(0)

158****6446 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档