- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数学建模MathematicalModeling
异常数据的识别方法IdentificationMethodofAbnormalData
异常数据识别的重要性01
一、异常数据识别的重要性在处理实验数据时,常常会遇到个别数据值偏离预期或大量统计数据值的情况,若我们把这些数据值和正常数据值放在一起进行统计,可能会影响实验结果的正确性,若把这些数据值简单地剔除,又可能忽略了重要的实验信息。处理异常数据的重要性异常值如何判别呢?
数据清洗——异常值判别02
二、数据清洗——异常值判别异常值:是指样本中的个别值,其数据明显偏离其余的观测值。异常值也称为离散点,异常值的分析也称为离群点分析。异常值判别:检验数据是否有录入错误以及含有不合常理的数据。定义
异常数据的判别方法物理判别法:是指根据人们对客观事物、业务等已有的认知,判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果,判断为异常值。统计判别法:是指给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值。常用方法有3σ原则(拉依达准则)、肖维勒准则、格拉布斯准则、狄克逊准则、t检验。箱型图分析法二、数据清洗——异常值判别
?图1统计判别法——拉依达准则(3σ原则)二、数据清洗——异常值判别
?适用范围:①正态或近似正态分布的样本;②测量次数n充分大(n185)。统计判别法——拉依达准则(3σ原则)二、数据清洗——异常值判别
?统计判别法——拉依达准则(3σ原则)二、数据清洗——异常值判别
python运行结果:数据序号评分图2
?统计判别法——肖维勒准则二、数据清洗——异常值判别
?统计判别法——肖维勒准则二、数据清洗——异常值判别
nnnn51.6591.92132.07172.1861,73101.96142,10182.2071.80112.00152.13192.2281.86122.04162.16202.24表1概率积分表(部分表)适用范围:①正态或近似正态分布的样本②n处于[25,185]时,判别效果最好
实际应用:在近代物理实验中,用比长仪测两光谱线之间的距离d共10次,得测量列(mm):162.1911,162.1902,162.1925,162.1890,162.1899,162.1903,162.1910,162.1857,162.1901,162.1883?统计判别法——肖维勒准则二、数据清洗——异常值判别???
python运行结果:光线谱间距(mm)数据序号图2
?统计判别法——格拉布斯准则二、数据清洗——异常值判别?
??统计判别法——格拉布斯准则二、数据清洗——异常值判别
0.950.990.950.9931.1351.155172.4752.78541.4631.492182.5042.82151.6721.749192.5322.85461.8221.944202.5572.88471.9382.097212.5802.91282.0322.231222.6032.93992.1102.323232.6242.963102.1762.410242.6442.987112.2342.485252.6633.009122.2852.550302.7453.103132.3312.607352.8113.178142.3712.659402.8663.240152.4092.705452.9143.292162.4432.747502.9563.336?
实际应用:已知10个评分数据:8.2、5.4、14.0、7.3、4.7、9.0、6.5、10.1、7.7、6.0为一个测试数列。统计判别法——格拉布斯准则二、数据清洗——异常值判别解题步骤:将数列由小至大排序得:4.7、5.4、6.0、6.5、7.3、7.7、8.2、9.0、10.1、14.0。???
python运行结果:数据序号评分图3
定义:狄克逊准则是直接根据测得值的顺序统计量,采用极差比的方法来判别可疑数据是否为异常值,避免了数据列的算术平均值、残余误差和标准差反复计算。统计判别法——狄克逊准则二、数据清洗——异常值判别??
常见极差的求法表3常见极差表检验高端离群值检验低端离群值3~78~1011~1314~30统计判别法——狄克逊准则二、数据清洗——异常值判别
n30.9700.99440.8290.92650.7100.82160.6280.74070.5690.68080.6080.71790.5640.672100.5300.635表4?
?统计判别法——狄克逊准则二、数据清洗——异常值判别适用条件:一般用于一组测定数据的一致性检验和异常值的检验;当最大值和最小值同时为可疑值
您可能关注的文档
- (5)--2.2不动点迭代法.pdf
- (5)--4.2数学软件数学软件.ppt
- (5)--第1节1:差分解法一数学物理方程与特殊函数.pdf
- (5)--教学设计样例(含研究性学习指导).pdf
- (5.1)--2.1.1 常系数常微分方程的求解.pdf
- (5.1)--A Survey on Differential Geometr微分几何微分几何.pdf
- (5.1.1)--1.1异常数据的识别.doc
- (5.1.3)--1.2缺失与异常数据的处理.ppt
- (5.1.4)--1.2缺失数据的填补方法.doc
- (5.1.5)--1.3数据统计描述与分布.doc
- 中国国家标准 GB/T 22517.2-2024体育场地使用要求及检验方法 第2部分:游泳场地.pdf
- GB/T 22517.2-2024体育场地使用要求及检验方法 第2部分:游泳场地.pdf
- 《GB/T 22517.2-2024体育场地使用要求及检验方法 第2部分:游泳场地》.pdf
- 苏教版(2017秋)科学三年级下册1.《种子发芽了》 教案(含课堂练习和反思).docx
- 2024-2025学年小学数学六年级上册冀教版(2024)教学设计合集.docx
- 地理商务星球版七年级上册4.5形成气候的主要因素 同步教案.docx
- 2024-2025学年中职中职专业课金融类73 财经商贸大类教学设计合集.docx
- 2024-2025学年初中地理七年级上册(2024)仁爱科普版(2024)教学设计合集.docx
- 2024-2025学年小学英语二年级上册外研版(一起)教学设计合集.docx
- 2024-2025学年高中数学选择性必修 第二册北师大版(2019)教学设计合集.docx
文档评论(0)