- 1、本文档共21页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数学建模MathematicalModeling
缺失与异常数据的处理ProcessingofMissingandAbnormalData
缺失与异常值产生的原因及影响01
是不是所有的缺失值都是有用的呢答案是否定的比如说病人在康复以后的病例数据不再更新;去世人员相关数据的记录。这种情况我们应该结合实际的数据分析案例进一步作出判定。缺失值与异常值产生的原因:一、缺失值与异常值产生的原因及影响有些信息暂时无法获取,或者获取信息的代价太大有些信息是被遗漏的属性值不存在,如一个未婚者的配偶姓名、一个儿童的固定收入异常值产生既有客观原因,如仪器故障。又有主观原因,如操作粗心大意。
缺失值与异常值产生的影响一、缺失值与异常值产生的原因及影响有利影响——识别用户窃电不利影响——导致重大事故
缺失值与异常值的处理02
那到底是如何做的呢?处理方法二、缺失值与异常值的处理一般来说,异常数据可以当做缺失值来处理。当数据集面临数据缺失的情况,常用的缺失值处理方法有以下四类:删除带有缺失值的样本或特征采用某种方法对缺失值进行填补,如均值填补、随机填补和基于模型的填补插值法不处理缺失值
二、缺失值与异常值的处理删除样本:样本有多个特征存在缺失值,且存在缺失值的样本占整个数据集样本数量的比例不高的情形。删除特征:某个特征缺失值较多且该特征对数据分析的目标影响不大。删除法在python中我们常用data.dropna()进行删除操作删除法通过删除包含缺失值的数据来得到一个完整的数据子集。数据的删除既可以从样本的角度进行,也可以从特征的角度进行。删除法简单且易于操作但也具有很大的局限性。它以减少数据来换取信息的完整,丢失了大量隐藏在这此被删除数据中的信息。
二、缺失值与异常值的处理填补法pandas库中提供了缺失值填补的方法名pandas.DataFrame.fillna()缺失值的填补法因为填补的方法机制不同,可以分为以下三种方法:按值填补(均值,众数等)随机填补(贝叶斯填补,近似贝叶斯填补)模型填补
二、缺失值与异常值的处理均值填补:优点:操作简单?方便操作?效率高缺点:均值填补法会使得数据过分集中在平均值或众数上,导致特征的方差被低估;由于完全忽略特征之间的相关性,均值填补法会大大弱化特征之间的相关性填补法对于存在缺失值的某一个特征,均值填补法首先计算该特征中非缺失值的平均数或众数,然后使用平均数或众数来代替缺失值。对于连续型特征,通常使用平均值进行填补;对离散型特征,则使用众数进行填补。
表2填充类型二、缺失值与异常值的处理均值填补:填充值的选择:不同分布类型的填充值不同,具体见下表填补法
随机填补是在均值填补的基础上加上随机项,对一般缺失数据可以较好地进行填补。优点:通过增加缺失值的随机性来改善缺失值分布集中的缺陷。缺点:数据容易过于集中,忽略方差,增强相关性。随机填补方法包括贝叶斯Bootstrap法和近似贝叶斯Bootstrap法。二、缺失值与异常值的处理随机填补:填补法
基于模型的方法将缺失特征作为预测目标。将数据集中其他特征或其子集具有较好地指示作用,通过特征的非缺失值构造训练集,然后使用构建的模型来预测特征的缺失值。优点:模型填补利用特征之间相关性进行预测,更加符合贴切实际。缺点:需要采用模型评估方法对模型的预测性能进行评估,如果构建的模型预测性能太差则不适合使用该方法。二、缺失值与异常值的处理模型填补:填补法
插值法二、缺失值与异常值的处理插值法又称“内插法”,是利用函数f(x)在某区间中已知的若干点的函数值,作出经过函数f(x)已知值的特定函数,在区间的其他点上用这特定函数的值作为函数f(x)的近似值,这种方法称为插值法。这里插值法主要介绍拉格朗日插值法。
?拉格朗日插值法二、缺失值与异常值的处理?
????二、缺失值与异常值的处理拉格朗日插值法
缺失值的处理方法其实有很多,除了上述的方法之外,还包括哑变量方法和EM算法等。哑变量算法:对于离散型特征,如果存在缺失值,可以将缺失值作为一个单独的变量取值进行处理,这种方法即成为哑变量算法。EM算法:是一种可以利用不完整的信息实现概率模型的参数化估计的算法。EM算法可以用来进行缺失值的填补,此时缺失特征被当做隐含变量。二、缺失值与异常值的处理其他方法
实际应用03
时间2015/2/252015/2/242015/2/232015/2/222015/2/212015/2/20销售额(元)3442.13393.13136.63744.16607.44060.3时间2015/2/192015/2/182015/2/162015/2/152015/2/142015/2/13销售额(元)3614.73295.52332.12699.3空值3036.8表1某餐厅一段时间内的
您可能关注的文档
- (5)--4.2数学软件数学软件.ppt
- (5)--第1节1:差分解法一数学物理方程与特殊函数.pdf
- (5)--教学设计样例(含研究性学习指导).pdf
- (5.1)--2.1.1 常系数常微分方程的求解.pdf
- (5.1)--A Survey on Differential Geometr微分几何微分几何.pdf
- (5.1.1)--1.1异常数据的识别.doc
- (5.1.2)--1.1异常数据的识别.ppt
- (5.1.4)--1.2缺失数据的填补方法.doc
- (5.1.5)--1.3数据统计描述与分布.doc
- (5.1.6)--1.3数据统计描述与分布.ppt
- 10《那一年,面包飘香》教案.docx
- 13 花钟 教学设计-2023-2024学年三年级下册语文统编版.docx
- 2024-2025学年中职学校心理健康教育与霸凌预防的设计.docx
- 2024-2025学年中职生反思与行动的反霸凌教学设计.docx
- 2023-2024学年人教版小学数学一年级上册5.docx
- 4.1.1 线段、射线、直线 教学设计 2024-2025学年北师大版七年级数学上册.docx
- 川教版(2024)三年级上册 2.2在线导航选路线 教案.docx
- Unit 8 Dolls (教学设计)-2024-2025学年译林版(三起)英语四年级上册.docx
- 高一上学期体育与健康人教版 “贪吃蛇”耐久跑 教案.docx
- 第1课时 亿以内数的认识(教学设计)-2024-2025学年四年级上册数学人教版.docx
文档评论(0)