- 1、本文档共4页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
脚本——缺失数据的填补方法
(ppt1,ppt2)同学,你好。今天我们来讲解缺失与异常数据的处理。
(ppt3)先来了解一下缺失与异常值产生的原因及影响。
(ppt4)(动画1)为什么会产生缺失值和异常值呢?(动画2)主要有三点原因,第一点,有些信息暂时无法获取,或者获取信息的代价太大。第二点,有些信息是被遗漏的第三点是属性值不存在,如一个未婚者的配偶姓名、一个儿童的固定收入。(动画3)异常值产生既有客观原因,如仪器故障。又有主观原因,如操作粗心大意。(动画4)那是不是所有的缺失值都是有用的呢?(动画5)答案是否定的。比如说病人在康复以后的病例数据不再更新;去世人员相关数据的记录。这种情况我们应该结合实际的数据分析案例进一步作出判定。
(ppt5)缺失值和异常值会产生哪些影响呢?(动画1)有利影响是有的时候我们可以通过用户用电数据的异常来识别用户窃电。(动画2)不利影响是例如在高铁的运行过程中,如果数据出现了异常,没有及时处理,就可能会导致重大事故。
(ppt6)接下来我们来讲解缺失值与异常值的处理方法。
(ppt7)(动画1,2)一般来说,异常数据可以当做缺失值来处理。当数据集面临数据缺失的情况,常用的缺失值处理方法有以下四类:1.删除带有缺失值的样本或特征;2.采用某种方法对缺失值进行填补,如均值填补、随机填补和基于模型的填补;3.插值法;4.或者我们也可以选择不处理缺失值。(动画3)那么这些方法我们如何来操作呢?
(ppt8)(动画1)先来看删除法。(动画2)删除法通过删除包含缺失值的数据来得到一个完整的数据子集。数据的删除既可以从样本的角度进行,也可以从特征的角度进行。(动画3)删除样本:样本有多个特征存在缺失值,且存在缺失值的样本占整个数据集样本数量的比例不高的情形。(动画4)删除特征:某个特征缺失值较多且该特征对数据分析的目标影响不大。(动画5)删除法简单且易于操作但也具有很大的局限性。它以减少数据来换取信息的完整,丢失了大量隐藏在这此被删除数据中的信息。(动画6)在python中我们常用data.dropna()进行删除操作。
(ppt9)(动画1)来看第二种方法:填补法。(动画2)缺失值的填补法因为填补的方法机制不同,可以分为以下三种方法:1.按值填补(均值,众数等)。2.随机填补(贝叶斯填补,近似贝叶斯填补)3.模型填补。(动画3)pandas库中提供了缺失值填补的方法名pandas.DataFrame.fillna()
(ppt10)(动画1)下面我们来讲解填补法中的第一种,均值填补。对于存在缺失值的某一个特征,均值填补法首先计算该特征中非缺失值的平均数或众数,然后使用平均数或众数来代替缺失值。(动画2)对于连续型特征,通常使用平均值进行填补;对离散型特征,则使用众数进行填补。(动画3)均值填补的优点是操作简单?方便操作?效率高。(动画4)缺点是均值填补法会使得数据过分集中在平均值或众数上,导致特征的方差被低估;由于完全忽略特征之间的相关性,均值填补法会大大弱化特征之间的相关性。
(ppt11)(动画1)对于不同的分布类型,我们所选择的填充值不同,具体见下表。一般情况下,近正态分布的数据,所有的观测值都较好地聚集在平均值的周围,我们选择平均值来填充。对于偏态分布,我们选择中位数来进行填充,是因为大部分的值都聚集在变量分布的一侧,中位数是更好的代表数据中心趋势的指标。对于有离群点的分布,我们也选择中位数进行填充。对于名义变量来说,例如性别,因为他无大小、顺序之分,不能加减乘除,所以我们选择众数来填充。
(ppt12)(动画1)第二种填补方法是随即填补,随机填补是在均值填补的基础上加上随机项,对一般缺失数据可以较好地进行填补。(动画2)他的优点是通过增加缺失值的随机性来改善缺失值分布集中的缺陷。缺点是数据容易过于集中,忽略方差,增强相关性。(动画3)随机填补方法包括贝叶斯Bootstrap法和近似贝叶斯Bootstrap法。
(ppt13)(动画1)第三种填补方法是模型填补。基于模型的方法将缺失特征作为预测目标。将数据集中其他特征或其子集具有较好地指示作用,通过特征的非缺失值构造训练集,然后使用构建的模型来预测特征的缺失值。(动画2)优点是模型填补利用特征之间相关性进行预测,更加符合贴切实际。缺点是需要采用模型评估方法对模型的预测性能进行评估,如果构建的模型预测性能太差则不适合使用该方法。
(ppt14)(动画1)接下来我们来讲解对缺失值进行处理的第三种方法,插值法。插值法又称“内插法”,是利用函数f(x)在某区间中已知的若干点的函数值,作出适当的特定函数,在区间的其他点上用这特定函数的值作为函数f(x)的近似值,这种方法称为插值法。这里插值法主要介绍拉格朗日插值法。
(ppt15)(动画1)先来
您可能关注的文档
- (5)--第1节1:差分解法一数学物理方程与特殊函数.pdf
- (5)--教学设计样例(含研究性学习指导).pdf
- (5.1)--2.1.1 常系数常微分方程的求解.pdf
- (5.1)--A Survey on Differential Geometr微分几何微分几何.pdf
- (5.1.1)--1.1异常数据的识别.doc
- (5.1.2)--1.1异常数据的识别.ppt
- (5.1.3)--1.2缺失与异常数据的处理.ppt
- (5.1.5)--1.3数据统计描述与分布.doc
- (5.1.6)--1.3数据统计描述与分布.ppt
- (5.1.7)--1.4数据合并与数据变换.doc
- 2025版高考地理一轮复习课时作业三十六经济发达地区的可持续发展__以珠江三角洲地区为例含解析鲁教版.doc
- 七年级生物下册第六章第四节激素调节练习新版新人教版.docx
- 2025届高考化学一轮复习第3章自然界中的元素第1节碳的多样性教案鲁科版.doc
- 2024_2025学年高中历史8.24世界经济的全球化趋势课时分层作业含解析新人教版必修2.doc
- 2024_2025学年新教材高中物理第2章抛体运动第1节运动的合成与分解教案鲁科版必修第二册.doc
- 河南省洛阳市2024_2025学年高一数学下学期期中试题含解析.doc
- 江苏专用2025版高考生物一轮复习第6单元遗传的分子基础素养加强课6同位素标记法及其应用学案.doc
- 山东省潍坊市2024_2025学年高二数学下学期期中试题含解析.doc
- 2025届高考历史统考一轮复习课后限时集训33宋明理学含解析人民版.doc
- 浙江省临海市乐清市新昌县2025届高三生物鸭模拟考试试题含解析.doc
文档评论(0)