不得不读缺缺失数据处理.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
◆缺失数据的插补方法 中国科学院系统科学研究所 杨军 联系方式:tomy2001@163.com 报告提纲 ◆缺失数据 ◆为什么进行插补 单一插补 ◆多重插补 ◆几何插补 ◆问题与挑战 缺失数据 在许多实际问题的研究中,有一些数据无 法获得或缺失。当缺失比例很小时,可直 接对完全记录进行数据处理,舍弃缺失记 录。但在实际数据中,往往缺失数据占有 相当的比重,尤其是多元数据。这时前述 的处理将是低效率的,因为这样做丢失了 大量信息,并且会产生偏倚,使不完全观 测数据与完全观测数据间产生系统差异 ●什么是插补 ◆给每一个缺失数据一些替代值,如此得 到“完全数据集”后,再使用完全数据 统计分析方法分析数据并进行统计推断 ◆80年代以后,人们开始重视数据缺失问 题,着力研究插补方法。迄今为止,提 出并发展了30多种的插补方法。在抽样 调查中应用的主要是单一插补和多重插 补 为什么进行插补 允许应用标准的完全数据分析方法 能融合数据收集者的知识 数据缺失使数据结构复杂化,需要使用更 复杂的统计工具进行分析,而插补可以缓 解这一困难 能够防止删除不完全记录造成的信息丢失 在一些情形下,插补能够减少无回答偏倚 特别注意:插补的目的并不是预测单个缺失 值,而是预测缺失数据所服从的分布 单一插补 ◆单一插补指对每个缺失值,从其预测分 布中取一个值填充缺失值后,使用标准 的完仝数据分析进行处理。单一插补的 方法很多,总的说来可以归为两类:随 杋插补和确定性插补。常用的确定性插 补方法有以下几种 推理插补 在推理插补方法中,根据所得的信息推断缺失值,比如先前调查的类似项目,目前调查中的相关 项目等.。例如一个被调查者提供了三个孩子的名字,但“子女数”项空着,可以推出子女数为3 ◆均值插补 均值插补是最简单但缺乏吸引力的插补方法,均值插补用整个样本中所有观测数据的均值去替 代所有缺失愃。这种方法只能在缺尖值是完全随机缺失(MCAR)时为总体均值或总量提供无偏估 计。然而,它严重扭曲了数据分布,所有的插补值集中在均值点上,在分布上形成尖峰,导致低估方 差。根据一定的辅助变量,将样本分成多个部分(cl),然后在每一部分上分别使用均值插补,称为 局都均值插补( cell mean imputation) ◆热平台插补 热平台插补是指在同一插补类中,使用与受者相似的供者记录的信息来替代受者记录中的缺失 值的插补方法。热平台插补是最流行的插补方法之一,因为它简单直观。热平台插补不采用任何明确 的统计模型。它的主要觖点是不能覆盖调査中回答数据没有反映的信息。热平台插补有很多种,可归 纳为两类:序惯热平台插补和随机热平台插补,例如我们希望插补被调查者的吸烟状况,有三种可能 的回答:吸烟、不吸烟及以前吸烟但现在已戒烟.我们基于年龄段和性别产生插补类(因为我们认为 的年龄和性别有关).假设要作插补处理的记录是女性,在1524这个年龄组中 这时所有回答了各自吸烟状况的15-24岁女性构成我们的供者集合,要从这个供者集合中选择一个 供者.我们可以随机选一个(随机热平台插补)或者按照某一顺序从中选择(序惯热平台插补) 冷平台插补一与热平台插补类似,而冷平台插补则使用其它资料 (比如前期的调查或普查中的历史数据)中的供者 最近邻插衤 在插补类中按匹配变量找到和受者记录最接近的供者记录替 代缺失记录 ●比率/回归插补 ——根据辅助信息与样本中的有效回答记录建立一个比率或回归 模型 EM算法 E-步指根据Ys和0预测Y;M-步指根据Ym和Ym,估计6(+1) 每一种确定性的插补方法都对应着一种随 杋插补方法。插补定量数据时,用确定性 的方法得到一个插补值,加上从某个适宜 的分布中产生的一个残差作为最后的插补 值,就成为随机插补。随机插补能更好地 保持薮据的频数结构,保持比确定性插补 更真实的变异性。 下面绍两种贝叶斯观点的随机插礼 贝叶斯 Bootstap(ABB) 似贝叶斯 Bootstap方法首先从样本的r个观测数据Y1,…,Y中有放回地抽取r个值建 立,然后从Yah。中随机的抽取m个值插补目标变量Y的m个缺失值 近似贝叶斯 Bootstap(ABB) ↓叶斯 Bootstap方法包括两步:(1)从(,1)均匀分布中随机抽取-1个随机数,将它们排 序后记为(1,……,ar-1;同时令=0与an=1,其中是观测值的数目:(2)对m个缺失值中的 每一个,分别从1…,1中以概率(a1-m0,(2-a1)…,(1--1)轴取一个插补值 单一插补的优点 1、标准的完全数据分析方法 2、对公

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档