缺失数据插补方法比较研究.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
缺失数据插补方法比较研究

理论与方法 i缺失数据插补方法比较研究 ◇ 张朝雄沈昱张慧 据。不同的插补法对总体推断会产生较大的影响.尤其是 在缺失数量较大的情况下。目前国内学者对缺失数据的 一、缺失数据的产生机制 插补问题尚未有充分的认识。笔者发现.研究者在抽样调 在抽样调查中,经常会遇到调查问卷中某些项目没 查报告中很少会说明缺失值的处理方法.但事实上.绝大 有回答的情况,这就是数据缺失的问题。数据缺失问题无 部分社会科学调查(包括市场调查)都会包含不完整的数 论是在市场调查、政府调查还是学术调查中部呈现越来 据,理应对此有所说明。 越严重的趋势。这是由多种原因造成的。首先,公民越来 越重视个人的隐私权,不愿意透露一些个人信息;其次, 二、几种常见的缺失数据插补方法 不规范的币场调查影响了调查的严肃一性,使得受访者对 (一)个章剔除法(Ltstwjse 各类调查不屑一顾,不能认真对待;第三,问卷设计不规 Ddetlon) 范.问卷内容过长或过难,尤其是市场调查中的各类“搭 最常见、最简单的处理缺失数据的方法是用个案剔 车调查”使得问卷过长.造成受访者的厌倦心理;第四,调 除法01stwiscdeletionl,也是很多统计软件(如sPss和 查主办单位不重视访问员的培训,访问员缺乏一些必备 sAs)默认的缺失值处理方法。在这种方法中如果任何 的追阃、补同、虿漏等基本技巧。 个变量含有缺失数据的话,就把相对应的个案从分析中 缺失数据根据其产生机制可以分为完全随机缺失 BU除。如果缺失值所占比例比较小的话,这一方法十分有 效。,至于具体多大的缺失比例算是“小”比例,专家们意见 (McAR)、随机缺失(MAR)和非随机缺失(MNAR)。完全 随机缺失是指这样一种情况:缺失情况相对于所有可观 也存在较大的差距。有学者认为应在5%以下,也有学者 测和不可观测的数据来说,在统计学意义上是j虫立的。比 认为20%以下即可。然而,这种方法却有很大的局限性。 如说,受访者在街头接受访问时.突然沙粒吹进了眼睛导 它是以减少样本量来换取信息的完备.会造成资源的大 致问卷后面的问题无法回答,从而造成了数据缺失。随机 量浪费,丢弃了大量隐藏在这些对象中的信息。在样本量 缺失是一个观测出现缺失值的概率是由数据集中不含缺 较小的情况下,删除少量对象就足以严重影响到数据的 失值的变量决定的,而不是由含缺失值的变量决定的。非 客观性和结果的正确性。因此.当缺失数据所占比例较 随机缺失是与缺失数据本身存在某种关联,比如问题设 大,特别是当缺数据非随机分布时,这种方法可能导致数 计过于敏感造成的缺失。 据发生偏离,从而得出错误的结论。 识别缺失数据的产生机制是极其重要的。首先这涉 (二)均值替换法(MeanImpu诅tlon) 及到代表性问题。从统计上说,非随机缺失的数据会产生 在变量十分重要而所缺失的数据量又较为压大的时 有偏估计,因此不能很好地代表总体。其次,它决定数据 候,个案剔除法就遇到了困难,因为许多有用的数据也同 插补方法的选择。随机缺失数据处理相对比较简单,但非 时被剔除。围绕着这一问题.研究者尝试了各种各样的办 随机缺失数据处理比较困难,原因在于偏差的程度难以 法。其中的一个方法是均值替换法cmeanjmputati帅)。我们 把握。 将变量的属性分为数值型和非数值型来分别进行处理。 缺失数据的插补是指选择合理的数据代替缺失数 如果缺

文档评论(0)

118zhuanqian + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档