网站大量收购独家精品文档,联系QQ:2885784924

数据缺失及其填补方法综述演示幻灯片.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
演示文稿演讲PPT学习教学课件医学文件教学培训课件

LOGO * LOGO * LOGO * 目录页 CONTENTS PAGE LOGO * TRANSITION PAGE 过渡页 LOGO * 引言 Part 1 LOGO * 数据缺失简介 Part 2 LOGO * Part 3 数据缺失的处理方法 LOGO * Part 4 处理方法的选择与评价 LOGO * 总结 Part 5 数据缺失及其填补方法综述 报告人:邵宏赡 日 期:2013.4 一 二 三 引言 数据缺失简介 数据缺失的处理方法 主要内容 四 处理方法评价 五 总结 一 二 三 引言 数据缺失简介 数据缺失的处理方法 四 处理方法的选择与评价 五 总结 在社会调查资料中,最为常见的问题就是 。造成数据缺失的原因有:失访、无响应或是回答问题不合格等等。统计学上,将含有缺失数据的记录称为不完全观测。缺失数据或不完全观测对调查研究的影响是很大的。所以在统计学中,为了能够更加充分地利用已经搜集到的数据,国内外很多学者都对缺失数据的处理提出了自己独到的见解,来挽救有缺失的调查数据,以保证研究工作顺利进行。 数据缺失 一 二 三 引言 数据缺失简介 数据缺失的处理方法 四 处理方法的选择与评价 五 总结 ——数据缺失是指在数据采集时由于某种原因应该得到而没有得到的数据。它指的是现有数据集中某个或某些属性的值是不完全的。 统计调查中能否按设计要求获得被调查单位的详全资料是衡量数据质量的一个重要标准, 但实际调查中经常遇到数据缺失的情况。 无回答有2种表现形式: 单位无回答(unit non-response)和项目无回答(item non-response) 。 “单位无回答”——被调查者不愿意或者不能够回答整张的问卷; “项目无回答”——被调查者拒绝回答个别的调查项目。 概念(Concept) 缺失原因(Reason) 在存储数据的过程中,由于机器的损坏造成数据存储失败; 调查员在采集数据过程中,由于主观因素人为地认为数据不重要或无用,而私自丢弃数据; 调查员信息录入失误; 受访者拒绝透露被调查信息,或回答错误信息; 受访者选取失误。例如调查工资情况,选取的受访者是婴幼儿。 在统计调查过程中,数据缺失是不可避免的,造成这种现象的原因是多方面的 ,主要有以下几种: Little和Rubin针对缺失数据,探讨缺失数据与目标变量是否有关,定义了3种不同的缺失机制。 产生机制( Mechanism ) MCAR MAR MNAR 完全随机缺失(Missing Completely At Random) :数据的缺失与不完全变量以及完全变量都是无关的。 随机缺失(Missing At Random):数据的缺失仅仅依赖于完全变量。 非随机缺失(Not Missing At Random):不完全变量中数据的缺失,依赖于不完全变量本身。这种缺失是不可忽略的。 产生机制( Mechanism ) 缺失模式( Pattern) 数据缺失模式主要研究哪些变量缺失,更确切的说,关注的是缺失数据矩阵R的分布。当一维目标变量出现缺失数据时,我们在数据处理过程中首先要考虑缺失数据产生机制,而对于多维目标变量而言,除了考虑缺失数据产生机制外,还要判断数据的缺失模式。 缺失模式( Pattern) 假设完全数据资料阵 y 是由m个观测、 n个变量组成的m×n矩阵,通过分析这个矩阵的特点,可以推断出数据缺失模式。 一 引言 四 处理方法的选择与评价 五 总结 二 数据缺失简介 三 数据缺失的处理方法 不处理就是直接在包含空值的数据上进行数据挖掘。 贝叶斯网络仅适合于对领域知识具有一定了解的情况,至少对变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网的结构不但复杂性较高(随着变量的增加,指数级增加),网络维护代价昂贵,而且它的估计参数较多,为系统带来了高方差,影响了它的预测精度。当在任何一个对象中的缺失值数量很大时,存在指数爆炸的危险。 人工神经网络可以有效的对付空值,但人工神经网络在这方面的研究还有待进一步深入展开。 不处理 贝叶斯网络 人工神经网络 数据填补通常是一件非常繁琐的工作, 很多常用的统计软件以及专门为其编写的软件都可以完成。从中可以看出,各种软件的着重点不同, 使用效果也不尽相同, 在使用时要根据个人实际需要加以选择。 常

文档评论(0)

yuzongxu123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档