- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用马蒙模型解决社会调查研究中数据缺损问题 田飞 2012-10-25 16:04:53 来源:《安徽大学学报:哲社版》(合肥)2006年4期第146~149页 【作者简介】田飞,安徽大学社会学系,安徽合肥230039 田飞(1960~),男,河南郸城人,安徽大学社会学系副教授,美国统计学会会员。 【内容提要】 调查研究是社会学研究的重要方式,它所采集的数据普遍存在数据缺损问题。当缺损数据的量相当大时就会严重影响研究的结果。解决问题的最好方法就是用合理的数值填入。虽然目前已有了一些方法,但由此填入的数值(点值)不是有偏就是精度低,或兼二有之,或点值的标准差有偏。然而马蒙模型较好地解决了点值和其标准差的准确度和精度问题,并且借助于计算机就可以很容易获得这些模拟缺损值。只要缺损数据和未缺损数据之间保持独立性,则该模型的使用条件即可容易满足。 【关 键 词】马蒙模型/调查研究/Bayes/数据缺损 中图分类号:C915文献标识码:A文章编号:1001-5019(2006)04-0146-04 引言 社会学研究有四个方式,即调查研究、实验研究、文献研究和实地研究,[1] 其中调查研究方式不论在社会学研究的实际使用量上,还是在研究性质的广泛程度上(探索性研究、描述性研究和解释性研究)都具有非常重要的位置,是社会学研究的最重要手段之一。它包括生活调查、问题调查、民意调查、市场调查和学术调查等方面。由于调查研究方式充分采用了统计手段去采集、处理和分析数据,如抽样方法、数据维护、统计分析等,因此它是实证主义定量分析的典型。调查研究收集资料的主要工具是问卷,在形式上它是一份精心设计的问题表格,其用途是用来测量人们的行为、态度和社会特征,它一般由封面信、指导语、问题、答案和编码构成。[2] 社会研究不可等同于自然研究,我们的研究对象是人不是物,在采集数据(问卷填写)时需要被研究者的密切配合。如果被调查者存在主客观障碍,就会造成数据不准确,甚至丢失。所谓主观障碍是指被调查者心理上和思想上对问卷产生的各种不良反应所形成的障碍。比如,当问卷内容太多,问卷表太厚,或者问卷中需要大量时间进行思考、回忆、计算的问题太多时,回答者就会有畏难情绪;当问卷中的问题涉及个人隐私等敏感的内容时,回答者就会容易产生种种顾虑;当问卷的封面信对调查的目的、内容、意义解释不够时,回答者就可能对问卷不重视,缺乏积极合作的责任感。所谓客观上的障碍是指被调查者自身的能力、条件等方面的限制所形成的障碍。比如说阅读能力的限制,如果问卷的格式较复杂、问题较抽象或者语言不通俗易懂,那么有些文化程度较低的被调查者就很难看懂这些问题,更谈不上回答了。又如理解能力的限制,无论是对于问题的内容还是对于填写问卷的方法,常常会有一些被调查者理解不了的。还有记忆能力、计算能力所带来的限制,在问卷中,研究者常常询问有关被调查者过去的经历或生活的问题,也常常询问诸如年收入、月生活费、每天用于某件事的时间等问题,这些问题常常要求被调查者进行一定的(有时甚至是困难的)回忆、思考和计算。另外和自然科学研究一样,在数据录入时,由于种种原因,也会出现数据丢失或明显错误输入。 如果数据丢失或明显错误是由于录入造成的,而且原始数据还在,那么还有机会弥补;如果原始数据已不在,无法填入实际值,则此时我们称作“数据缺损”(missing data)。然而大量的数据缺损是在数据采集时就形成了,即在返回的问卷中某个或某些问题没有回答或答非所问。这种现象在社会调查中普遍存在,如果缺损数据的量相当大,则在此基础上进行数据分析会严重影响研究的结果。因此在进行正式的数据分析之前,必须进行数据维护,而且必须是采用现代统计方法进行科学的维护。表1是一个社会调查的示例,个案二没有回答问题一和问题二,个案三没有回答问题二: 表1一个社会调查结果示例 问题一问题二问题三 本人身高(cm) 目前未婚同居吗期望配偶的学历 个案一165 是研究生 个案二 本科 个案三170中专 个案四160 不 本科 一、目前解决数据缺损问题的常规方法及其优缺点 最常见的处理这类数据缺损的方法是“单举法删除”(listwise deletion)。如果任何一个变量(问题)含有缺损数据的话,就删除与其相对应的整个个案(问卷)。如果少量个案被删除,这一方法十分有效,因为缺失的数据是随机的,所以参数(点值和标准差)的估计依然是无偏的,但是由于数据量的减少会带来精度损失。精度损失大小与删除的个案数目有关,删除的个案越多精度越低。如果许多问卷的同一变量都存在数据缺损,则该变量被删除,会严重影响此次研究目的。表2显示如何删除变量二(问题二)和个案二。 表2变
文档评论(0)