- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应该如何评估样本的代表性
应该如何评估样本的代表性?
游正林
【内容提要】 国内有些学者认为,可以采用将样本的某些特征与总体的同类特征进行比较的办法来评估样本的代表性。本文则强调:在具体的调查研究过程中,这种评估的方法既不可行,也不科学。评估样本的代表性的关键,是判断它是不是一个概率样本,而要做这样的判断,只能依据实际抽取样本的具体方法和具体程序,而不是依据最后所得到的样本的具体特征。本文还探讨了未应答现象及其对样本的代表性的影响。
【关 键 词】样本的代表性/概率抽样/抽样误差/应答率
本文所说的“样本”,是指在社会调查活动中根据概率抽样原则从调查对象的总体中抽取出来填答调查问卷或进行结构性访谈的那一部分人。除非普查或者所有被调查者的特征都一样,否则,所有旨在根据样本的特征来推论总体的特征的抽样调查,都面临一个如何评估样本的代表性的问题。对这个问题,国内有些学者认为,其评估的基本方法,是将样本的某些特征(如性别结构、年龄结构等)与总体的同类特征进行比较,如果发现二者之间的差别不大,则可以认为样本的质量较高,代表性较好,反之,则说明样本的代表性较差(国内几本影响比较大的有关社会研究方法的教材都持这种观点)。本文旨在阐明:在具体的调查研究过程中,这种评估的方法既不可行,也不科学。评估样本的代表性的关键,是判断它是不是一个概率样本,而要做这样的判断,只能依据实际抽取样本的具体方法和具体程序,而不能依据最后所得到的样本的具体特征。为了说清楚这一点,还得从概率抽样与抽样误差的意义说起。
一、概率抽样与抽样误差的意义
从调查总体中抽取样本的基本方式可以分为两大类型,一是概率抽样,二是非概率抽样。在概率抽样中,总体中的每个元素都有一个已知且不为0的被选入样本的概率,这个概率通过某些随机化的机械的操作而获得。①或者说,概率抽样的本质特征是研究者能计算出总体中的每个人被选入样本的概率,而无须每个人被选入样本的概率都相等。②概率抽样主要有四种形式,即简单随机抽样、系统随机抽样、分层随机抽样和聚类抽样。其中,简单随机抽样是最简单、也是最基本的概率抽样方法,其它的抽样形式都可以看作是对它的修正。简单随机抽样要求完全按照随机原则,直接从总体N个单位中抽取n个单位作为样本,并且要保证总体中每个单位被选入样本中的概率不但都是已知的,而且都要相等。简单随机抽样在统计推论当中占有十分重要的地位,大多数推论统计的方法都是基于简单随机抽样,即假定数据是按照简单随机抽样的方法收集的。③采用这种抽样方法的意义在于:研究者能够得知样本统计值(其中最常用的是样本均值)的抽样分布(sampling distribution),从而能够根据中心极限定理计算出抽样误差的大小,这样,也就能够建立起样本统计值与总体参数值之间的联系,达到由样本统计值推论总体参数值的目的。而采用非概率抽样时,研究者则无法做到这一点。
样本统计值的抽样分布是一种理论性的概率分布,该统计值通过计算从同一总体中抽取出来的、规模都为n的所有可能的随机样本而得出。可以以样本均值的抽样分布为例来说明之:假设某大学共有10000名住校的同学,某研究者决定采用简单随机抽样的方法从中抽取500名同学进行问卷调查,以便了解同学们每月的伙食费支出等方面的情况,那么,根据组合原理,将共有C[500,10000]种抽法,也即从理论上讲可以得到C[500,10000]个不同的随机样本。如果统计这些样本中平均每名同学的每月的伙食费支出,我们就将得到C[500,10000]个统计数据,即C[500,10000]个样本均值。这些样本均值可能会各不相同,它们所组成的分布即为样本均值的抽样分布。由于在实际的抽样调查当中,我们不可能反复地抽取这么多的样本进行调查,而只抽取一个样本即可,因此,这种抽样分布纯粹是一种理论上的分布。然而,这种抽样分布对于统计推论却至关重要,它被认为是统计学中最重要的一个概念,是统计推论程序的基石。④
根据数学上的中心极限定理,如果从一个具有任何分布形状、且均值为μ、标准差为δ的总体中,采用简单随机抽样的方法抽取样本规模都为n的所有可能的随机样本,那么,当n变得足够大时(一般大于50即可),所有这些随机样本的均值的分布(即样本均值的抽样分布)具有以下三个特征:(1)样本均值的抽样分布将十分接近于正态分布;(2)样本均值的抽样分布的均值等于总体的均值;(3)样本均值的抽样分布的标准差等于总体的标准差(δ)除以。这个标准差也叫样本均值的抽样分布的标准误差(standard error),简称为SE。当总体的标准差未知时,只要样本规模足够大,样本的标准差(S)会接近于总体的标准差,就可以近似地用样本的标准差来代替总体的标准差,从而可以计算出SE的值,即。SE所反映的是所有可能的样本均值与总体均值之间的平均离差,
文档评论(0)