- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九章 资料的统计分析(1)——单变量分析
第一节 单变量描述统计
一、频数分布与频率分布
1、所谓频数分布(frequency distribution),就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。
频数分布表的作用有两方面,一是简化资料,即将调查所得到的一长串原始数据,以一个十分简洁的统计表反映出来。二是从频数分布表中,可以更清楚的了解调查数据的众多信息。
2、所谓频率分布(percentages distribution),就是指一组数据中不同取值的频数相对于总数的比率分布情况,这种比率在社会调查中经常是以百分比的形式来表达。
频率分布表除了频数分布表的优点之外,还有一个重要的优点就是十分方便地用于不同总体或不同类别之间的比较。
3、注意的是,对于一项有一定规模的调查样本来说,一般不宜对如年龄、收入、时间等定比变量做频数分布表或频率分布表。因为,此时类别很多,而每一类别中个案数不多,所得结果繁杂不适用。
二、集中趋势分析
集中趋势分析(centeral tendency analysis)指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。最常见的集中趋势分析包括平均数(均值)、众数和中位数。
1、平均数(mean):总体各单位数值之和除以总体单位数目所得之商。
2、众数(mode):是指一组数据中出现次数最多的那个数值。
3、中位数(median),把一组数据按值的大小顺序排列起来,处于中央位置的那个数值就叫中位数。它所描述的是定序变量以上层次的变量。
4、中位数和平均数的比较
平均数比中位数利用了更多的数据信息,对总体的描述更全面和准确。
平均数很容易受到极端值变化的影响,而中位值不会受到这种影响。
对于抽样调查来说,平均数是一种比中位数更为稳定的量度,它随样本的变化比较小。
三、离散趋势分析
离散趋势分析(dispersion tendency analysis),指的是用一个特别的数值来反映一组数据相互之间的离散程度。常见的离散量数统计量有全距、标准差、异众比率、四分位差等。标准差、异众比率、四分位差分别与平均数、众数、中位数相对应,判定和说明平均数、众数、中位数代表性的大小。
1、全距(range)
又叫极差,它是一组数据中最大值与最小值之差。
其意义在于一组数据的全距越大,在一定程度上说明这组数据的离散量数越大,而集中量数统计量的代表性越低。反之,一组数据的全距越小,则说明这组数据的离散量数越小,而集中量数统计量的代表性越高。
2、标准差(standard deviation)
一组数据对其平均数的偏差平方的算术平均数的平方根。用S表示。
对于单值分组数据资料,计算标准差的公式为
3、异众比率(variation ratio)
指的是一组数据中非众数的次数相对于总体全部单位的比率。用VR表示。
其意义是指众数所不能代表的其他数值在总体中的比重。异众比率越大,则众数代表性越小;异众比率越小,则众数代表性越大。
4、四分位差(interquartile range)
指的是将一组数据按大小排序,然后将其4等分,去掉序列中最高的四分之一和最低的四分之一后,中间的一半数值之间的全距。用Q表示。
5、离散系数(coefficient of variation)
变差系数,它是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数统计量进行比较,或对两个不同总体中的同一离散量数统计量进行比较。定义为:标准差与平均数的比值,记为CV。
第二节 单变量推论统计
一、区间估计(interval estimation)
其实质就是在一定的可信度(置信度)下,用样本统计值的某个范围(置信区间)来“框”住总体的参数值。范围的大小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性问题。
区间估计中的可靠性或把握性是指用某个区间去估计总体参数时,成功的可能性有多大。对于同一总体和同一抽样规模来说,所给区间的大小与作出这种估计所具有的把握性成正比。反过来说,区间的大小所体现的是估计的精确性问题,二者成反比。
在精确度与把握性之间寻找平衡,在社会统计中,一般常用的置信度分别为90%、95%和99%。计算中,置信度常用1-α来表示。
1、总体均值的区间估计
2、总体百分数的区间估计
二、假设检验
假设检验实际上就是先对总体的某一参数作出假设,然后用样本的统计量去进行验证,以决定假设是否为总体所接受。其所依据的是概率论中的小概率原理,即“小概率事件在一次观察中不可能出现”的原理。
假设检验的基本步骤是:
1、建立虚无假设和研究假设,通常是将原假设作为虚无假设;
2、根据需要选择适当的显著性水平α(即小概率的大小
文档评论(0)