- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第4章调查数据的预处理抽样调查课件祥解.ppt
SPSS有个Missing data analysis栏目,增加了EM (expectation and maximization)填补。 它的方法是把有同样缺失的样本放在同一组,计算它的协方差矩阵(covariance matrix),然后再根据每组的样本数来校正它对整个样本的权重(weight),从这里再重新填补每个缺失值,这重方法算是现在比较精确的缺失值填补的方法。 总之,缺失值处理方法的选用取决于缺失值的形式、缺失样本总样本的比例等具体情况而定,最终的衡量标准要保证最终数据的客观性与准确性。 人有了知识,就会具备各种分析能力, 明辨是非的能力。 所以我们要勤恳读书,广泛阅读, 古人说“书中自有黄金屋。 ”通过阅读科技书籍,我们能丰富知识, 培养逻辑思维能力; 通过阅读文学作品,我们能提高文学鉴赏水平, 培养文学情趣; 通过阅读报刊,我们能增长见识,扩大自己的知识面。 有许多书籍还能培养我们的道德情操, 给我们巨大的精神力量, 鼓舞我们前进。 * 统计判别法之一:拉依达准则 如果实验数据的总体x是服从正态分布的,则 根据上式对于大于μ+3σ或小于μ-3σ的实验数据作为异常数据,予以剔除。 剔除后,对余下的各测量值重新计算偏差和标准偏差,并继续审查,直到各个偏差均小于3σ为止。 无需查表,使用简便 对某一长度L测量10次,其数据如下: 试用拉依达准则剔除坏值。 解: 20.33不能用拉依达准则剔除 次数 1 2 3 4 5 6 7 8 9 10 L(cm) 10.35 10.38 10.3 10.32 10.35 10.33 10.37 10.31 10.34 20.33 对某一长度L测量10次,其数据如下: 试用拉依达准则剔除坏值。 解: 20.33用拉依达准则剔除 次数 1 2 3 4 5 6 7 8 9 10 11 L(cm) 10.35 10.38 10.3 10.32 10.35 10.33 10.37 10.31 10.34 20.33 10.37 对于服从正态分布的测量结果,其偏差出现在±3σ附近的概率已经很小,如果测量次数不多,偏差超过±3σ几乎不可能,因而,用拉依达判据剔除疏失误差时,往往有些疏失误差剔除不掉。 另外,仅仅根据少量的测量值来计算σ,这本身就存在不小的误差。 因此拉依达准则不能检验样本量较小的情况。(显著性水平为0.1时,n必须大于10) 统计判别法之二:肖维勒准则 肖维勒准则又称为等概率原则,以正态分布为前提, 假设多次重复测量所得n个测量值中, 某个测量值的残余误差|vi|= Zcσ,则剔除此数据。 实用中Zc3, 所以在一定程度上弥补了3σ准则的不足,另外考虑了测量次数的因素,在一定程度上比拉依达准则更合理。 Zc是一个与测量次数相关的系数,可以查表获取。 肖维勒准则可用于n10时粗大误差的判定。 Zc系数表 n Zc n Zc n Zc 3 1.38 11 2.00 25 2.33 4 1.54 12 2.03 30 2.39 5 1.65 13 2.07 40 2.49 6 1.73 14 2.10 50 2.58 7 1.80 15 2.13 100 2.80 8 1.86 16 2.15 9 1.92 18 2.20 10 1.96 20 2.24 统计判别法之三:格拉布斯准则 格拉布斯准则是在未知总体标准差情况下,对正态样本或接近正态样本异常值的一种判别方法。 某个测量值的残余误差|vi|= Tσ,则判断此值中含有粗大误差, 应予剔除。 T值与重复测量次数n和置信概率α均有关,因此格拉布斯准则是比较好的判定准则。 格拉布斯准则理论较严密,概率意义明确,可用于严格要求的场合,当n=20-100时,判别效果较好。 T值通过查表获得。 T0(n, α)值表 采用格拉布斯方法判定异常数据的过程如下: 1. 选定危险率α α是一个较小的百分数,例如1%,2.5%,5%,它是采用格拉布斯方法判定异常数据出现误判的几率。 2. 计算T值 ?如果x(n)是可疑数据,则令 3. 根据n及α,查表得到T0(n, α)值 4. 如果T≥ T0(n, α),则所怀疑的数据是异常数据,应予剔除。如果T0(n, α) ,则所怀疑的数据不是异常数据,不能剔除。 5. 余下数据重复操作至无异常数据 格拉布斯准则可以检验较少的数据 狄克逊准则 亦称Q检验法,狄克逊准则是通过极
文档评论(0)