- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
非参数统计讲义精选
第一章 绪 论
本章主要内容: 1.非参数方法介绍
2.预备知识
第一节 非参数方法介绍
一. 非参数方法的概念和实例
复习参数方法定义:设总体X的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。
先来看两个实例。
例1.1 供应商供应的产品是否合格?
某工厂产品的零件由某个供应商供应。合格零件标准长度为(8.5±0.1)cm。这也就是说合格零件长度的中心位置为8.5cm,允许误差界为0.1cm,即长度在8.4-8.6cm之间的零件是合格的。为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X见第一章附表1.1。
解答:
根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否?
用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X服从正态分布,即
~
其中两个参数均未知,但可用样本均值估计,样本方差估计。
由已知的数据计算可得:零件的平均长度,即样本均值为=8.4958cm,样本标准差为s=0.1047cm。
则零件合格的可能性近似等于
这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。
但这个结论与实际数据符不符合呢?这是我们要思考的问题。
我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。
观察到:在这100个零件中有91个零件的长度在8.4cm~8.6cm之间,所以零件合格的比例为91%,超过66%很多!
统计分析的结论与数据不吻合的!这是什么原因呢?
我们可以作出数据的直方图来分析数据的分布情况。由图知,该数据的总体不是近似服从正态分布的!所以我们对于数据的总体分布的假设错了!问题就出在假设总体是正态分布上!继续看直方图,能否很容易就观察出来它大概是什么分布呢?答案是不易看出,所以试图先确定数据的分布函数,再利用参数的方法来分析是不太容易的。
例1.2 哪一个企业职工的工资高?
这里有22名职工的工资情况,其中的12名职工来自企业1,另外的10名职工来自企业2。他们的工资(单位:千元)如附表1.2。
仅从数据来看,显然企业1职工的工资较高。
根据我们已学过的参数统计的方法,这个问题用什么方法来解决呢?(提问)
采用参数数据分析方法,假设企业1和企业2职工的工资分别服从正态分布 和 ,则该问题转化为假设检验问题:
,
即两样本t检验。
计算可得,检验统计量的值 t=1.282。
若取α=0.05,其临界值为,不能拒绝原假设,即认为二者没有区别;
若取α=0.10,其临界值为,仍不能拒绝原假设!计算p值得到的结论也一样。
这个统计分析的结论显然与数据不吻合!之所以有问题,就是因为假设职工的工资服从正态分布的缘故。一般来说,工资、收入等的分布是不对称的,并且有一部分人的工资比较高,所以分布的右边有较长的尾巴。
对于以上的这样的问题,若想用参数数据的分析方法,就不能再假设总体服从正态分布,必须给它们赋一个较合理的分布函数,做到这点对于很多实际问题上是难度比较大的。除了这个办法之外,我们还可以用另外的处理办法,例如,非参数统计、参数和非参数方法相结合等等。这门课,我们主要讨论非参数方法。
二. 非参数统计方法特点
1.非参数统计方法通常称为“分布自由”的方法,即非参数数据分析方法对产生数据的总体的分布不做假设,或者仅给出很一般的假设,例如连续型分布、对称分布等一些简单的假设,结果一般有较好的稳定性。所以适用范围非常宽泛。
在经典的统计框架下,正态分布一直是最引人注目的,但是对总体的分布不是随便做出来的,如以上两例,盲目地做出正态分布的假设有时候是起反作用的。
当数据的分布不是很明确,特别当样本含量不大,几乎无法对分布作推断的时候,此时使用参数方法就有一定的风险,我们就可以考虑用非参数的方法。
但要注意,非参数方法是与总体分布无关,而不是与所有分布无关!
2.非参数统计可以处理所有类型的数据。我们知道,统计数据按照数据类型可以分为两大类:定性数据和定量数据。一般地,参数统计是处理定量数据,如果所收集到的数据不符合参数模型的假定,比如:数据只有顺序,没有大小,则很多参数模型无能为力,此时只能尝试非参数方法。例如:研究急性白血病患儿血液中血小板数与出血症状之间的关系。血小板数可用数据衡量,但出血症状则只能分为:明显、较明显、有出血点和无这4类。类似于这样的“等级资料”
您可能关注的文档
最近下载
- 猎豹-CS10-产品使用说明书-2.0T 6MT至尊版 -CFA6460AQ-CS10用户手册1.pdf VIP
- 2024年湖北省生态环境监测专业技术人员大比武竞赛考试题库(含答案).docx VIP
- 加油站安全生产考试题及答案.docx VIP
- 迅达9300扶梯安装说明.pdf VIP
- 医院信息化管理资金申请报告.docx
- 台达变频器cp2000使用说明书新.pdf
- 第三届全国沼气生产职业技能竞赛广西夺冠-农业部.PDF VIP
- GB15558.3__燃气用埋地聚乙烯(PE)管道系统 第3部分:阀门.pdf VIP
- 高速公路项目危险源及重大危险源清单.docx VIP
- 2025年交管12123驾驶证学法减分题库含答案大全.pdf
文档评论(0)