第2章-分类数据的检验.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
带参数的分类数据的检验 【例】按性别和是否色盲将随机调查1000人进行分类,结果为:男性正常、女性正常、男性色盲、女性色盲各有442人、514人、38人、6人。 根据遗传学理论,男性正常、女性正常、男性色盲、女性色盲的概率分别为: 其中, 未知, 。 问调查与模型相符吗? 带参数的分类数据的检验 可见,上例中参数是未知的,需要先求p的极大似然估计值。 似然函数为: 得到对数似然方程: 于是求得: 数值迭代算法求参数 在对数似然方程无显式解时,可以使用excel,用数值迭代算法求得参数的极大似然估计值。 具体方法有五个步骤,可以参见教材P26。 本章小结 主要的定性数据的分布类型 二项分布的统计推断 分类数据的检验 带参数的分类数据的检验 第二章 分类数据的检验 在描述分析基础上,进行推断统计分析 参数估计 假设检验 统计推断要求知道统计量的抽样分布 什么是统计量 什么是抽样分布 属性数据的两种重要分布: 二项分布 多项分布 二项分布 属性数据常常来源于每次试验仅有两种试验结果的n次独立重复试验,如成功与失败、合格与不合格、男与女、等等 假设 代表一次试验成功的概率, 代表n次试验中成功的次数,这时 服从指标n以及参数 的二项分布,即 二项分布 二项分布的期望和方差分别为: 当n=1时,二项分布简化为: 即:0-1分布是二项分布的特殊情况 二项分布 【例】假设一次考试有10道选择题,每题有五个选项。一位完全没有准备的学生随机猜测每道题的答案。试问可能回答正确的题数及其概率如何。 【解】结果见表2.1 可以看出,仅当π=0.5时,二项分布才是对称的。 对于固定的n,随着π趋近0或1,二项分布表现越加偏斜。 对于固定的π ,随着n增加,二项分布更趋近钟形。 二项分布 当n很大时,二项分布趋近于均值 , 的正态分布(近似分布)。 原则上,要使二项分布趋近正态分布,要求期望 和 都不小于5。 当π较大时(如0.5),n相对较小(如≥10)就可以满足要求; 当π较小时(如0.1或0.9) ,则要求n取较大的值(如≥50) ,即大样本要求。 多项分布 多项分布是二项分布的推广,其试验结果的类别多于两种,记为 。 令c代表结果的类别数,用 表示每种结果出现的概率,且 对于n次独立试验,具有 次观测落入第1类, 次观测落入第2类……的概率为: 多项分布 显然,当c=2时多项分布简化为二项分布。 通常不需要使用以上多项分布概率公式,只需掌握基于多项分布律的统计量即可。 大部分针对属性数据的方法都假设: 单类别的计数服从二项分布 多类别的计数服从多项分布 任何一个确定类别 计数 具有均值 ,标准差 。 其他分布 超几何分布 设N件产品中有M件次品,从中无放回取n件时所含次品数X是一个随机变量,其概率为: 泊松分布 描述指定时间内,或面积、体积内某一事件出现的个数的分布,其概率为: 二项分布的统计推断 实际中,二项分布和多项分布的参数值未知,需要通过样本数据估计总体参数。 在统计学原理中,可以根据样本比例的抽样分布,用样本比例估计总体比例的区间,或用样本比例的差估计总体比例差。 二项分布的统计推断 需要强调的是,以上方法使用的前提是样本量n要足够大,或者二项比例接近0.5; 否则区间估计的效果将非常差,特别是在二项比例趋近1或0时; 这时,可以采用假设检验(得分检验)的方法来进行参数估计,其效果要优于一般直接采用区间估计的方法。 原因在于:计算样本比例的标准误时,不需要用样本比例作为总体比例的点估计。 二项分布的统计推断 【例】一项新治疗手段在10次试验中有9次成功,试对总体比例进行区间估计(α=0.05)。 【解1】基于直接区间估计方法的结果为: 【解2】运用检验统计量构造区间: 对于给定的p和n,使检验统计量值 的 是下面方程的解. 二项分布的统计推断 对二项参数的假设检验: Wald检验(最简单的方法) 是利用 极大似然(ML)估计值代替真实标准误表达式中的未知参数而构造的统计量 近似服从标准正态分布, 近似服从df=1的卡方分布 称为Wald统计量 二项分布的统计推断 似然比检验 利用似然函数构造似然比统计量,其中分子是原假设成立时似然函数的极大值,分母是不限定参数时似然函数的极大值,形式为: 在原假设成立条件下,该统计量服从df=1的大样本卡方分布 可以利用统计软件计算似

文档评论(0)

mwk365 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档