语言统计第十二章卡方检验.pptVIP

下载本文档

5
0
约4.07千字
约 28页
2018-02-03 发布于浙江
举报
版权申诉

语言统计第十二章卡方检验.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语言统计第十二章卡方检验

第十二章卡方检验第一节　　卡方分布在讨论卡方检验之前，我们先简要讨论一下卡方分布。卡方分布是一个正偏态分布。它的形状取决于自由度的大小：自由度越小，偏斜度越大，随着自由度的增大，它逐渐接近正态分布，当自由度趋于无限大时，它就与正态分布相同。因此，卡方分布属一族分布，正态分布是它的一个特殊分布。第二节　　卡方检验卡方检验的用途是比较称名变量的次数，具体来讲，就是比较实际次数与期望次数（或理论次数）之间是否有显著差异。期望次数是指根据某种理论模式，或根据对某种特征的分布所作的假设而期望得到或应该得为希腊字母，到的次数。实际次数与期望次数差别越大，卡方值（χ2 ，χ为希腊字母，读作chi）就越大。第三节卡方检验的用途卡方检验主要有三个用途：适合性检验、正态性检验以及独立性检验。一、适合性检验适合性检验为单样本卡方检验，它只涉及一个变量，但数据要分成若干相互排斥的组或范畴。其目的是检验实际次数与期望次数是否吻合。如果值很大，就说明两者差异大，不吻合，反之就说明两者差异小，较为一致。通过检验，就可以知道两者之差异是否有显著意义，即是否可以推翻零假设。二、正态性检验在语言研究中，由于许多参数检验都要求样本所来自的总体呈正态（如t检验）因此在进行这些检验之前，经常需要先检验一下样本是否真正来自正态分布总体。除了在第五章里介绍的方法之外，我们还可以用卡方检验。但是使用卡方检验进行正态性检验要求样本比较大。三、独立性检验独立性检验就是检验两个特征或两个分类标准是互相独立的还是互有联系的。用于独立性检验的数据一般整理成“列联表”的形式，即一个分类标准把数据分为若干列，另一个分类标准把数据分为若干行，行列交叉形成一个个的方格。每一行和每一列都有一个总计，书写在一行或一列的末尾，称为“边际总和”。所有边际总和加起来就是全部数据的个数或样本容量（ N）。第四节　亚茨校正法在独立性假设成立时， χ2 接近卡方分布，如果期望次数较大，而且列联表大于2×2 ，χ2就十分接近卡方分布，卡方检验就比较可靠。否则，如果期望次数过小（低于 5），列联表为 2×2 （自由度为 1） χ2就会偏大，其分布就会偏离卡方分布，卡方检验也就不太可靠。在这种情况下，最好使用 “连续性校正” ，即通常所说的 “亚茨校正法” 。其实，对于2×2列联表，当期望次数不是很大时，最好都进行校正。小结作为非参数检验，卡方检验没有严格的使用条件，只要样本为随机样本即可。卡方分布属一族分布，正态分布是它的一个特殊分布。卡方检验的用途是比较称名变量的次数，具体来讲，就是比较实际次数与期望次数（或理论次数）之间是否有显著差异。期望次数是指根据某种理论模式，或根据对某种特征的分布所作的假设而期望得到或应该得到的次数。卡方检验主要有三个用途：适合性检验、正态性检验以及独立性检验。 * * 第一节卡方分布第二节卡方检验第三节卡方检验的用途一、适合性检验二、正态性检验三、独立性检验第四节亚茨校正法在语言研究中，除了等距变量、顺序变量等变量之外，我们还会经常与称名变量打交道。这类变量是范畴型的或“是一非”型的，无法用某种单位进行测量。比如，英语中的词汇可以分为“动词”与“非动词”，名词可以分为“可数”与“不可数”，学生可以分为“男生”与“女生”等，这些都无法像测量学生的成绩那样进行测量。但是，我们可以对这类变量的次数或频率进行计数，比如冠词the、介词of、连接词and等在某文本中出现的次数，并比较次数的分布是否存在显著差异等。这就要用到卡方检验，因此，卡方检验是语言研究中最常用的非参数检验之一。计算卡方值的基本公式为 (12.1) 式中 O——实际次数或观测次数； E——期望次数或理论次数。需要注意的是，在计算χ2时，只能用次数，而不能用比例。比如，在一个100个词长的文本中，有20 个定冠词，占总词数的20%但在计算χ2值时，只能用20作为实际次数，而不能用20%或0.2。卡方检验的零假设是：实际次数与期望次数之间没有差异，但是对于不同的用途（见下面的讨论），零假设的陈述方法略有不同。卡方检验一般是双尾检验，即其备择假设为：实际次数与期望次数之间有差异（不指出差异的方向）。当然，如果需要，也是能进行单尾检验的，只要把双尾检的显著水平减半即可。附表10 中给出了对应于不同显著水平和自由度的χ2的临界值，如果计算出的 χ2值（检验统计值）大于或等于临界值，就推翻零假设。例如，在一个

您可能关注的文档

文档评论（0）

jiupshaieuk12 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6212135231000003

1亿VIP精品文档

更多 >

语言统计第十二章卡方检验.pptVIP