吴喜之r软件教程——列联表.pptxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
列联表数据的相关和对数线性模型 吴喜之例7.1 (数据change2.txt)这是对某地区一个行业员工的调查数据中三个问题所组成的列联表。这里的三个问题是,“你的年龄”(三个范围选一项:在数据中代码“1”代表小于30岁,“2”代表30-40岁,“3”代表40岁以上),“你的教育程度”(三个范围选一项:在数据中代码“1”代表“本科以上”,“2”代表“专科”,“3”代表“专科以下”),“你是否想跳槽”(三个范围选一项:在数据中代码“1”代表“想跳槽”,“2”代表“不想跳槽”,“3”代表“没想过跳槽”)。下面是涉及这三个问题的列联表。列联表简介问卷调查是产生列联表(contingency table)的一大来源。例7.1就是这种源于调查数据而产生的一个列联表。这里,所涉及的问题有三个;其中“教育程度”有三个选项,或三个水平(level),“年龄”有两个选项,“是否想跳槽”有三个水平。这种列联表称为3×3×3列联表,有33=27个组合(格子数目);而这27种组合的频数(或计数)就是该列联表的27个格子中的数目。这三个问卷问题就是这个列联表中的三个变量(也称为因子);变量的个数就是列联表的维数。例7.1的列联表有三个变量,因此就是一个三维列联表。列联表简介注意,问卷如果包含多选题,则处理时还要转换成单选题来处理。比如一个问卷问题是在4种爱好中选择(可以多选),那么在数据处理时必须换成4个单选问题,每个问题针对一个爱好(最多只有:“是”,“否”和“不知道”三种选择之一)。因此在设计问卷时尽量避免多选题。实际上,多选题的选项通常没有诸如教育和年龄这样的“序”或“程度”的意义,因此换成多个问题不但易于回答,而且减少了整理数据的麻烦,也不会影响分析结果。此外,在调查问卷中尽量不要给出作文式的问答题;问答题很难进行有效率的数据处理。 列联表简介对二维列联表行变量和列变量之间各个水平之间的关系进行直观描述的一个方法是多元分析里面的对应分析(correspondence analysis)方法。这里仅仅就上面例7.1中的年龄和是否想跳槽各水平之间的关系做一个对应分析所产生的图(图7.1)[1]。该图为二维的,横坐标所表明的关系比纵座标要重要得多。[1] 在R软件中,用x=read.table(f:/hepbook/data/change2.txt,header=T)读入数据,而提出教育程度和是否想跳槽的二维表用y1=xtabs(Freq~Edu+Change,data=x);然后把代码换成中文:dimnames(y1)$Edu=c(大学,大专,中小)、dimnames(y1)$Change=c(跳槽,不跳槽,没想),最后进行对应分析和画图:library(MASS); biplot(corresp(y1, nf=2))。用corresp(y1, nf=2)可以看出图中两维所代表的相关性。年龄和是否想跳槽各水平之间的关系的根据对应分析结果所产生的图。 相应于图7.1:从图7.1的横坐标可以看出,大学和大专更接近于跳槽,而中小学历的职工更接近于没有想或不跳槽。横坐标反映的行列变量的相关性为0.140,而纵坐标反映的行列变量的相关性为0.055。因此不必要看纵座标所反映的关系。实际上,画二维图仅仅是为了直观上的方便;因此无论第二维的关系是否重要,都画了出来。当然,这种图仅仅是描述性的。下面介绍数值上的关于行列变量的相关性检验。 二维列联表的检验这里我们主要想关心二维列联表两个变量之间的相关性。就例7.1来说,我们关心教育程度或年龄与跳槽之间的关系。这样的关系可以通过所谓Pearson c2检验来判断。这里的检验的零假设为两个变量不相关,而备选假设为它们相关。对于年龄和是否想跳槽的二维列联表;检验的零假设和备选假设为H0:年龄和跳槽这两个变量不相关 H1:这两个变量相关。这个检验所用的统计量是Pearson c2检验统计量。在大样本时,该统计量在零假设下有近似的c2分布。如果该统计量很大,使得p值很小,那么就可以拒绝零假设。就例7.1的上面关于跳槽和年龄的关系而言,容易得到[1],p值为0.002279。因此,可以对任何大于p值的显著性水平拒绝零假设。这说明年龄和是否想跳槽很相关。[1] 在R软件中用x=read.table(f:/hepbook/data/change2.txt,header=T)读入数据,而提出年龄和是否想跳槽的二维表用使用语句y2=xtabs(Freq~Age+Change,data=x),然后用chisq.test(y2)得到Pearson c2检验的p值。二维列联表的检验类似地,可以进行关于教育程度和是否想跳槽是否相关的检验;检验的零假设和备选假设为H0:教育程度和跳槽这两个变量不相关 H1:这两个变量相关。可以得到p值为[1

文档评论(0)

zhuliyan1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档