6上机课第5讲 属性数据分析.pptVIP

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 教材的最后一个公式 * 在输入数据集的先后次数是值的大小次序。 * 只要求理解我们讲过的统计量的含义,其它统计量的含义不要求。 * 只要求理解我们讲过的统计量的含义,其它统计量的含义不要求。 * 只要求理解我们讲过的统计量的含义,其它统计量的含义不要求。 * 计算结果如下: Fisher精确检验: 两侧检验(2-Tail) 左侧检验(left) 右侧检验(right) 两侧检验的p值: * 左侧检验的p值: * 以上的p值都支持工艺和产品质量无关联性的假设. 右侧检验的p值: Fishers Exact Test Cell (1,1) Frequency (F) 141 Left-sided Pr = F 0.3843 Right-sided Pr = F 0.7412 Table Probability (P) 0.1255 Two-sided Pr = P 0.7246 Sample Size = 326 死刑数据:统计检验 * SAS输出结果: 案例5.3 看书P127,数据如下表: 合格 不合格 工艺一 3 4 工艺二 6 4 注:(1)只需在tables语句中加入选项exact,即可输出Fisher精确检验的结果; (2)要输出卡方统计量精确检验的结果需要增加exact语句(如语句exact pchi;). data anli403; input type $ quality $ numcell @@; cards; type1 yes 3 type1 no 4 type2 yes 6 type2 no 4 ; proc freq data=anli403; tables type*quality/ nocol norow chisq expected exact ; weight numcell; exact pchi; run; 程序 三、 有序变量的关联性分析 案例5.4 分析患病程度和牛群大小是否相关 看书P130,数据如下表: 没有(0) 低(1) 高(2) 小 9 5 9 中 18 4 19 大 11 88 136 随着牛群的增大,患病程度是否有增加的趋势? * 1、有序变量的无有序关联检验 ——Mentel-Haenszel检验 当两个属性变量都是有序变量时,我们关心有序变量间是否存在有序关联性,即:随着一个变量取值的增加,另一个变量的取值也有变大(或变小)的趋势. 比如随着学历的提高,犯罪率是否减少. Mentel-Haenszel检验法就是针对以下假设的一种检验方法: 2、有序变量的关联性度量 * 注意: (1)定义中均为严格不等式 ; (2)两个观测可能是一致对、不一致对或二者均不是. 案例5.4 看书P130,数据如下表: 变量为患病程度和牛群大小 没有(0) 低(1) 高(2) 小 9 5 9 中 18 4 19 大 11 88 136 设一致对的总数为P1,不一致对的总数为Q1,则有 * 这几个关联性统计量的取值范围: -1~1; 值接近1时表示正关联; 值接近-1时表示负关联; 值接近0时表示无关联; data ex541; input herdsize $ disease n @@; cards; small 0 9 small 1 5 small 2 9 medium 0 18 medium 1 4 medium 2 19 large 0 11 large 1 88 large 2 136 ; proc freq data=ex541 order=data; tables herdsize*disease/measures expected nopercent norow nocol ; weight n; title奶牛疾病数据; run; 程序 * 注:只需在tables语句中加入选项measures,就可得到这三个统计量,如果需要这些统计量的置信区间,可以再加入选项CL. * 奶牛疾病数据 * 无关联性的卡方检验结果 * 奶牛疾病数据 注:(1)ASE表示统计量标准差的估计值,如果统计量的取值大于2倍的ASE,则可以因为两个变量之间有有序关联; (2)需要关注列联表中变量取值的顺序,若顺序不正确,可能会得到错误的结论或相反的结论. 结论: 因为Kendall的Tau-b的值为0.217,所以随着牛群的增大患病程度也增加; Kendall的Tau-b的95%置信区间为 [0.0984, 0.3362],该置信

文档评论(0)

文档精品 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6203200221000001

1亿VIP精品文档

相关文档