第6讲 相关与回归.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6讲 相关与回归

线性相关和回归 赵耐青 在实际研究中,经常要考察两个指标之间的关系,即:相关 性。现以体重与身高的关系为例,分析两个变量之间的相关性。 要求身高和体重呈双正态分布,既:在身高和体重平均数的附近 的频数较多,远离身高和体重平均数的频数较少。 样本相关系数计算公式(称为Pearson 相关系数): 1. 考察随机模拟相关的情况。 显示两个变量相关的散点图程序simur.ado(本教材配套程序,使用见 前言)。命令为simur 样本量总体相关系数 如显示样本量为100,?=0 的散点图 本例命令为simur 100 0 ( ) ( ) ( )( ) 2 2 XX YY XY L L L X X Y Y X X Y Y r ? ? ? ? ? ? ? ? ? (1) 如显示样本量为200,?=0.8 的散点图 本例命令为simur 200 0.8 y1 y2 -4 -2 0 2 4 -4 -2 0 2 如显示样本量为200,?=0.99 的散点图 本例命令为simur 200 0.99 y1 y2 -4 -2 0 2 -2 -1 0 1 2 y1 y2 -4 -2 0 2 4 -4 -2 0 2 4 如显示样本量为200,?=-0.99 的散点图 本例命令为simur 200 -0.99 y1 y2 -4 -2 0 2 4 -4 -2 0 2 4 例1. 测得某地15 名正常成年男子的身高x(cm)、体重y(kg)如 试计算x 和y 之间的相关系数r 并检验H0:?=0 vs H1: ??0。 ?=0.05 数据格式为 Stata命令pwcorr 变量1 变量2 … 变量m ,sig 本例命令pwcorr x y,sig pwcorr x y,sig | x y -------------+------------------ x | 1.0000 | | y | 0.5994 1.0000 | 0.0182 | Pearson 相关系数=0.5994,P 值=0.01820.05,因此可以认为身高与体 重呈正线性相关。 X Y 171.0 58.0 176.0 69.0 175.0 74.0 172.0 68.0 170.0 64.0 173.0 68.5 168.0 56.0 172.0 54.0 170.0 62.0 172.0 63.0 173.0 67.0 168.0 60.0 171.0 68.0 172.0 76.0 173.0 65.0 注意:Pearson 相关系数又称为线性相关系数并且要求X 和Y 双正态 分布,通常在检查中要求X 服从正态分布并且Y 服从正态分布。 如果不满足双正态分布时,可以计算Spearman 相关系数又称为非参 数相关系数。 Spearman 相关系数的计算基本思想为:用X 和Y 的秩代替它们的原 始数据,然后代入Pearson 相关系数的计算公式并且检验与Pearson 相关系数类同。 Stata 实现 spearman x y Number of obs = 15 Spearmans rho = 0.6552 Test of Ho: x and y are independent Prob |t| = 0.0080 stata 计算结果与手算的结果一致。结论为身高与体重呈正相关,并且 有统计学意义。 直线回归 例2 为了研究3 岁至8 岁男孩身高与年龄的规律,在某地区在3 岁 至8 岁男孩中随机抽样,共分6 个年龄层抽样:3 岁,4 岁,…,8 岁,每个层抽10 个男孩,共抽60 个男孩。资料如下: 60 个男孩的身高资料如下 年龄3 岁4 岁5 岁6 岁7 岁8 岁 身 高 92.5 96.5 106.0 115.5 125.5 121.5 97.0 101.0 104.0 115.5 117.5 128.5 96.0 105.5 107.0 111.5 118.0 124.0 由于男孩的身高与年龄有关系,不同的年龄组的平均身高是不同 的,由平均身高与年龄作图可以发现:年龄与平均身高的点在一条直 线附近。 age height Fitted values 2 4 6 8 90 100 110 120 130 考虑到样本均数存在抽样误差,故有理由认为身高的总体均数与 年龄的关系可能是一条直线关系? ?? ? ? x,其中y 表示身高,x 表示y 年龄。由于身高的总体均数与年龄有关,所以更正确地标记应为 ? ?? ? ? x y|x 表示在固定年龄情况下的身高总体均数。 上述公式称为直线回归方程。其中?为回归系数( regression coefficient),或称为斜率(slope); ?称为常数项(constant), 或称为 96.5 102.0 109.5 110.0 117.

文档评论(0)

cgtk187 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档