- 1、本文档共34页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实用社会统计分析技术及spss和stata统计软件操作说明
实用社会统计分析技术 及SPSS和STATA统计软件操作说明 第二讲 一个以上变量的描述统计 考查变量之间的关系 相关系数 回归 相关系数 考查两个事物(在数据里我们称之为变量)之间的关联程度 也就是说,当某一个变量发生变化时,另一个变量会产生什么变化 相关系数是对两个变量之间关系的量度,或者说两个变量变化的共同趋势有多少 皮尔逊相关系数I 如果两个变量都是连续变量(如年龄、身高、收入等),我们采用Pearson product-moment correlation来测量。简称皮尔逊相关系数,其值在-1至+1之间。 皮尔逊相关系数II 如果有两个变量,X、Y 当相关系数为0时,X和Y两变量无关系。 当X的值增大,Y也增大,正相关关系,相关系数在0.00与1.00之间 当X的值减小,Y也减小,正相关关系,相关系数在0.00与1.00之间 当X的值增大,Y减小,负相关关系,相关系数在-1.00与0.00之间 当X的值减小,Y增大,负相关关系,相关系数在-1.00与0.00之间 皮尔逊相关系数III 相关系数的绝对值越大,相关性越强,相关系数越接近于1和-1,相关度越强,相关系数越接近于0,相关度越弱。 通常情况下: 相关系数0.8-1.0为极强相关 0.6-0.8为强相关 0.4-0.6为中等程度相关 0.2-0.4为弱相关 0.0-0.2为极弱相关或无相关 皮尔逊相关系数IV 确定系数和不确定系数 把相关系数加以平方,我们称之为确定系数(coefficient of determination)。确定系数的意思是一个变量的变化有百分之多少可以由另一个变量来解释。 其余的百分之多少不能由这个变量来解释,这就是不确定系数。 例如: 学生的高考成绩的分数与学生每天学习多少小时这两个变量的相关系数是0.7。那么确定系数为0.72,等于0.49。它的意思是说,高考成绩的高低变化(方差variance)有49%是可以由每天学习时间来解释。 如果有49%方差可以解释,那么就还有另外的51%不能解释,不能解释的这部分方差我们称之为异质系数或不确定系数(coefficient of alienation,coefficient of nondetermination) 相关矩阵表(受教育年限、月收入、年龄) 其它类型的相关性测量 用线性回归做预测 我们不仅可以计算两个变量之间的相关程度,而且,基于这种相关性,我们也可以从一个变量的值去预测另一个变量的值。这是相关的另一种应用方式,而且,在社会科学和行为科学中,这种方法是非常常用的工具。 采用这种方法的基本思想是,用收集到的数据,计算两个变量(X和Y)之间的相关,确定两者之间存在相关,然后应用这种相关,在已知X变量的数值情况下去预测Y变量的数值。 最简单的预测模型:线性回归模型 预测的逻辑 预测指的是由目前的状况去推算未来的状况的一种活动,经济学尤其使用多。我们要从一个变量去预测另一个变量,首先要计算这两个变量之间的相关性。 用线性回归做预测 两个变量之间的相关系数越高,从一个变量去预测另一个变量的精确度就越高,这是因为相关系数越高,就意味着这两个变量的共变部分越多,所以从其中一个变量的变化就可越多地获知另一个变量的变化。如果两个变量之间的相关系数为1或-1,那么你完全可由变量X去获知变量Y的值。 举例:高考总分与第一学年各科总分 如何进行这种预测? 三个步骤: 我们把上述提到的Y变量(第一学年的各科成绩总分)称之为因变量(dependent variable)或(criterion),把X变量(高考分数)称之为自变量(independent variable)或(predictor variable)。 我们产生一条上面提到的回归线。回归线是根据已收集到的数据所建立的一个回归方程而得出的。 依据这个方程,每一个X变量的值(预测变量)都可以预测出相应的Y变量的值。 一般化的回归方程的公式 以一个人的高考分数来预测他在大学第一学年的各科总分 比如:有一个学生高考分数为280分,根据回归公式预测出此学生大学第一学年各科总分可能为261分 : Y’=0.704*280+71.977=269 根据这一公式,任何一个X的分值我们都可以预测出它相应的Y的分值。 如何判断我们所做的预测有多准确? 观察用我们得出的回归公式计算出的Y’与实际的Y之间的差距到底有多大 标准误 如果我们把所有这些差距综合考虑,也就是说,把每一个数据点与回归线之间的差距(或者说每一个实际的Y的分值与预测的Y’的分值之间的差距)加以平均,这个平
文档评论(0)