- 1、本文档共37页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章虚拟变量回归
经典线性回归模型默认回归系数为常数,没有考虑不同类别观测值对应的回归系数可能是有差别的,即没有把相关的定性影响因素引入到模型中来。例如,研究居民的消费行为时,构建如下模型:
其中,Y为消费支出;X为收入。该模型默认城镇居民和农村居民的消费行为是无差异的,但如果城乡居民的消费行为存在差异,则对上述模型直接采用OLS估计,结果将是不精确的。为了有效的将定性影响因素反映到回归模型中,就需要采用虚拟变量方法。
第八章 虚拟变量回归
第一节 虚拟变量
第二节 虚拟解释变量的回归
第三节 虚拟被解释变量的回归
第四节 案例
第一节 虚拟变量
一、虚拟变量(Dummy Variables)定义
定义:就是用一个取值为0和1的变量来表示定性变量中的一个属性类别,1表示出现该属性,0表示没有出现该属性。虚拟变量也叫设计变量(Design Variables,Hosmer Lemeshow,1989)、代理变量(Proxy Variables,Kennedy,1981)等。
作用:回归分析中,虚拟变量方法可有效的衡量诸如性别、战争、地震、政治动乱、经济政策变化及季节等定性变量对因变量的影响。
二、虚拟变量设置规则
如果研究的定性变量包含M个类别,将构建个M-1个虚拟变量,省略的那个类别可视为参照组。
如在消费模型中,考虑区域因素(东部,中部,西部)影响,可构建2个虚拟变量:
注:
如果针对包含M个类别的定性因素构造M个虚拟变量,则会陷入虚拟变量陷阱(Dummy Variable Trap),即由于
而带来了完全的多重共线性。
在没有截距项的模型中,对于包含M个类别的定性因素,构建M个虚拟变量虽不会产生虚拟变量陷阱,但此时检验截距的差值将变的更困难,而且没有截距项时怎样计算 也没有一个一致同意的方法,所以该方法很少人使用(Jeffrey M. Wooldridge,2000)。
第二节 虚拟解释变量模型
采用虚拟变量可有效的衡量不同观测类别对应回归参数的差异性,其中以加法方式引入虚拟变量可以反映不同类别对应截距的不同,以乘法方式引入虚拟变量可以反映不同类别对应斜率的不同。
一、加法模型
以加法方式引入虚拟变量,即将虚拟变量当作自变量直接引入模型。
研究居民的消费行为时,考虑居民来源(城镇、农村)这个因素,则需构建虚拟变量:
加法模型:
如果该模型设定正确,则有 ,此时有:
可见,截距虚拟变量D的系数 反映了城乡居民之间自发性消费水平的差异。
二、乘法模型
以乘法方式引入虚拟变量,即将虚拟变量与解释变量乘积项当作自变量直接引入模型。
在消费模型中以乘法方式引入虚拟变量,即引入虚拟变量和自变量的交互乘积项DX :
如果该模型设定正确,此时有:
可见,城镇居民的边际消费倾向为 ,农村居民的边际消费倾向为 。
如果不同属性类别对应的截距项和斜率项都是有差异的,可在回归模型中同时引入虚拟变量的加法方式和乘法方式,结果如下:
对于城镇居民和农村居民这两个类别,有总体回归函数如下:
可见, 和 分别表示城镇居民与农村居民的消费函数在截距和斜率上的差异。
注:
对于包含多个类别(M个)的属性变量,构建M-1个虚拟变量,如在消费模型中,考虑区域因素(东部,中部,西部)影响,可构建2个虚拟变量:
若考虑不同区域居民对应回归模型截距的不同,可构建模型如下:
则有:
如果模型中包含不止一个定性变量,利用虚拟变量还可以研究定性变量对因变量的交互影响。如在消费模型中,同时考虑性别(男,女)和来源(城镇,农村)两个因素,构建虚拟变量如下:
可以加法方式引进两个虚拟变量的交互乘积项 ,构建模型如下:
则有:
可见, 反映性别的影响, 反映了居民来源影响,而 反映了性别和来源的交互影响。
对于定序尺度的定性变量,如果所分等级不多,也可根据虚拟变量个数比分类数少一的原则引进虚拟变量。例如,考虑教育背景(大学以下,大学,大学以上)因素对居民消费的影响,可构建2个虚拟变量:
如果定序变量所分等级过多,则很难对每个水平都包括进来一个虚拟变量。此时,可将定序变量分为几个类别,再构建虚拟变量(Jeffrey M. Wooldridge,2000)。
虚拟变量不仅可以代表质的因素,还可以代表数量因素。在经济关系中常有这样的现象:当自变量X的值达到某一水平X*之前,与因变量Y存在某种线性关系;当自变量X的值达到某一水平X*之后,与因变量Y的关系就会发生变化。这就是所谓的分段线性回归(Piecewise Linear Regression)。此时,可设定虚拟变量:
构建包含门槛水平 X*的分段线性回归模型:
于是有两个不同阶段的回归函数:
显然,虚拟变量方法可有效的实现分段回归,其中两阶段的截距分别为 和 ,斜率分别为 和
文档评论(0)