第九章含虚拟变量的回归模型.doc

下载文档

41
0
约4.11千字
约 8页
2016-04-28 发布于重庆
举报
版权申诉
保障服务

第九章含虚拟变量的回归模型.doc

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第九章含虚拟变量的回归模型

第九章含虚拟变量的回归模型目前为止，在已学习的线性回归模型中，解释变量X都是定量变量。但有时候，解释变量是定性变量。 9.1 虚拟变量的性质通常在回归分析中，应变量不仅受一些定量变量的影响，还受一些定性变量的影响(性别、种族、肤色、宗教、民族、罢工、政团关系、婚姻状况)。如：美国黑人的收入比相应的白人的收入低。女学生的S.A.T.的数学平均分数比相应的男生低。定性变量通常表明了具备或不具备某种性质，比如，男性或女性，黑人或白人，佛教徒或非佛教徒，本国公民或非本国公民。把定性因素“定量化”的一个方法是建立人工变量，并赋值0和1，0表示变量不具备某种属性，1表示变量具备某种属性，该变量称为虚拟变量(dummy variable)，用符号D表示。虚拟变量一样可用于回归分析，一个回归模型的解释变量可以仅仅是虚拟变量，称为方差分析模型( ANOVA )。 Yi = B1 + B2Di + ui ( 9 - 1 ) 其中Y = 初职年薪 Di =1，大学毕业 =0，非大学毕业假定随机扰动项满足古典线性回归模型的基本假定，根据模型( 9 - 1 )得到：非大学毕业生的初职年薪的期望为： E(Yi｜Di=0) = B1 + B2( 0 ) = B1 ( 9 - 2 ) 大学毕业生的初职年薪的期望为： E(Yi｜Di=1) = B1+B2( 1 ) = B1+B2 ( 9 - 3 ) 可以看出：截距B1表示非大学毕业生的平均初职年薪， “斜率”系数B2表明大学毕业生的平均初职年薪与非大学生的差距是多少； (B1+B2)表示大学毕业生的平均初职年薪。零假设：大学教育没有任何益处(即B2=0)，可根据t检验值判定b2是否是统计显著的。例9.1 大学毕业生和非大学毕业生的初职年薪模型( 9-1 ) OLS回归结果如下： Yi = 18.00 + 3.28Di ( 9 - 4 ) se = (0.31) (0.44) t = (57.74 ) (7.444) p值= ( 0.000 ) (0.000) r2=0.8737 估计的非大学毕业生的平均初职年薪为18000美元(=b1)，大学毕业生的平均初职年薪为21280美元(b1+b2)。根据括号中的t值，很容易验证b2是统计显著的，表明非大学毕业生和大学毕业生的初职年薪有差距。图9-1描绘了回归结果，回归函数是一个分段函数。在社会学、心理学、教育学领域，ANOVA模型用得很广泛，而经济学中很少。在许多经济研究中，回归模型中的解释变量有些是定量的，有些是定性的，称为协方差模型( ANCOVA )。 9.2 包含一个定量变量，一个定性变量的回归模型 Yi=B1 + B2Di + B3Xi + ui ( 9 - 6 ) 其中 Yi — 公司职员的年薪 Xi — 工龄 Di =1，女职员 =0，男职员模型( 9 - 6 )包含了一个定量的变量X(工龄)和一个定性变量(性别)。假定E(ui) = 0，则，男职员平均年薪： E (Yi｜Xi，Di= 0) = B1 + B3Xi ( 9 - 7 ) 女职员平均年薪： E (Yi｜Xi，Di= 1) = (B1 + B2) + B3Xi ( 9 - 8 ) 图9 - 2描绘了这两种不同的情况。(假定B1 0 ) 模型( 9 - 6 )表明男、女职员的平均年薪对工龄的函数具有相同的斜率(B3)，但截距不同。即男职员的平均年薪水平与女职员不同(多了B2)，但男、女职员平均年薪对工龄的变化率相同。零假设：回归方程( 9 - 7 )和( 9 - 8 )有相同的截距(也即没有性别歧视)。再根据t检验结果判定b2的统计显著性。考虑：能否引入关于性别的两个虚拟变量？模型( 9 - 6 )可写为： Yi=B1 + B2Xi + B3D1i + B4D2i + ui ( 9 - 9 ) D1i =1，男职员 =0，女职员 D2i =1，女职员 =0，男职员无法估计模型( 9 - 9 )，因为D1i与D2i存在完全共线性(即完全的线性关系)。很容易验证： D1= ( 1-D2)或D2= 1－D1，也即D1，D2完全共线性。避免完全共线性问题的一般规则是：如果一个定性的变量有m类，则要引进(m-1 )个虚拟变量。如果不遵循这个规则，就会陷入虚拟变量陷阱(dummy variable trap)，也即完全多重共线性情形。虚拟变量的赋值是任意的。例子中令D= 1，代表女职员，D= 0，代表男职员；赋值可根据习惯而定。赋值为0的一类常称为基准类，对比类；(共同的)截距B