自变量选择和逐步回归.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自变量选择和逐步回归

自变量选择与逐步回归 一、全模型和选模型 设研究某一实际问题,涉及对因变量有影响的因素共有m个,由因变量y和m个自变量构成的回归模型称为全模型。 如果从可供选择的m个变量中选出p个,由选出的p个自变量组成的回归模型称为选模型。 二、自变量选择对预测的影响 自变量选择对预测的影响可以分为两种情况考虑,第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而无用了全模型。以下是这两种情况对回归的影响。 1、全模型正确而误用选模型的情况 性质1,在与的相关系数不全为0时,选模型回归系数的最小二乘估计是全模型相应参数的有偏估计,即() 性质2,选模型的预测是有偏的。 性质3,选模型的参数估计有较小的方差。 性质4,选模型的预测残差有较小的方差。 性质5,选模型的均方误差比全模型预测的方差更小。 性质1和性质2表明,当全模型正确时,而舍去了m-p个自变量,用剩下的p个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计,用其做预测,预测值也是有偏的。这是误用选模型产生的弊端。 性质3和性质4表明,用选模型去作预测,残差的方差比用全模型去作预测的方差小,尽管用选模型所作的预测是有偏的,但得到的预测残差的方差下降了,这说明尽管全模型正确,误用选模型是有弊也有利的。 性质5说明,即使全模型正确,但如果其中有一些自变量对因变量影响很小或回归系数方差过大,丢掉这些变量之后,用选模型去预测,可以提高预测的精度。由此可见,如果模型中包含了一些不必要的自变量,模型的预测精度就会下降。 2、选模型正确而误用全模型的情况 全模型的预测值是有偏估计;选模型的预测方差小于全模型的预测方差;全模型的预测误差将更大。 一个好的回归模型,并不是考虑的自变量越多越好。在建立回归模型时,选择自变量的基本知道思想是少而精。丢掉了一些对因变量y有影响的自变量后,所付出的代价是估计量产生了有偏性。然而,尽管估计是有偏的,但预测偏差的方差会下降。另外,如果保留下来的自变量有些对因变量无关紧要,那么,方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。因此,在建立实际问题的回归模型时,应尽可能剔除那些可有可无的自变量。 三、所有子集回归 1、所有子集的数目 设在一个实际问题的回归建模中,有m个可供选择的变量,由于每个自变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有-1个,这里-1是要求回归模型中至少包含一个自变量,即减去模型中只包含常数项的这一种情况。如果把回归模型中只包含常数项的这一种情况也算在内,那么所有可能的回归方程就有个。 从另一个角度看,选模型包含的自变量数目p有从0到m共有m+1种不同的情况,而对选模型中恰包含p个自变量的情况,从全部m个自变量中选p个的方法共有线性组合个,因而所有选模型的数目为:。 2、关于自变量选择的几个准则 把选模型的残差平方和记为,当再增加一个新的自变量时,相应的残差平方和记为。根据最小二乘估计的原理,增加自变量时残差平方和将减少,减少自变量时残差平方和将增加。因此有,它们的负决定系数分别为:,,由于SST是因变量的离差平方和,与自变量无关,因而有,即当自变量子集在扩大时,残差平方和随之减少,而复决定系数随之增大。因此,如果按残差平方和越小越好的原则来选择自变量子集,或者为提高复决定系数,不论什么变量只要多取就行,则毫无疑问选的变量越多越好。这样由于变量的多重共线性,给变量的回归系数估计值带来不稳定性,加上变量的测量误差积累,参数数目的增加,将使估计值的误差增大。因此,从数据与模型拟合优劣的直观考虑出发,认为残差平方和SSE最小的回归方程就是最好的,还曾用负相关系数R来衡量回归拟合好坏都不能作为选择变量的准则。 准则一:自由度调整复决定系数达到最大。 当给模型增加自变量时,复决定系数也随之逐步增大,然而复决定系数的增大代价是残差自由度的减少,因为残差自由度等于样本个数与自变量个数之差。自由度小意味着估计和预测可靠性低。设为自由度调整后的复决定系数,其中,n为样本容量,p为自变量的个数。在实际问题的回归建模中,自由度调整复决定系数越大,所对应的回归方程越好。则所有回归子集中最大者对应的回归方程就是最优方程。 从另外一个角度考虑回归的拟合效果,回归误差项的无偏估计为: ,此无偏估计式中也加入了惩罚因子n-p-1,实际上就是用自由度n-p-1作平均的平均残差平方和。当自变量个数从0开始增加时,SSE逐渐减小,作为除数的惩罚因子n-p-1也随之减小。当自变量个数从0开始增加时,先是开始下降然后稳定下来,当自变量个数增加到一定数量后,又开始增加。这是因为刚开始时,随着自变量个数增加,SSE能够快速减小,虽然作为除数的惩罚因子n-p-1也随之减小,但由于SSE减小的速度更快,因而是趋于减小的。当自变量数目增加到一

文档评论(0)

ktj823 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档