- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
经典线性回归模型自变量选择.doc
§2.9 自变量选择 信息时代的一个重要特征是数据便宜信息值钱,我们经常要从海量数据中挖掘有用信息。比如影响产品质量的因素,从生产过程、员工培训过程到原材料供应过程,可能多达几百个,甚至上千个。对这些质量指标和影响因素制造商在日常生产管理过程中都有记录。现在的问题是如何从这众多的影响因素中找出影响产品质量的重要因素。有时只需判断一个自变量对因变量是否有重要影响,而不需要了解它们之间的精确定量关系。比如判断原材料供应对产品质量是否有重要影响比了解它们之间的精确定量关系更重要。线性回归模型的自变量选择就是用于有众多自变量时识别重要自变量的方法。用于线性回归模型自变量选择的方法可分为两类:全局择优法和逐步回归法。 一、全局择优法 全局择优法就是用衡量回归模型与数据拟合程度的准则,从全部可能的回归模型中选择对数据拟合最优的回归模型。对于一个包含P个自变量的回归问题,全部可能的回归模型有个,全局择优法要求出每个回归模型的准则 值,然后找出最优的回归模型。 回归模型对数据的拟合程度可用残差平方和来表示。残差平方和越小,模型拟合的越好。但残差平方和的大小与因变量的计量单位有关,因此我们定义了决定系数。决定系数越大,模型拟合的越好。决定系数不仅与因变量的计量单位无关,而且能说明在因变量的变异中,归功于自变量变化的部分所占比例。但不论是用残差平方和还是用决定系数来度量线性拟合模型拟合程度,都会得出模型中包含越多自变量拟合就越好的结论。但在样本容量给定的情况下,自变量越多,模型就越复杂,模型参数估计就越不精确,导致模型应用的效果就越差。因此我们需要能综合用残差平方和表示的模型拟合精度和用模型中包含的自变量个数表示的模型复杂程度的准则,以便选择出最优的回归模型。回归分析中用于选择自变量的准则很多。由于残差平方和RSSp和决定系数R2只考虑模型拟合精度,因而只能作为自变量个数相同时自变量选择的准则。残差均方s2和修正决定系数是一个综合模型拟合精度和模型复杂程度的准则。综合性准则除了残差均方和修正决定系数外,还有如下一些准则: ·Mallows Cp准则 其中,s2为包含全部自变量的拟合模型的残差均方,RSSp为当前拟合模型的残差平方和,p为当前拟合模型的自变量个数。 ·信息准则 信息准则根据公式 计算,其中logLik= -n{log(RSS/n)+log(2π)+1}/2为当前拟合模型的对数似然函数,npar为当前拟合模型的参数个数,当k=2时称为AIC准则,当k=log(n)时称为BIC准则。在小样本情况下,AIC准则的表现不太好,为此人们提出的修正AIC准则AICc,其计算公式为 R中计算当前拟合模型信息准则的函数有(其中fit为当前拟合模型对象) AIC(fit, k = 2) k=2(缺省)时计算 k= log(n)时计算 extractAIC(fit, scale, k = 2) 指定scale=s2,计算当前拟合模型的Cp准则 不指定scale,k=2(缺省)时计算 不指定scale,k=log(n)时计算 R的附加程序包qpcR中的函数AICc(fit)可计算当前拟合模型的修正信息准则 ·预测平方和准则 其中,,表示删除第i个案例后,用剩余的(n-1)个案例估计的拟合模型对第i个案例的预测误差。R的附加程序包qpcR中的函数PRESS(fit)可计算预测平方和。此函数的返回值是一个列表,其中包含三个元素, (1) 名字为stat的预测平方和; (2) 名字为residuals的预测残差向量; (3) 名字为P.square的P2,其计算公式为: R的的附加程序包leaps中的函数leaps( )和regsubsets( )均可用来完成全局最优的选择。leaps( )依据Cp准则、修正R2准则和R2准则来选择全局最优回归模型;regsubsets( )函数则只能选出不同自变量个数的局部最优的模型,我们再从这些局部的最优模型中选出全局最优的模型。 例:高速公路事故数据 考虑汽车意外事故率(事故数/百万行车)与一些可能的相关之间的关系。数据包括1973年在明尼苏达州的39段高速公路。 ADT 以千计的平均是流量(估计) Trks 卡车容量在全部容量中的百分比 Lane 在两个方向上的交通车道总数 Acpt 路段中每英里的进入点 Sigs 路段中每英里信号交换数 Itg 路段中每英里的快车道类型交换数 Slim 时速限制(在1973年) Len 段的长度(英里) Lwid 道路宽度(英尺) Shld 道路的外侧路肩宽度 Hwy 公路类型的因子变量,0:州际
您可能关注的文档
最近下载
- 2025森林抚育技术规程.docx VIP
- 《大学生心理健康教育》完整全套教学课件.pdf
- 2025至2030中国蓝莓产业运行态势及投资规划深度研究报告.docx
- 《无人机操控培训材料》课件.ppt VIP
- 绘本-小蓝和小黄.ppt VIP
- 北京邮电大学《自然语言处理》2022-2023学年期末试卷.doc VIP
- “巴渝工匠”杯重庆市水利行业职业技能竞赛(水工监测工)备赛试题库(含答案).docx
- 2025年第二部分必威体育官网网址组织机构、必威体育官网网址工作职责及归口管理.pdf VIP
- 消防控制室值班与火警处置记录表.pdf
- 油气输送用ERW钢管焊缝质量:影响因素剖析与无损检测技术探索.docx
文档评论(0)