- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
建立Logistic模型的SAS程序
统计学专业教学实习报告
题目: Project-2
姓 名:龚进容
学 号:20081004180
指导老师:许小平
2011年 01月
引言:某种疾病爆发,其患者总是或多或少都具有一些共同的特征,例如他们生活的自然环境,偏好的饮食习惯,所处的地理位置,社会环境,等等。研究这些特征,找出爆发这种疾病的影响因素,便于采取有效的措施预防和控制这种疾病的蔓延。这种研究无论是在医学上还是在人类发展史上都具有十分重要的意义。
一、数据的描述
本案例是对同一个城市的两个地区的可能爆发某种疾病的调查,它有196个样本观测值,每个观测值包括以下5个变量:被调查者的年龄(Age)、被调查者的社会地位(Soc-s)(其中1表示处于上流社会,2表示中产阶级,3表示下层社会)、被调查者所在的地区(Sector)(其中1表示地区1,2表示地区2)、被调查者是否患有该种疾病(Disease)(其中0表示没有患这种疾病,1表示患有这种疾病)以及被调查者是否有储蓄存款(Save)(其中,0表示没有储蓄存款,1表示有储蓄存款)。
对此数据的描述性统计结果如下表所示:
表1 “疾病爆发”数据的描述性统计分析
根据此数据建立适当的模型,看这些变量对疾病的爆发是否有显著影响,影响程度如何。
二、目的
1.建立一个合适Logistic模型,看这些变量中哪些变量对疾病的爆发有显著影响,影响程度如何,从而可以对疾病的预防与控制提出适当的建议,以便采取有效措施。
2.在建模的过程中帮助我们复习Logistic回归分析,加深对的理论知识的学习。同时也熟悉对SAS统计软件的操作能力。
3.加强我们的动手能力与实践能力,对应用统计有更深的认识。
三、建立模型的基本理论
对于被解释变量是定性数据的情况,通常是建立Logistic模型。以二分变量为例:
Yi Prob(Yi) 1
0 P(Yi=1)= (i
P(Yi=0)= 1-(i P(Yi=k)= , k=0,1
对于只有一个解释变量的情况,在Xi 水平下得到的Yi =1的概率为:
由此,得到的Logistic函数为:
其中,表示Xi 每增加一个单位,对数机会比率(ln-odds)就会相应增加个单位。
对于Logistic模型,可以用极大似然法估计参数、。使似然函数:
达到最大时的b0 、b1 就是对应的、 的估计值。由此可以得到Logistic函数以及Xi 与Yi 之间的关系。
四、建模
对于本案例,我们用三分之二的数据建立一个Logistic模型,再用余下的三分之一的数据进行预测。由于此数据并没有按顺序排列,所以我们可以选取前130个观测值来建模,用剩下的66个观测值进行预测。
变量的选择
首先,把所有的解释变量都选入模型,进行初步回归,回归的结果如下:
表2 初步回归的参数估计表
对于被调查者的社会地位与是否有储蓄存款的参数估计的结果是不显著的,说明所有的变量不一定要全部选入模型。于是,我们用AIC、SBC、向前选择、向后剔除、逐步回归、-2Ln(b)、Score Chi-square等方法选择合适的变量加入模型。
我们由SAS程序得到的SBC的结果如下表:
表3 最佳子集的SBC表
Best Subset SBC Sector
Sector and Age
Sector Age and Save
Sector Age Save and Socs 149.828
145.113
147.997
152.644
从上表可以看出:通过SBC法则得到的最佳模型子集是:被调查者所在地区(Sector)
和他们的年龄(Age)。
为了更方便地建模,我们用Y表示被调查者是否患有该种疾病(Disease),用X1表示被调查者的年龄(Age),用X2表示被调查者所在的地区(Sector)。由此可以得到的回归模型为:
即:
其中,、、都为未知参数;
表示同一个地区时,年龄每增加一岁,可能爆发疾病的机会比率的对数(ln-odds)
将会增加个单位;
表示年龄相同时,处于地区2的居民会患有该种疾病的机会比率的对数(ln-odds)
将会比处以地区1的高个单位。
模型的诊断:
对于Logistic模型,在我们已经选好模型后,主要的诊断是侦查它是否含有强影响点。侦查强影响点的方法有多种,如残差分析(包括P
文档评论(0)