- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对boston数据集的分析--统计机器学习期中考试
Analysis ofboston datasets ;Questions:;Q1:怎样预测波士顿的犯罪率;下面是具体操作过程:
首先我们画出Boston的散点图矩阵,大致观察图像
;之后我们以其中的zn对crim的线性回归为例,向您展示我们的造作过程
;首先,我们拟合了zn与crim之间的线性关系,得到相关结果如下:
lm.fit0=lm(crim~zn,data=Boston1)
summary(lm.fit0)
Call:
lm(formula = crim ~ zn, data = Boston1)
Residuals:
Min 1Q Median 3Q Max
-2.811 -2.652 -1.755 -0.360 86.141
Coefficients:
Estimate Std. Error t value Pr(|t|)
(Intercept) 2.83564 0.40955 6.924 1.74e-11 ***
zn -0.04657 0.01415 -3.291 0.00109 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.197 on 404 degrees of freedom
Multiple R-squared: 0.02611, Adjusted R-squared: 0.0237
F-statistic: 10.83 on 1 and 404 DF, p-value: 0.001086
发现p值小于0.01,我们有理由认为zn和crim之间存在关联
;之后,画出zn对crim的散点图与拟合曲线,我们发现,拟合效果不佳。
plot(Boston$zn,Boston$crim)
abline(lm.fit0)
; 之后我们又画出真实值和拟合值的残差图,看预测准确度如何,横坐标是测试集的crim预测值,纵坐标是预测值和真实值的残差
注:在拟合时,我们用前406个观测当作训练集,后100个观测当作测试集
preb=predict(lm.fit0,data.frame(zn=(c(Boston[407:506,2]))),interval=confidence)
plot((Boston[407:506,1]-preb[,1])^2~preb[,1])
;
我们发现预测效果十分不好,
事实上,所有简单线性回归的预测效果均不是很好,
下面我们给出具体操作数据与图像。;下面是各简单线性回归的p值:
从中可以看出,和crim有(0.01)线性关系的预测变量有:zn,indus,nox,rm,age,dis,rad,tax,ptratio,black;各简单线性回归的散点图与拟合曲线如下:
;各简单线性回归残差图如下:
;
鉴于简单线性回归给出的预测均不好,
下面我们对变量进行多元回归分析。;首先直接对其进行多元回归,生成诊断图并分析问题。
lm.fit13=lm(crim~.,data=Boston1)
par(mfrow=c(2,2))
plot(lm.fit13);注:
图一和图三都用于检查数据的非线性。图一是残差和预测变量的散点图,红线是对残差的一个光滑拟合,目的是更易于识别趋势,残差呈现明显??的U形,说明响应变量和预测变量之间是非线性关系。图三是标准化残差的平方根和预测变量的散点图。拟合红线和图一呈现相近的趋势,说明数据存在异方差性,因此数据有非线性关系。
图二用于观察残差是否服从正态分布,是残差平方根和理论分位点的散点图,很显然残差不服从正态分布。
图四用于判断高杠杆点:是标准化残差和杠杆值的散点图,红线表示的是cook’s距离等高线,我们发现381号样本有较大的影响。(Cook’s distance衡量的是一个某样本的改变会使得所有样本的残差改变的幅度,该值越大,说明该样本异常);为使回归模型预测效果更好,我们通过对预测变量做非线性变换来改进模型
我们分别作了对数变换、平方变换和开方变换
发现对数变换预测性最好,最优拟合是lm.fit13,对应的是多元回归拟合,这个答案是合理的,lmfit13对训练集的数据拟合程度最高,也就导致了它预测性不会比做了非线性变换之后的回归好.
具体操作如下:;多元线性:;对数变换;平方变换;开方变换
文档评论(0)