用局部加权回归散点平滑法观察二维变量之间的关系.docxVIP

用局部加权回归散点平滑法观察二维变量之间的关系.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用局部加权回归散点平滑法观察二维变量之间的关系

用局部加权回归散点平滑法观察二维变量之间的关系用局部加权回归散点平滑法观察二维变量之间的关系2008/11/26回归分析、推荐文章、统计图形Bootstrap、LOESS、LOWESS、R语言、回归、局部加权回归散点平滑法、相关、统计图形、重抽样谢益辉局部加权回归散点平滑法二维变量之间的关系研究是很多统计方法的基础,例如回归分析通常会从一元回归讲起,然后再扩展到多元情况。局部加权回归散点平滑法(locally weighted scatterplot smoothing,LOWESS或LOESS)是查看二维变量之间关系的一种有力工具。LOWESS主要思想是取一定比例的局部数据,在这部分子集中拟合多项式回归曲线,这样我们便可以观察到数据在局部展现出来的规律和趋势;而通常的回归分析往往是根据全体数据建模,这样可以描述整体趋势,但现实生活中规律不总是(或者很少是)教科书上告诉我们的一条直线。我们将局部范围从左往右依次推进,最终一条连续的曲线就被计算出来了。显然,曲线的光滑程度与我们选取数据比例有关:比例越少,拟合越不光滑(因为过于看重局部性质),反之越光滑。本文的数据文件:物种数目与海拔高度(感谢中科院植物所赖江山博士提供数据并授权使用)R程序代码:# 从本站counts.txt文件直接将数据读入Rx = read.csv(/wp-content/uploads/2008/11/counts.txt)par(las = 1, mar = c(4, 4, 0.1, 0.1))plot(x, pch = 20, col = rgb(0, 0, 0, 0.5))# 取不同的f参数值for (i in seq(0.01, 1, length = 100)) {lines(lowess(x$altitude, x$counts, f = i), col = gray(i),lwd = 1.5)Sys.sleep(0.15)}以上Sys.sleep()语句只是为了让读者看清楚添加LOWESS曲线的过程,实际画图过程中可以去掉。以上代码生成的图形如下:局部加权回归散点平滑法上图中,曲线颜色越浅表示所取数据比例越大。不难看出白色的曲线几乎已呈直线状,而黑色的线则波动较大。总体看来,图中大致有四处海拔上的物种数目偏离回归直线较严重:450米、550米、650米和700米附近。若研究者的问题是,多高海拔处的物种数最多?那么答案应该是在650米附近。如果仅仅从回归直线来看,似乎是海拔越高,则物种数目越多。如此推断下去,恐怕月球或火星上该物种最多。以下是回归直线的图示:par(las = 1, mar = c(4, 4, 0.1, 0.1), mgp = c(2.5, 1, 0))plot(x, pch = 20, col = rgb(0, 0, 0, 0.5))abline(lm(counts ~ altitude, x), lwd = 2, col = red)物种数目与海拔高度的关系:回归直线为了确保我们用LOWESS方法得到的趋势是稳定的,我们可以进一步用Bootstrap的方法验证。因为Bootstrap方法是对原样本进行重抽样,根据抽得的不同样本可以得到不同的LOWESS曲线,最后我们把所有的曲线添加到图中,看所取样本不同是否会使得LOWESS有显著变化;以下是R代码:set.seed(711) # 设定随机数种子,保证本图形可以重制par(las = 1, mar = c(4, 4, 0.1, 0.1), mgp = c(2.5, 1, 0))plot(x, pch = 20, col = rgb(0, 0, 0, 0.5))for (i in 1:400) {idx = sample(nrow(x), 300, TRUE) # 有放回抽取300个样本序号lines(lowess(x$altitude[idx], x$counts[idx]), col = rgb(0, 0, 0, 0.05), lwd = 1.5) # 用半透明颜色,避免线条重叠使得图形看不清Sys.sleep(0.05)}dev.off()生成图形如下:物种数目与海拔高度的关系:Bootstrap结合LOWESS查看可以看出,经过400次重抽样并计算LOWESS曲线,刚才在第一幅图中观察到的趋势大致都还存在(因为默认取数据比例为2/3,因此拟合曲线都比较光滑),只是700米海拔附近物种数目减小的趋势并不明显了,这是因为这个海拔附近的观测样本量较少,在重抽样的时候不容易被抽到,因此在图中代表性不足,最后得到的拟合曲线分布稀疏。作者注:只是一副散点图而已,能做的文章并不少。本文是基于赖博士的另外一个问题而引发出来的思考,供生物与生态专业的同仁参考。值

文档评论(0)

pangzilva + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档