基于bayesianlasso方法的变量选择和异常值检测尚华1冯牧2.docVIP

基于bayesianlasso方法的变量选择和异常值检测尚华1冯牧2.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于bayesianlasso方法的变量选择和异常值检测尚华1冯牧2

基于Bayesian Lasso方法的变量选择和异常值检测 尚 华1,冯 牧2,张贝贝1,于凤敏3 (1.首都经济贸易大学 统计学院,北京 100070;2.中国科学技术大学 管理学院,合肥 230000;3.重庆邮电大学 数理学院,重庆 400065) 摘要:针对Bayesian Lasso方法的变量选择和异常值检测进行了研究。该方法是在线性回归模型中引入识别变量,借助于双层Bayesian模型和Gibbs抽样算法,给出识别变量后验概率的计算方法和变量选择的方法,通过比较这些识别变量的后验概率进行异常值定位。最后进行了大量的模拟实验,结果表明该方法是可行且有效的。 关键词:变量选择;异常值;Bayesian Lasso方法;Gibbs抽样 中国分类号:O212.1 Variable selection and outlier detection based on Bayesian Lasso method Shang Hua1,Feng Mu2,Zhang Beibei1,Yu Fengmin3 (1.College of Statistics, Capital University of Economics Business, Beijing, 100070;2.College of management, University of Science Technology of China, Hefei, 230000;3. College of Mathematics Physics,Chongqing University of Posts Telecommunications, Chongqing,400065) Abstract: The problem of variable selection and outlier detection based on Bayesian Lasso method is researched in this article. This method is introducing classification variables into linear regression. A procedure for computing the posterior probabilities of classification variables and selecting variables is designed based on two-level hierarchical Bayesian model and Gibbs sampling. The outliers can be detected by comparing the posterior probabilities of these classification variables. The approach is illustrated with simulation studies. Key words: Variable Selection; Outlier; Bayesian Lasso Method; Gibbs Sampling 0引言 变量选择是近年来统计研究领域的一个热点。最早的方法包括AIC[1]、Mallows’[2]、 BIC[3] 以及数据驱动方法。这些方法的目的是在所有变量中选择一个最优子集使得事先给定的损失函数最小。对高维数据来说,由于计算效率的原因,上述方法都是不可实现的。Lasso[4]对高维来说是一个成功的方法,并且具有很好的计算效率[5]。它的惩罚函数可以提供一个连续的解路径并且给出一个变量具有稀疏性的模型。随后,有许多用凸惩罚函数的Lasso类型的的文献,例如Elastic net[6],它的惩罚函数是和的组合;自适应Lasso[7]是最小化一个加权损失函数。用凸惩罚函数有两个局限性,一是估计量的有偏性;二是模型选择一致性假设的约束性。故又出现了用非凸惩罚函数的方法,例如SCAD[8],MCP[9]等。 异常值检测是统计分析中的一个重要问题。一般来说,异常值是指那些不同于数据中大部分数据的一个或多个观察值。在线性回归中,把偏离线性模式的观测值定义为异常值。如果对包含异常值的数据直接进行建模,会产生误导性的结论。另外,在很多实际情况下,可能对异常值本身感兴趣,例如银行诈骗、肿瘤监测以及报警系统等。由于遮蔽现象[10],传统的工具例如用均值、协方差来检查异常值,已经行不通了。 Adams[11]和Blettner、Sauerbrei [12]指出,变量选择和异常值检测的先后顺序会直接影响到建模模型结果。也就是先进行变量选择,再进行异常值检测和先进行异常值检测再进行变量

文档评论(0)

wangsux + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档