Lasso Regression.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Lasso Regression 监督学习 @ author : duanxxnj@163.com @ time : 2016-06-19 原文链接 在数据挖掘和机器学习算法的模型建立之初,为了尽量的减少因缺少重要变量而出现的模型偏差 问题,我们通常会尽可能的多的选择自变量。但是在实际建模的过程中,通常又需要寻找 对响应 变量具有解释能力的自变量子集,以提高模型的解释能力与预测精度,这个过程称为特征选择。 还是考虑《线性回归》中的一般线性回归模型 ,使用最小二乘估计(OLS)可以得到,模 型的参数为: 最小二乘估计虽然有不错的解析性,但是其在大多数情况下的数据分析能力是不够的,主要有两 个原因: 预测精度问题:最小二乘法虽然是无偏估计,但是他的方差在自变量存在多重共线性(变量间 线性相关)时会非常大,这个可以通过将某些系数压缩到0来改进预测精度,但这个是以一定 的有偏为代价来降低预测值的方差。 模型的可解释性:自变量个数很多的时候,我们总是希望能够确定一个较小的变量模型来表现 较好的结果 对于以上的问题,就有两种方法可以对最小二乘估计进行改进:子集选择和脊归回。子集选择过 程中,对变量要么保留,要么剔除,这很可能使得观测数据的一个微小变动就导致要选择一个新 的模型,使得模型变得不稳定,但由于模型的变量少了,使得模型的解释性得到了提高;脊回归 是一个连续的方法,它在不抛弃任何一个变量的情况下,缩小了回归系数,使得模型相对而言比 较的稳定,但这会使得模型的变量特别多,模型解释性差。 基于以上的问题,才有了现在要说的一种新的变量选择技术:Lasso(Least Absolute Shrinkage and Selection Operator)。这种方法使用模型系数的 范数来压缩模型的系数,使得一些系数 变小,甚至还是一些绝对值较小的系数直接变为0,这就使得这种方法同时具有了自己选择和脊 回归的优点。 Lasso回归模型,是一个用于估计稀疏参数的线性模型,特别适用于参数数目缩减。基于这个原 因,Lasso回归模型在压缩感知(compressed sensing)中应用的十分广泛。从数学上来 说,Lasso是在线性模型上加上了一个 正则项,其目标函数为: 也可以表示为: Lasso回归解法 Lasso 回归主要的解法有两种:坐标轴下降法(coordinate descent)和最小角回归法( Least Angle Regression)。 坐标轴下降法 坐标下降优化方法是一种非梯度优化算法。为了找到一个函数的局部极小值,在每次迭代中可 以在当前点处沿一个坐标方向进行一维有哪些信誉好的足球投注网站。在整个过程中循环使用不同的坐标方向。一个周 期的一维有哪些信誉好的足球投注网站迭代过程相当于一个梯度迭代。 其实,gradient descent 方法是利用目标函数 的导数(梯度)来确定有哪些信誉好的足球投注网站方向的,而该梯度方向可能不与任何坐标轴平行。而coordinate descent方法是利用当前坐标系统进行有哪些信誉好的足球投注网站,不需要求目标函数的导数,只按照某一坐标方向 进行有哪些信誉好的足球投注网站最小值。坐标下降法在稀疏矩阵上的计算速度非常快,同时也是Lasso回归最快的解 法。 下面这份代码是在稀疏系数上使用Lasso回归,这里Lasso内置的是坐标下降法: 1. #!/usr/bin/python 2. # -*- coding: utf-8 -*- 3. 4. 5. 6. author : duanxxnj@163.com 7. time : 2016-06-06_15-41 8. 9. Lasso 回归应用于稀疏信号 10. 11. 12. print(__doc__) 13. 14. import numpy as np 15. import matplotlib.pyplot as plt 16. import time 17. 18. from sklearn.linear_model import Lasso 19. from sklearn.metrics import r2_score 20. 21. # 用于产生稀疏数据 22. np.random.seed(int(time.time())) 23. # 生成系数数据,样本为50个,参数为200维 24. n_samples, n_features = 50, 200 25. # 基于高斯函数生成数据 26. X = np.rand

文档评论(0)

hhuiws1482 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档