- 1、本文档共16页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
回归压缩以及通过 Lasso 选择变量
由 ROBERT TIBSHIRANI
加拿大 多伦多大学
1994 年 1 月接收 1995 年 1 月修订
摘要
我们提出了一个估计线性模型的新方法。 Lasso 最小化残差平方和使得系数
绝对值之和小于一个常数。由于这种约束的性质,它倾向于产生一些恰好为 0
的系数,从而给出了解释模型。我们的模拟研究表明, Lasso 具有一些子集选择
和岭回归的良好特性。 它产生像子集选择一样的可以解释的模型并且展示了岭回
归的稳定性。 Lasso与 Donoho 和 Johnstone近期提出的关于自适函数估计的工作
有着有趣的联系。 Lasso 想法是相当广泛的,并且可以运用在各种统计模型中:
本文简要介绍了广义的回归模型和基于树的模型的扩展。
关键词:二次规划;回归;压缩;子集选择
0,
0, i x ij / N
1. 引言
考虑一般的回归情况:我们有数据 (xi , yi ), i 1,2,..., N, xi ( xi1 ,...,xip )T 和 yi
分别是第 i组观测的自变量和因变量值。普通最小二乘估计( OLS)是通过残差
平方和最小化得到的。有两个原因来解释为什么数据分析常常不适合用 OLS估
计。第一个原因是预测精度: OLS估计通常偏压较小,方差较大;预测精度有时
可以通过压缩或将一些系数设置为 0 而提高。 通过这样做, 我们牺牲一点偏压以
减少所预测值的方差, 并且可以提高整体的预测精度。 第二个原因是模型的解释。 对于大批预测值, 我们更愿意判断模型在一个更小的子集当中显示出来的最好的 结果。
两个可以改善 OLS估计的基本方法, 子集选择法和岭回归都有缺陷。 子集选 择法提供了可解释的模型, 但是由于它是一个从模型中保留或删除的离散过程变
量, 它可能极其易变。 数据的微小变动会影响由子集选择法得出不同模型, 这可
以降低其预测精度。岭回归是一个系数收缩的连续的过程,并且因此更加稳定: 然而,它的任何系数都不为 0,因此不能给出容易解释的模型。
我们提出一个新方法,叫作 Lasso,意思是最小绝对收缩和选择算法。它缩 小了一些系数,并将其他的系数设置为 0,从而试图保留子集选择法和岭回归的 优良特性。
在第 2 节我们给出了 Lasso的定义,并且寻找一些特例。在第 3 节中给出一
个真实的数据例子, 在第 4 节我们研究了预测误差与 Lasso收缩参数估计的方法。 在第 5 节简单提及 Lasso中的一个贝叶斯方法。 我们在第 6 节描述了 Lasso算法。 第 7 节是模拟研究和介绍。 第 8 节和第 9 节研究了广义回归模型的拓展和其他问
题。 第 10 节讨论了 Lasso软阈值的一些结论以及关系, 第 11 节包括讨论与总结。
2. LASSO方法
2.1 定义
假设数据 (xi , yi ),i 1,2,..., N ,其中 xi ( xi1 ,..., xip )T 为自变量, yi 是因变量,
在通常的回归建立中,我们假定要么观测值是独立的,或者对于给定的 xij ,所
有的 yi 是条件独立的。我们假定 xij 标准化,且 i xij / N 2 1。
(
( y
i
^
令
^ ^
( 1 ,..., p )T ,用
Lasso方法的估计量 (
(
( yi
1
N
j xij )2 }
j
^ ^
( , ) arg min{
i
这里 t 0 是一个调和参数。此时对所有的 t ,有
^ ^
, ) 定义为
对于 | j | t (1)
j
^
的估计是 y 。我们可以在
不失一般性的情况下假定 y 0 ,因此可忽略 。
方程( 1)的解决方案的计算是具有线性不等式约束的二次规划问题。我们 将在第 6 节针对这个问题介绍一些高效稳定的算法。
^
参数 t 0 控制的是应用于估计的收缩量。令 为完全最小二乘估计且令
^
t0 |
文档评论(0)