LASSO介绍

  • Tibshirani(1996)提出了LASSO(The Least Absolute Shringkage and Selectionator operator)算法
  • 通过构造一个一阶惩罚函数获得一个精炼的模型;通过最终确定一些指标(变量)的系数为零(岭回归估计系数等于0的机会微乎其微,造成筛选变量困难),解释力很强
  • 擅长处理具有多重共线性的数据,与岭回归一样是有偏估计

LASSO vs. 岭回归

岭回归与LASSO之间的本质区别

在几何意义上的区别(前者为LASSO回归,后者为岭回归)

LAR(最小角回归:后来成为LASSO回归的求解算法)

LAR(最小角回归:Least Angel Regression)

  • Efron于2004年提出的一种变量选择的方法,类似于向前逐步回归(Forward Stepwise)的形式。
  • 是LASSO REGRESSION的一种高效解法
  • 向前逐步回归(Forward Stepwise)不同在于,Forward Stepwise每次都是根据选择的变量子集,完全拟合出线性模型,计算出RSS,再设计统计量(如AIC)对较高的模型复杂度作出惩罚。
  • 而LAR是每次先找出和因变量相关度最高的那个变量,再沿着LSE的方向一点点调整这个predictor的系数。在这个过程中,这个变量和残差的相关系数会逐渐减小,等到这个相关性没有那么显著的时候,就要选出新的相关性最高的变量,然后重新沿着LSE的方向进行变动。而到最后,所有变量都被选中,就和LSE相同了。

Algorithm 3.2 Least Angle Regression

  1. Standardize the predictors to have mean zero and unit norm. Start with the residual r = y – y-, β,β,…, β = 0
  2. Find the predictor Xj most correlated with r
  3. Move βj from 0 towards its least-squares coeffcient <Xj, r>, until some other competitor Xk has as much correlation with the current residual as does Xj.
  4. Move βj and βk in the directin defined by their joint least squares coefficient of the current residual on (Xj, Xk), until some other competitor Xl has as much correlation with the current residual.
  5. Continue in this way until all p predictors have ben entered. After min(N-1, p) steps, we arrive at the full least-squares solution.

Algorithm 3.2a Least Angle Regression: Lasso Modification

  • 4a. if a non-zero coefficient hits zero, drop its variable from the active set of variables and recompute the current joint least squares direction.

LAR and LASSO

在R中使用LAR算法进行LASSO回归分析

继续使用longley数据集进行LASSO回归

进行LAR(最小角回归)

并打印LAR过程图

对得到的最小角回归进行summary

在数据结果中可知:在高亮步骤时,cp达到最小值(变量之间的多重共线性的程度达到最小值)。而此时为在全变量模型的基础上,-6 -5(去掉第六号变量和第五号变量)使模型达到最小的共线性程度。

即可作出精确的变量选择:y ~ 1 + 2 + 3 + 4 + 7(去掉 5, 6)

CP值的含义(Mallow’s Cp)

原线性模型的统计结果如下:

经过LAR算法进行LASSO回归分析,处理变量间的多重共线性后,更新原模型后的统计结果如下:

通过原线性模型和更新后的线性模型之间的对比可以发现:虽然,在进行了变量间的多重共线性处理之后,Multiple R-squared有所降低,但Residual standard error相应提高。而且,各个变量的显著性检验表现的更好。

R语言与LASSO回归和LAR算法相关推荐

  1. R语言实现LASSO回归

    Lasso回归又称为套索回归,是Robert Tibshirani于1996年提出的一种新的变量选择技术.Lasso是一种收缩估计方法,其基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残 ...

  2. 手把手教你使用R语言做LASSO 回归

    LASSO 回归也叫套索回归,是通过生成一个惩罚函数是回归模型中的变量系数进行压缩,达到防止过度拟合,解决严重共线性的问题,LASSO 回归最先由英国人Robert Tibshirani提出,目前在预 ...

  3. 基于R语言实现LASSO回归分析

    模拟假数据集 set.seed(0820)n <- 50p <- 25beta <- rep(0,p)beta[1:5] <- 1:5/5X <- matrix(rnor ...

  4. R语言使用逻辑回归分类算法

    R语言使用逻辑回归分类算法 逻辑回归属于概率统计的分类算法模型的算法,是根据一个或者多个特征进行类别标号预测.在R语言中可以通过调用logit函数执行逻辑回归分类算法并预测输出概率.通过调用glm函数 ...

  5. R语言主成分回归(PCR)、 多元线性回归特征降维分析光谱数据和汽车油耗、性能数据...

    原文链接:http://tecdat.cn/?p=24152 什么是PCR?(PCR = PCA + MLR)(点击文末"阅读原文"获取完整代码数据). • PCR是处理许多 x ...

  6. R语言基于LASSO进行特征筛选(feature selection)

    R语言基于LASSO进行特征筛选(feature selection) 对一个学习任务来说,给定属性集,有些属性很有用,另一些则可能没什么用.这里的属性即称为"特征"(featur ...

  7. R语言plotly可视化:使用PCA算法进行数据降维、使用plotly可视化随着主成分的增加解释的方差的量(plotting explained variance)

    R语言plotly可视化:使用PCA算法进行数据降维.使用plotly可视化随着主成分的增加解释的方差的量(plotting explained variance) 目录

  8. R语言plotly可视化:使用PCA算法进行数据降维、使用plotly可视化PCA所有的主成分绘制散点图矩阵、降维后的两个(三个)核心主成分的二维、三维可视化图形、方差解释的量、载荷图等

    R语言plotly可视化:使用PCA算法进行数据降维.使用plotly可视化PCA所有的主成分绘制散点图矩阵.降维后的两个(三个)核心主成分的二维.三维可视化图形.方差解释的量.载荷图等 目录

  9. R语言构建logistic回归模型:构建模型公式、拟合logistic回归模型、模型评估,通过混淆矩阵计算precision、enrichment、recall指标

    R语言构建logistic回归模型:构建模型公式.拟合logistic回归模型.模型评估,通过混淆矩阵计算precision.enrichment.recall指标 目录

最新文章

  1. python语法基础题输出倒三角图案,【趣味shellamp;amp;python】倒三角控制台输出图形...
  2. [转载]什么情况下应该设置 cudnn.benchmark = True?
  3. selinux-添加
  4. RPM安装包-Spec文件參数具体解释与演示样例分析
  5. 如何调试PHP的Core之获取基本信息 --------风雪之隅 PHP7核心开发者
  6. C语言的特点与创建的基本步骤是什么
  7. MSSQL 2005数据库与SP4补丁安装
  8. webpack 的 scope hoisting 是什么?
  9. Linux命令解释之df
  10. kotlin枚举_Kotlin枚举班
  11. 软件工程导论(第5版)张海藩著 高清PDF版下载
  12. TCP和Udp的区别是什么?
  13. 萤石云摄像头Http接口云台控制开发
  14. needs to declare permission android.permission.REQUEST_INSTALL_PACKAGES
  15. ODC(Orthogonal Defect Classification)简介
  16. QT应用之透明背景_嵌入式freambuffer_QWS背景淡绿色问题
  17. linux下优盘格式化,linux下格式化u盘
  18. 怎么制作gif动态图 QQ动态表情包怎么制作
  19. Linux系统下,永久修改海思开发板的IP地址
  20. 鼠标使用板载内存和使用计算机上,【罗技G700s无线鼠标使用总结】功能|配置|模式|灵敏度_摘要频道_什么值得买...

热门文章

  1. 8086的两种工作模式_8086有哪两种工作模式?其主要区别是什么?
  2. 软件项目管理-第三章生存期模型
  3. 在线图片处理工具大全!ps可以下岗了。
  4. 浏览器无法渲染php,解决lighttpd运行后浏览器无法渲染html
  5. PX4开源工程结构简明介绍
  6. 使用Numpy和Opencv完成基本图像的数据分析(Part I)
  7. 扑克洗牌(乱数排列)
  8. 无线开关量收发模块实现一发多收/一收多发
  9. 服务器上的环境迁移到另一台服务器上(采用克隆方式)
  10. Chrome自动更新到78.0.3904.70后出现“Aw, Snap!”错误,所有页面不能打开。