L1正则,和L2正则是一种对优化函数参数进行约束的一种手段。如果优化的目标函数产生过拟合的时候,有高次项参数大,低此项参数低的特点。加入正则项可以迫使他们趋于平均,让低此项的部分也尽力去参与拟合。
-----------------------------------------------------------------------
假设优化的目标函数W就只有两个参数,他的L1正则如图所示,其中正则化参数 λ>0 称为为 LASSO:


L2正则如下图所示,其中正则化参数 λ>0 称为岭回归:


可以看到优化的误差函数是一个2次方程,图像可视化如下图:


上面目标函数解出的解都只有两个分量,即 ω1 , ω2,我们将其作为两个坐标轴,然后在图中绘制目标函数的"等值线",即在 (ω1 ,叫)空间中平方误差项取值相同的点的连线,再分别绘制出 L1 范数与 L2范数的等值线。上面两式的解要在平方误差项与正则化项之间折中,即出现在图中平方误差项等值线与正则化项等值线相交处。由上图可看出,采用L1范数时平方误差项等值线与正则化项等值线的交点常出现在坐标轴上即ω1或ω2为0, 而在采用 L2 范数时,两者的交点常出现在某个象限中 , 即ω1或 ω2均非 0; 换言之而言采用L1范数比L2范数更易于得到稀疏解。
-----------------------------------------------------------
获取稀疏解的好处有,加速矩阵运算等,最重要是压缩感知的应用。
------------------------------------------------------------
作为正则项有什么要求,是要拥有连续导数。
L2正则是凸函数,可以用梯度下降法求解导数等于0处。
L1正则可以用次导数替代导数功能。在不连续的地方次导数是解是一个集合,在最小点处不连续,那么解集合包含0来判断到了最小解,次导数用这种方法规避了L1范数没有连续导数的限制。用Bregman迭代求解次导数包含0点处。

下面进行一些问答:

问:L1正则和L2正则有什么区别?什么场景下使用?

有容|DataWhale答:正则化的使用场景是为了降低过拟合,L1范数正则化项是向量中各个元素的绝对值之和。L1范数可以实现让参数矩阵稀疏,让参数稀疏的好处,可以实现对特征的选择(权重为0表示对应的特征没有作用,被丢掉),也可以增强模型可解释性(例如研究影响疾病的因素,只有少数几个非零元素,就可以知道这些对应的因素和疾病相关),L1又称Lasso。
L2范数是指向量各个元素的平方,求和,然后再求平方根。使L2范数最小,可以使得W的每个元素都很小,都接近于0,但和L1范数不同,L2不能实现稀疏,不会让值等于0,而是接近于0。一般认为,越小的参数,模型越简单,越简单的模型就不容易产生过拟合现象。
使用场景的话:使用L1范数,可以使得参数稀疏化,方便计算,但是没有考虑到全局特性;使用L2范数,倾向于使参数稠密地接近于0,避免过拟合。优点是当你L1正则化时,没有把噪点值置为0,此时由于比较稀疏,噪点对模型影响会比较大,但是L2正则化考虑每个点,对于会将噪点影响减弱(类似的可以想一下求平均值),鲁棒性会好很多。具体使用的话可以结合优缺点和具体的场景进行选择,当然最直接就是就都试一下,选择哪个效果好就用哪个。

王权富贵:L1和L2正则相关推荐

  1. L1、L2正则VS L1、L2 loss

    1.L1.L2正则--参数空间 L1范数表达式为:, L2范数表达式: L1正则(上图左),使得某些特征量变为0,因此具有稀疏性,可用于特征选择: L2正则(上图右),整体压缩特征向量,使用较广. 2 ...

  2. 机器学习入门(浅谈L1和L2正则)

    L1和L2正则 1.正则化的作用 2. L1正则和L2正则 定义: L1正则(特征选择,稀疏矩阵) 推导: L1范数约束 L2正则与过拟合 推导 L2范数约束 总结 1.正则化的作用 在机器学习中,训 ...

  3. 大白话5分钟带你走进人工智能-第十四节过拟合解决手段L1和L2正则

                                                                     第十四节过拟合解决手段L1和L2正则 第十三节中,我们讲解了过拟合的情 ...

  4. 逻辑回归L1与L2正则,L1稀疏,L2全局最优(凸函数梯度下降)

    转载:https://chenrudan.github.io/blog/2016/01/09/logisticregression.html http://nanshu.wang/post/2015- ...

  5. l2高斯分布_L1和L2正则的区别,如何选择L1和L2正则?L1在0处不可导,怎么处理...

    首先毫无疑问的,他们都是可以防止过拟合,降低模型复杂度 L1是在loss function后面加上模型参数的1范数(也就是|xi|)L0范数的最小化问题在实际应用中是NP难问题,无法实际应用.L2是在 ...

  6. L1和L2 复习问题

    L1和L2 L2正则化,为什么L2正则化可以防止过拟合?L1正则化是啥? https://editor.csdn.net/md/?articleId=106009362 "为什么所有这些都有 ...

  7. L1正则和L2正则的比较分析

    参考文献 1.L1正则和L2正则的比较分析详解 2.比较全面的L1和L2正则化的解释 3.正则化项L1和L2的区别 4.L1 相比于 L2 为什么容易获得稀疏解? 5.正则化L1和L2的区别 6.LR ...

  8. LibLinear使用总结(L1,L2正则)

    liblinear实践初步 在相关推荐项目的改版中,对liblinear/fm/xgboost等主流成熟算法模型的训练效果进行了尝试和对比,并在一期改造中选择了liblinear实际上线使用.本文主要 ...

  9. 理解:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布——复习篇

    L1.L2正则化来源推导 L1L2的推导可以从两个角度: 带约束条件的优化求解(拉格朗日乘子法) 贝叶斯学派的:最大后验概率 1.1 基于约束条件的最优化 对于模型权重系数w的求解释通过最小化目标函数 ...

最新文章

  1. swap最大值和平均值_SWAP:Softmax加权平均池
  2. 容器(container)技术之发展简史
  3. Python3 Time 模块详解 import time
  4. Access更新查询(更新员工姓名)
  5. java openoffic linux_Linux openoffice 安装测试
  6. RDLC报表金额数字转大写
  7. 搜狐公司董事局主席兼首席执行官——张朝阳名言4
  8. Testin徐琨:颠覆测试行业的四个必杀技
  9. LLM系列 | 01: 亲测ChatGPT最强竞品Claude,且无需翻墙、注册简单、免手机号
  10. mc服务器违反协议,Mojang开始向违反EULA的服务器发出通告
  11. 加入域时提示“不能访问网络位置”
  12. 技术20期:结构化数据与非结构化数据:有什么区别?
  13. python爬取股票行情_python爬取历史所有股票价格
  14. 回顾2015年发生的知识产权十大热点案件
  15. CheckBox双击带来的烦恼
  16. 百度云AI获取access token的方法
  17. FlashFXP的使用
  18. VueTemplate语法的使用
  19. exportExcel
  20. 黑苹果小白的脚印-UX31A(HD4000)完美上Bigsur

热门文章

  1. 为表格添加竖直滚动条并固定表头
  2. 百度识图API教程四:EasyDL本地部署SDK
  3. 英特尔高科智能 --云留
  4. 雷军顺为资本投资清单
  5. php的命令大全,php常用命令大全
  6. 手把手教你编写圣诞树
  7. 第十四届蓝桥杯模拟赛(第一期)——C语言版
  8. 信宜市职业技术学校计算机,信宜市职业技术学校
  9. 我的世界怎么联机显示服务器,《我的世界》怎么联机 服务器联机指令大全
  10. 微型计算机使用的三类总线,微型计算机中使用的三类总线,不包括____。