在复习到过拟合的解决方法的时候L1正则化和L2正则化都可以用于降低过拟合的风险,但是L1正则化还会带来一个额外的好处:它比L2正则化更容易获得稀疏解,也就是说它求得的w权重向量具有更少的非零分量。主要就其为什么可以防止过拟合总结一下,相当于写个小笔记。
首先L1和L2正则降低了模型的复杂度,是对模型复杂度的惩罚。并且L1正则能够得到稀疏解,L2正则能够得到平滑解。

1、首先为什么L1正则能够得到稀疏解呢?

1.1 用图解释:
l1正则用一个菱形去逼近目标,而l2正则用一个圆形去逼近目标,所以在逼近的过程过,l1正则更容易在坐标轴和目标相交,得到稀疏解,而l2正则相比于l1正则而言,则更容易在非坐标轴和目标相交。

假定x有两个属性,于是无论是采用L1正则化还是采用L2正则化,它们解出的w权重向量都具有两个分量,即w1,w2;我们将其作为两个坐标轴,然后在这个二维空间中绘制

平方误差取值相同的连线,再分别绘制出L1范数和L2范数的等值线,那么我们的解就是平方误差等值线和范数等值线的焦点。从图上(机器学习 周志华 253页)我们可以看出L1范数和平方误差等值曲线的交点经常落在坐标轴上,而L2范数和平方误差等值曲线的交点只是分量比较小。所以我们说L1正则化比L2正则化更容易获得稀疏解,因为L1正则化的权重向量的分量为零的可能性更大。
L1正则化的稀疏性解释

1.2 从导数角度解释

引入L2正则时,代价函数在0处的导数仍是d0d_{0}d0​,无变化。而引入L1正则后,代价函数在0处的导数有一个突变。从d0+λd_{0} + λd0​+λ到d0−λd_{0} - λd0​−λ,若d0+λd_{0} + λd0​+λ和d0−λd_{0} - λd0​−λ异号,则在0处会是一个极小值点。因此,优化时,很可能优化到该极小值点上,即w=0w = 0w=0处。
L1正则为什么更容易获得稀疏解

L1正则能够得到稀疏解相关推荐

  1. 看图就懂:为什么L1正则化比L2正则化更容易得到稀疏解?为什么L2正则化可以用于防止过拟合?

    相信大部分人都见到过,下面的这两张对比图,用来解释为什么L1正则化比L2正则化更容易得到稀疏解,然而很多人会纠结于"怎么证明相切点是在角点上?",呃,不必就纠结于此,请注意结论中的 ...

  2. 为什么L1惩罚L2惩罚更容易得到稀疏解

    在优化问题中,为什么L1惩罚L2惩罚更容易得到稀疏解 L 1 _1 1​惩罚与L 2 _2 2​惩罚是什么 下面从3个角度解释为什么L1惩罚L2惩罚更容易得到稀疏解 最优化问题的角度 梯度的角度 L ...

  3. L1正则和L2正则的比较分析

    参考文献 1.L1正则和L2正则的比较分析详解 2.比较全面的L1和L2正则化的解释 3.正则化项L1和L2的区别 4.L1 相比于 L2 为什么容易获得稀疏解? 5.正则化L1和L2的区别 6.LR ...

  4. sgd 参数 详解_关于torch.optim的灵活使用详解(包括重写SGD,加上L1正则)

    torch.optim的灵活使用详解 1. 基本用法: 要构建一个优化器Optimizer,必须给它一个包含参数的迭代器来优化,然后,我们可以指定特定的优化选项, 例如学习速率,重量衰减值等. 注:如 ...

  5. 【机器学习】Lasso回归(L1正则,MAP+拉普拉斯先验)

    前言 目前这个方法还没有一个正规的中文名,如果从lasso这个单词讲的话,叫套索.那么套索是啥呢,就是套马脖子的东西,见下图: 就是拿这个东西把动物脖子套住,不要它随便跑.lasso 回归就是这个意思 ...

  6. SCAD具有Oracle属性,是目前最先进的回归算法之一,这种方法的罚函数是对称且非凹的,并且可处理奇异阵以产生稀疏解

    SCAD具有Oracle属性,是目前最先进的回归算法之一,这种方法的罚函数是对称且非凹的,并且可处理奇异阵以产生稀疏解. 此外,本文提出了一种算法用于优化对应的带惩罚项的似然函数. 这种方法具有广泛的 ...

  7. 【笔记】范数:L1范数充当正则项,让模型获得稀疏解,解决过拟合问题

    注: 注: 注: 注: 正文:     Suppose you are the king of a kingdom that has a large population and an OK over ...

  8. 正则化极限学习机_手写逻辑回归(带l1正则)

    因为带l1正则化项的损失函数是不可微的,所以这里我们单独来讨论一下l1正则化的求解方法,这里我们可以直接turn to sklearn for help. solver : str, {'newton ...

  9. 理解:L1正则先验分布是Laplace分布,L2正则先验分布是Gaussian分布——复习篇

    L1.L2正则化来源推导 L1L2的推导可以从两个角度: 带约束条件的优化求解(拉格朗日乘子法) 贝叶斯学派的:最大后验概率 1.1 基于约束条件的最优化 对于模型权重系数w的求解释通过最小化目标函数 ...

最新文章

  1. Android的ViewPager的初步使用
  2. 运行windows live writer时发生“意外错误”
  3. docker desktop ubuntu镜像_「Docker」 - 镜像仓库
  4. Android 整体设计及背后意义
  5. android-x86 镜像iso下载_2019年微软MSDN原版镜像系统下载地址 Win10/7原版系统iso镜像文件...
  6. leetcode问题:PlusOne
  7. 不恢复余数除法原理_《有余数的除法》教案
  8. 在iOS项目中引入MVVM
  9. NO.3 寻找数组主要元素
  10. 博弈论完全信息博弈思维导图
  11. 金山WPS计算机视觉算法工程师
  12. 三次握手与四次挥手的爱恨情仇
  13. adb和frida的一点简单使用记录
  14. 【EndNote】-详细步骤-导入网页/电子文献及外网(IEEE)文献
  15. 《《《翻译》》》Navigation Through Cluttered Environments
  16. 推荐你一款国产的倾斜摄影实景三维模型浏览器
  17. unity新粒子系统的碰撞和触发
  18. windows10 添加键盘音效
  19. 李珣同款爱心特效代码,加DIY教程,快拿去送给你喜欢的那个ta吧。
  20. 【转】激励循环——加密算法如何实际修复现有激励循环

热门文章

  1. 三种方式强制删除被拒绝访问的文件夹
  2. 敬请各位付费专栏的订阅者花点时间移步帮忙做个调查,谢谢!
  3. 通达信扣底计算公式,提前一天知道明天的均线价
  4. 链路聚合(动态捆绑链路)、负载均衡详解、全双工与半双工区别、LACP优先级详解(附图)
  5. 如何创建自己的网站平台?
  6. Android开发项目——智能农业(知识点整理回顾)
  7. css less 文件:global的写法
  8. php eteams,应用安全 - 软件漏洞 - 泛微OA漏洞汇总
  9. 大家好我是二龙山扛把子
  10. 华为实现中:STP运行机制实例分析一