L1正则能够得到稀疏解

在复习到过拟合的解决方法的时候L1正则化和L2正则化都可以用于降低过拟合的风险，但是L1正则化还会带来一个额外的好处：它比L2正则化更容易获得稀疏解，也就是说它求得的w权重向量具有更少的非零分量。主要就其为什么可以防止过拟合总结一下，相当于写个小笔记。
首先L1和L2正则降低了模型的复杂度，是对模型复杂度的惩罚。并且L1正则能够得到稀疏解，L2正则能够得到平滑解。

1、首先为什么L1正则能够得到稀疏解呢？

1.1 用图解释：
l1正则用一个菱形去逼近目标，而l2正则用一个圆形去逼近目标，所以在逼近的过程过，l1正则更容易在坐标轴和目标相交，得到稀疏解，而l2正则相比于l1正则而言，则更容易在非坐标轴和目标相交。

假定x有两个属性，于是无论是采用L1正则化还是采用L2正则化，它们解出的w权重向量都具有两个分量，即w1,w2；我们将其作为两个坐标轴，然后在这个二维空间中绘制

平方误差取值相同的连线，再分别绘制出L1范数和L2范数的等值线，那么我们的解就是平方误差等值线和范数等值线的焦点。从图上（机器学习周志华 253页）我们可以看出L1范数和平方误差等值曲线的交点经常落在坐标轴上，而L2范数和平方误差等值曲线的交点只是分量比较小。所以我们说L1正则化比L2正则化更容易获得稀疏解，因为L1正则化的权重向量的分量为零的可能性更大。
L1正则化的稀疏性解释

1.2 从导数角度解释

引入L2正则时，代价函数在0处的导数仍是d0d_{0}d0，无变化。而引入L1正则后，代价函数在0处的导数有一个突变。从d0+λd_{0} + λd0+λ到d0−λd_{0} - λd0−λ，若d0+λd_{0} + λd0+λ和d0−λd_{0} - λd0−λ异号，则在0处会是一个极小值点。因此，优化时，很可能优化到该极小值点上，即w=0w = 0w=0处。
L1正则为什么更容易获得稀疏解

L1正则能够得到稀疏解相关推荐

看图就懂:为什么L1正则化比L2正则化更容易得到稀疏解？为什么L2正则化可以用于防止过拟合？
相信大部分人都见到过,下面的这两张对比图,用来解释为什么L1正则化比L2正则化更容易得到稀疏解,然而很多人会纠结于"怎么证明相切点是在角点上?",呃,不必就纠结于此,请注意结论中的 ...
为什么L1惩罚L2惩罚更容易得到稀疏解
在优化问题中,为什么L1惩罚L2惩罚更容易得到稀疏解 L 1 _1 1惩罚与L 2 _2 2惩罚是什么下面从3个角度解释为什么L1惩罚L2惩罚更容易得到稀疏解最优化问题的角度梯度的角度 L ...
L1正则和L2正则的比较分析
参考文献 1.L1正则和L2正则的比较分析详解 2.比较全面的L1和L2正则化的解释 3.正则化项L1和L2的区别 4.L1 相比于 L2 为什么容易获得稀疏解? 5.正则化L1和L2的区别 6.LR ...
sgd 参数详解_关于torch.optim的灵活使用详解(包括重写SGD,加上L1正则)
torch.optim的灵活使用详解 1. 基本用法: 要构建一个优化器Optimizer,必须给它一个包含参数的迭代器来优化,然后,我们可以指定特定的优化选项, 例如学习速率,重量衰减值等. 注:如 ...
【机器学习】Lasso回归（L1正则，MAP+拉普拉斯先验）
前言目前这个方法还没有一个正规的中文名,如果从lasso这个单词讲的话,叫套索.那么套索是啥呢,就是套马脖子的东西,见下图: 就是拿这个东西把动物脖子套住,不要它随便跑.lasso 回归就是这个意思 ...
SCAD具有Oracle属性，是目前最先进的回归算法之一，这种方法的罚函数是对称且非凹的，并且可处理奇异阵以产生稀疏解
SCAD具有Oracle属性,是目前最先进的回归算法之一,这种方法的罚函数是对称且非凹的,并且可处理奇异阵以产生稀疏解. 此外,本文提出了一种算法用于优化对应的带惩罚项的似然函数. 这种方法具有广泛的 ...
【笔记】范数：L1范数充当正则项，让模型获得稀疏解，解决过拟合问题
注: 注: 注: 注: 正文: Suppose you are the king of a kingdom that has a large population and an OK over ...
正则化极限学习机_手写逻辑回归（带l1正则）
因为带l1正则化项的损失函数是不可微的,所以这里我们单独来讨论一下l1正则化的求解方法,这里我们可以直接turn to sklearn for help. solver : str, {'newton ...
理解：L1正则先验分布是Laplace分布，L2正则先验分布是Gaussian分布——复习篇
L1.L2正则化来源推导 L1L2的推导可以从两个角度: 带约束条件的优化求解(拉格朗日乘子法) 贝叶斯学派的:最大后验概率 1.1 基于约束条件的最优化对于模型权重系数w的求解释通过最小化目标函数 ...

L1正则能够得到稀疏解

1、首先为什么L1正则能够得到稀疏解呢？

L1正则能够得到稀疏解相关推荐

最新文章

热门文章