L1正则化和L2正则化

在机器学习实践过程中，训练模型的时候往往会出现过拟合现象，为了减小或者避免在训练中出现过拟合现象，通常在原始的损失函数之后附加上正则项，通常使用的正则项有两种：L1正则化和L2正则化。
L1正则化和L2正则化都可以看做是损失函数的惩罚项，所谓惩罚项是指对损失函数中的一些参数进行限制，让参数在某一范围内进行取值。L1正则化的模型叫做LASSO回归，L2正则化的模型叫做岭回归。

LASSO回归公式------L1正则化
min⁡12mΣi=1m(f(x)−y(i))2+λ∥w∥1\min \frac{1}{2m} \Sigma_{i=1}^{m}\left(f(x)-y^{(i)}\right)^{2}+\lambda\|w\|_{1}min2m1Σi=1m(f(x)−y(i))2+λ∥w∥1

L1正则化项是指权重向量w中各元素的绝对值之和,表示为λ∥w∥1\lambda\|w\|_{1}λ∥w∥1

L1正则化用于进行稀疏化(会令权重向量w中某一些参数等于0)处理，通常用于在多特征中进行特征选择,也可用于避免过拟合.

岭回归公式-------L2正则化
min⁡12mΣi=1m(f(x)−y(i))2+λ∥w∥22\min \frac{1}{2 m} \Sigma_{i=1}^{m}\left(f(x)-y^{(i)}\right)^{2}+\lambda\|w\|_{2}^{2}min2m1Σi=1m(f(x)−y(i))2+λ∥w∥22

L2正则化项是指权重向量w ww中个元素的平方和，表示为λ∥w∥22\lambda\|w\|_{2}^{2}λ∥w∥22
L2正则化用于避免模型发生过拟合现象.

LASSO回归公式理解

在上述的公式中,min⁡12mΣi=1m(f(x)−y(i))2\min \frac{1}{2m} \Sigma_{i=1}^{m}\left(f(x)-y^{(i)}\right)^{2}min2m1Σi=1m(f(x)−y(i))2是原始的损失函数，也称为经验误差，在此基础上，加入了L1正则项λ∥w∥1\lambda\|w\|_{1}λ∥w∥1,L1正则项是权重向量中各元素的绝对值之和，所造成的一个后果就是损失函数不是完全可微。模型训练的目的是令损失函数达到全局最小值，当在原始的损失函数之后加入L1正则项之后，相当于对权重向量做了约束，此时我们的任务变为了在L1约束条件下求得损失函数的最小值。由于高维的情况无法用图像形象的描述出来，我们这里考虑二维的情况，即只有两个权重值w1w_{1}w1和w2w_{2}w2此时对损失函数应用梯度下降法，求解过程中可以画出等值线，如下图所示：

图中等值线是原始损失函数的等值线，黑色方形是L1正则化项的图形。在图中，当彩色等值线与黑色图形首次相交的地方就是最优解。上图中原始损失函数与L1在一个顶点处相交，这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象，因为L函数有很多突出的顶点（二维情况下四个，多维情况下更多），彩色等值线与这些角接触的机率会远大于与黑色图形其它部位接触的机率，而在这些角上，会有很多权值等于0，这就是为什么L1正则化可以产生稀疏效果，进而可以用于特征选择。

L2正则化的直观理解

不管是L1正则化还是L2正则化，在拟合的过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型，因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，抗干扰能力强。原因是权重对输入的数据影响小，所以抗干扰能力强。
考虑损失函数在二维的情况，即只有两个权重值w1w_{1}w1和w2w_{2}w2,此时对损失函数应用梯度下降法，求解过程中可以画出等值线，如下图所示：

二维平面下L2正则化的函数图形是个圆，与方形相比，被磨去了棱角。因此J0J_{0}J0与L相交时使得w1w_{1}w1或w2w_{2}w2等于零的机率小了许多，这就是为什么L2L_{2}L2正则化不具有稀疏性的原因。

【机器学习】L1正则化和L2正则化相关推荐

机器学习中L1正则化和L2正则化是什么？区别是什么？
机器学习中L1正则化和L2正则化是什么?区别是什么? 我们所说的正则化,就是在原来的loss function的基础上,加上了一些正则化项或者称为模型复杂度惩罚项. 结构风险最小化: 在经验风险最小化 ...
机器学习—正则化方法—L1正则化、L2正则化
1.L1正则化(稀疏矩阵) 权值向量w中各个元素的绝对值之和: 2.L2正则化(权重衰减) 权值向量w中各个元素的平方和: 3.L1正则化 VS L2正则化 L1正则化可以产生稀疏权值矩阵,即产生一个 ...
L1正则化、L2正则化的多角度分析和概率角度的解释
L1正则化.L2正则化的公式如下 min ⁡ w L 1 ( w ) = min ⁡ w f ( w ) + λ n ∑ i = 1 n ∣ w i ∣ min ⁡ w L 2 ( w ) = min ...
L1正则化和L2正则化（从解空间角度）
文章目录一.什么是过拟合? 二.为什么模型会过拟合? 三.如何防止模型过拟合? 四.L1正则和L2正则 4.1 L1.L2的区别 4.2 为什么正则化能够防止过拟合? 4.3 为什么L1正则具有稀疏 ...
L1正则化和L2正则化的直观解释
正则化(Regularization) 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1-norm,中文称作L1正则化和L2正则化,或者L1范数和L2 ...
keras添加L1正则化，L2正则化和Dropout正则化及其原理
一.什么是正则化,用来干嘛的? 正则化(regularization),是指在线性代数理论中,不适定问题通常是由一组线性代数方程定义的,而且这组方程组通常来源于有着很大的条件数的不适定反问题.大条件数 ...
L1正则化和L2正则化讲解
L1正则化和L2正则化讲解在机器学习实践过程中,训练模型的时候往往会出现过拟合现象,为了减小或者避免在训练中出现过拟合现象,通常在原始的损失函数之后附加上正则项,通常使用的正则项有两种:L1正则 ...
l1正则化和l2正则化_l1 vs l2正则化以及何时使用
l1正则化和l2正则化 I have read many articles on the topic to find out which is better out of two and what s ...
L1正则化和L2正则化的详细直观解释
正则化(Regularization) 转自:此处机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm,中文称作L1正则化 ...

【机器学习】L1正则化和L2正则化

L1正则化和L2正则化

LASSO回归公式理解

L2正则化的直观理解

【机器学习】L1正则化和L2正则化相关推荐

最新文章

热门文章