L1正则化和L2正则化讲解

在机器学习实践过程中，训练模型的时候往往会出现过拟合现象，为了减小或者避免在训练中出现过拟合现象，通常在原始的损失函数之后附加上正则项，通常使用的正则项有两种：L1正则化和L2正则化。

L1正则化和L2正则化都可以看做是损失函数的惩罚项，所谓惩罚项是指对损失函数中的一些参数进行限制，让参数在某一范围内进行取值。L1正则化的模型叫做LASSO回归，L2正则化的模型叫做岭回归。

LASSO回归公式
min12mΣi=1m(f(x)−y(i))2+λ∣∣w∣∣1min\frac{1}{2m}\Sigma_{i=1}^{m}\left(f(x) - y^{(i)}\right)^{2}+\lambda||w||_{1}min2m1Σi=1m(f(x)−y(i))2+λ∣∣w∣∣1
岭回归公式
min12mΣi=1m(f(x)−y(i))2+λ∣∣w∣∣22min\frac{1}{2m}\Sigma_{i=1}^{m}\left(f(x) - y^{(i)}\right)^{2}+\lambda||w||_{2}^{2}min2m1Σi=1m(f(x)−y(i))2+λ∣∣w∣∣22

L1正则化项和L2正则化项的说明如下：

1. L1正则化项是指权重向量www中各元素的绝对值之和，表示为 ∣∣w∣∣1||w||_{1}∣∣w∣∣1
2. L2正则化项是指权重向量www中个元素的平方和，表示为 ∣∣w∣∣22||w||_{2}^{2}∣∣w∣∣22

L1正则化和L2正则化的作用

1. L1正则化用于进行稀疏化(会令权重向量w中某一些参数等于0)处理，通常用于在多特征中进行特征选择。
2. L2正则化用于避免模型发生过拟合现象，L1正则化也可用于避免过拟合。

L1正则化的直观理解

L1正则化的损失函数

min12mΣi=1m(f(x)−y(i))2+λ∣∣w∣∣1min\frac{1}{2m}\Sigma_{i=1}^{m}\left(f(x) - y^{(i)}\right)^{2}+\lambda||w||_{1}min2m1Σi=1m(f(x)−y(i))2+λ∣∣w∣∣1

在上述的公式中，12mΣi=1m(f(x)−y(i))2\frac{1}{2m}\Sigma_{i=1}^{m}\left(f(x) - y^{(i)}\right)^{2}2m1Σi=1m(f(x)−y(i))2是原始的损失函数，也称为经验误差，在此基础上，加入了L1正则项λ∣∣w∣∣1\lambda||w||_{1}λ∣∣w∣∣1,L1正则项是权重向量中各元素的绝对值之和，所造成的一个后果就是损失函数不是完全可微。模型训练的目的是令损失函数达到全局最小值，当在原始的损失函数之后加入L1正则项之后，相当于对权重向量做了约束，此时我们的任务变为了在L1约束条件下求得损失函数的最小值。由于高维的情况无法用图像形象的描述出来，我们这里考虑二维的情况，即只有两个权重值w1w_{1}w1和w2w_{2}w2，此时对损失函数应用梯度下降法，求解过程中可以画出等值线，如下图所示：

图中等值线是原始损失函数的等值线，黑色方形是L1正则化项的图形。在图中，当彩色等值线与黑色图形首次相交的地方就是最优解。上图中原始损失函数与L1在一个顶点处相交，这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)。可以直观想象，因为L函数有很多突出的顶点（二维情况下四个，多维情况下更多），彩色等值线与这些角接触的机率会远大于与黑色图形其它部位接触的机率，而在这些角上，会有很多权值等于0，这就是为什么L1正则化可以产生稀疏效果，进而可以用于特征选择。
正则化系数λ\lambdaλ可以控制黑色图形的大小，λ\lambdaλ越大，黑色图形越小，λ\lambdaλ越小，黑色图形越大。λ\lambdaλ越大，表示对权重向量的限制作用越强。

L2正则化的直观理解

L2正则化的损失函数
min12mΣi=1m(f(x)−y(i))2+λ∣∣w∣∣22min\frac{1}{2m}\Sigma_{i=1}^{m}\left(f(x) - y^{(i)}\right)^{2}+\lambda||w||_{2}^{2}min2m1Σi=1m(f(x)−y(i))2+λ∣∣w∣∣22

不管是L1正则化还是L2正则化，在拟合的过程中通常都倾向于让权值尽可能小，最后构造一个所有参数都比较小的模型，因为一般认为参数值小的模型比较简单，能适应不同的数据集，也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程，若参数很大，那么只要数据偏移一点点，就会对结果造成很大的影响；但如果参数足够小，数据偏移得多一点也不会对结果造成什么影响，抗干扰能力强。

考虑损失函数在二维的情况，即只有两个权重值w1w_{1}w1和w2w_{2}w2，此时对损失函数应用梯度下降法，求解过程中可以画出等值线，如下图所示：

二维平面下L2正则化的函数图形是个圆，与方形相比，被磨去了棱角。因此J0与L相交时使得w1或w2等于零的机率小了许多，这就是为什么L2正则化不具有稀疏性的原因。

L1正则化和L2正则化讲解相关推荐

l1正则化和l2正则化_l1 vs l2正则化以及何时使用
l1正则化和l2正则化 I have read many articles on the topic to find out which is better out of two and what s ...
L1正则化、L2正则化的多角度分析和概率角度的解释
L1正则化.L2正则化的公式如下 min ⁡ w L 1 ( w ) = min ⁡ w f ( w ) + λ n ∑ i = 1 n ∣ w i ∣ min ⁡ w L 2 ( w ) = min ...
L1正则化和L2正则化（从解空间角度）
文章目录一.什么是过拟合? 二.为什么模型会过拟合? 三.如何防止模型过拟合? 四.L1正则和L2正则 4.1 L1.L2的区别 4.2 为什么正则化能够防止过拟合? 4.3 为什么L1正则具有稀疏 ...
L1正则化与L2正则化
1.1-范数,2-范数 1-范数: 2-范数:2-范数就是通常意义下的距离 2.L1和L2正则化我们所说的正则化,就是在原来的loss function的基础上,加上了一些正则化项或者称为模型复杂度 ...
L1正则化和L2正则化的直观解释
正则化(Regularization) 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1-norm,中文称作L1正则化和L2正则化,或者L1范数和L2 ...
【AI面试】L1 loss、L2 loss和Smooth L1 Loss，L1正则化和L2正则化
损失函数是深度学习模型优化的一个灵魂基础,所以无论是很新的transform模型,还是比较早期的AlexNet,都不可避免的要涉及到损失函数的设计和应用. 所以,各种形形色色的损失函数(Loss)也就 ...
keras添加L1正则化，L2正则化和Dropout正则化及其原理
一.什么是正则化,用来干嘛的? 正则化(regularization),是指在线性代数理论中,不适定问题通常是由一组线性代数方程定义的,而且这组方程组通常来源于有着很大的条件数的不适定反问题.大条件数 ...
正则项的原理、梯度公式、L1正则化和L2正则化的区别、应用场景
先对"L1正则化和L2正则化的区别.应用场景"给出结论,具体见后面的原理解释: L1正则化会产生更稀疏的解,因此基于L1正则化的学习方法相当于嵌入式的特征选择方法. L2正则化计算 ...
机器学习—正则化方法—L1正则化、L2正则化
1.L1正则化(稀疏矩阵) 权值向量w中各个元素的绝对值之和: 2.L2正则化(权重衰减) 权值向量w中各个元素的平方和: 3.L1正则化 VS L2正则化 L1正则化可以产生稀疏权值矩阵,即产生一个 ...

L1正则化和L2正则化讲解

L1正则化和L2正则化讲解

L1正则化和L2正则化讲解相关推荐

最新文章

热门文章