文章目录

  • 正则化(Regularization)
    • 稀疏模型与特征选择的关系
  • L1和L2正则化的直观理解
    • 正则化和特征选择的关系
      • 为什么梯度下降的等值线与正则化函数第一次交点是最优解?
    • L2正则化和过拟合的关系
  • 正则化参数的选择
    • L1正则化参数
    • L2正则化参数
  • Reference

正则化(Regularization)

机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作 ℓ1\ell_1ℓ1​-normℓ2\ell_2ℓ2​-norm,中文称作 L1正则化L2正则化,或者 L1范数L2范数

L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一些限制。对于线性回归模型,使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)。下图是Python中Lasso回归的损失函数,式中加号后面一项α∣∣w∣∣1\alpha||w||_1α∣∣w∣∣1​即为L1正则化项。

下图是Python中Ridge回归的损失函数,式中加号后面一项α∣∣w∣∣22\alpha||w||_2^2α∣∣w∣∣22​即为L2正则化项。

一般回归分析中www表示特征的系数,从上式可以看到正则化项是对系数做了处理(限制)。L1正则化和L2正则化的说明如下:

  • L1正则化是指权值向量www中各个元素的绝对值之和,通常表示为∣∣w∣∣1||w||_1∣∣w∣∣1​
  • L2正则化是指权值向量www中各个元素的平方和然后再求平方根(可以看到Ridge回归的L2正则化项有平方符号),通常表示为∣∣w∣∣2||w||_2∣∣w∣∣2​

一般都会在正则化项之前添加一个系数,Python的机器学习包sklearn中用α\alphaα表示,一些文章也用λ\lambdaλ表示。这个系数需要用户指定。

那添加L1和L2正则化有什么用?下面是L1正则化和L2正则化的作用,这些表述可以在很多文章中找到。

  • L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择
  • L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合

稀疏模型与特征选择的关系

上面提到L1正则化有助于生成一个稀疏权值矩阵,进而可以用于特征选择。为什么要生成一个稀疏矩阵?

稀疏矩阵指的是很多元素为0,只有少数元素是非零值的矩阵,即得到的线性回归模型的大部分系数都是0. 通常机器学习中特征数量很多,例如文本处理时,如果将一个词组(term)作为一个特征,那么特征数量会达到上万个(bigram)。在预测或分类时,那么多特征显然难以选择,但是如果代入这些特征得到的模型是一个稀疏模型,表示只有少数特征对这个模型有贡献,绝大部分特征是没有贡献的,或者贡献微小(因为它们前面的系数是0或者是很小的值,即使去掉对模型也没有什么影响),此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。

L1和L2正则化的直观理解

这部分内容将解释为什么L1正则化可以产生稀疏模型(L1是怎么让系数等于零的),以及为什么L2正则化可以防止过拟合

正则化和特征选择的关系

假设有如下带L1正则化的损失函数:
J=J0+α∑w∣w∣(1)J = J_0 + \alpha \sum_w{|w|} \tag{1}J=J0​+αw∑​∣w∣(1)
其中J0J_0J0​是原始的损失函数,加号后面的一项是L1正则化项,α\alphaα是正则化系数。注意到L1正则化是权值的绝对值之和,JJJ是带有绝对值符号的函数,因此JJJ是不完全可微的。机器学习的任务就是要通过一些方法(比如梯度下降)求出损失函数的最小值。当我们在原始损失函数J0J_0J0​后添加L1正则化项时,相当于对J0J_0J0​做了一个约束。令L=α∑w∣w∣L = \alpha \sum_w{|w|}L=α∑w​∣w∣,则J=J0+LJ = J_0 + LJ=J0​+L,此时我们的任务变成在LLL约束下求出J0J_0J0​取最小值的解考虑二维的情况,即只有两个权值w1w^1w1和w2w^2w2,此时L=∣w1∣+∣w2∣L = |w^1|+|w^2|L=∣w1∣+∣w2∣。对于梯度下降法,求解J0J_0J0​的过程可以画出等值线,同时L1正则化的函数LLL也可以在w1w2w^1w^2w1w2的二维平面上画出来。如下图:


图1 L1正则化

图中等值线是J0J_0J0​的等值线,黑色方形是LLL函数的图形。L=∣w1∣+∣w2∣L = |w^1|+|w^2|L=∣w1∣+∣w2∣,这个函数画出来就是一个方框(可以自己动手画一下)。

在图中,当J0J_0J0​等值线与LLL图形首次相交的地方就是最优解。上图中J0J_0J0​与LLL在LLL的一个顶点处相交,这个顶点就是最优解。注意到这个顶点的值是(w1,w2)=(0,w)(w^1, w^2) = (0, w)(w1,w2)=(0,w)。可以直观想象,因为LLL函数有很多『突出的角』(二维情况下四个,多维情况下更多),J0J_0J0​与这些角接触的机率会远大于与LLL其它部位接触的机率(这是很直觉的想象,突出的角比直线的边离等值线更近写),而在这些角上,会有很多权值等于0(因为角就在坐标轴上),这就是为什么L1正则化可以产生稀疏模型,进而可以用于特征选择。

而正则化前面的系数α\alphaα,可以控制LLL图形的大小。α\alphaα越小,LLL的图形越大(上图中的黑色方框);α\alphaα越大,LLL的图形就越小,可以小到黑色方框只超出原点范围一点点,这是最优点的值(w1,w2)=(0,w)(w1,w2)=(0,w)(w1,w2)=(0,w)中的www可以取到很小的值。

类似地,假设有如下带L2正则化的损失函数:

J=J0+α∑ww2(2)J = J_0 + \alpha \sum_w{w^2} \tag{2}J=J0​+αw∑​w2(2)

同样可以画出他们在二维平面上的图形,如下:


图2 L2正则化

二维平面下L2正则化的函数图形是个圆(绝对值的平方和,是个圆),与方形相比,被磨去了棱角。因此J0J_0J0​与LLL相交时使得w1w^1w1或w2w^2w2等于零的机率小了许多(这个也是一个很直观的想象),这就是为什么L2正则化不具有稀疏性的原因,因为不太可能出现多数www都为0的情况。

为什么梯度下降的等值线与正则化函数第一次交点是最优解?

评论中有人问到过这个问题,这是带约束的最优化问题。这应该是在大一的高等数学就学到知识点,因为这里要用到拉格朗日乘子。如果有这样的问题,就需要复习一下高等数学了。这里有一个比较详细的数学讲解,可以参考:带约束的最优化问题。

L2正则化和过拟合的关系

拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响;但如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,专业一点的说法是『抗扰动能力强』。

那为什么L2正则化可以获得值很小的参数?

以线性回归中的梯度下降法为例,使用Andrew Ng机器学习的参数表示方法。假设要求解的参数为θ\thetaθ,hθ(x)h_\theta(x)hθ​(x)是我们的假设函数。线性回归一般使用平方差损失函数。单个样本的平方差是(hθ(x)−y)2(h_\theta(x) - y)^2(hθ​(x)−y)2,如果考虑所有样本,损失函数是对每个样本的平方差求和,假设有mmm个样本,线性回归的代价函数如下,为了后续处理方便,乘以一个常数12m\frac{1}{2m}2m1​:

J(θ)=12m∑i=1m(hθ(x(i))−y(i))2(3)J(\theta) = \frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})^2 \tag{3}J(θ)=2m1​i=1∑m​(hθ​(x(i))−y(i))2(3)

在梯度下降算法中,需要先对参数求导,得到梯度。梯度本身是上升最快的方向,为了让损失尽可能小,沿梯度的负方向更新参数即可。

对于单个样本,先对某个参数θj\theta_jθj​求导:

∂∂θjJ(θ)=1m(hθ(x)−y)∂∂θjhθ(x)(3.1)\frac{\partial}{\partial \theta_j} J(\theta) = \frac{1}{m} (h_\theta(x) - y) \frac{\partial}{\partial \theta_j} h_\theta(x) \tag{3.1} ∂θj​∂​J(θ)=m1​(hθ​(x)−y)∂θj​∂​hθ​(x)(3.1)

注意到hθ(x)h_\theta(x)hθ​(x)的表达式是hθ(x)=θ0x0+θ1x1+⋯+θnxnh_\theta(x)=\theta_0 x_0 + \theta_1 x_1 + \dots + \theta_n x_nhθ​(x)=θ0​x0​+θ1​x1​+⋯+θn​xn​. 单个样本对某个参数θj\theta_jθj​求导,∂∂θjhθ(x)=xj\frac{\partial}{\partial \theta_j} h_\theta(x) = x_j∂θj​∂​hθ​(x)=xj​. 最终(3.1)式结果如下:

∂∂θjJ(θ)=1m(hθ(x)−y)xj(3.2)\frac{\partial}{\partial \theta_j} J(\theta) = \frac{1}{m} (h_\theta(x) - y) x_j \tag{3.2} ∂θj​∂​J(θ)=m1​(hθ​(x)−y)xj​(3.2)

在考虑所有样本的情况,将每个样本对θj\theta_jθj​的导数求和即可,得到下式:

∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))xj(i)(3.3)\frac{\partial}{\partial \theta_j} J(\theta) = \frac{1}{m} \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)}) x_j^{(i)} \tag{3.3} ∂θj​∂​J(θ)=m1​i=1∑m​(hθ​(x(i))−y(i))xj(i)​(3.3)

梯度下降算法中,为了尽快收敛,会沿梯度的负方向更新参数,因此在(3.3)式前添加一个负号,并乘以一个系数α\alphaα(即学习率),得到最终用于迭代计算参数θj\theta_jθj​的形式:

θj:=θj−α1m∑i=1m(hθ(x(i))−y(i))xj(i)(4)\theta_j := \theta_j - \alpha \frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)} \tag{4}θj​:=θj​−αm1​i=1∑m​(hθ​(x(i))−y(i))xj(i)​(4)

其中α\alphaα是学习率(learning rate)。 上式是没有添加L2正则化项的迭代公式,如果在原始代价函数之后添加L2正则化,则迭代公式会变成下面的样子:
θj:=θj(1−αλm)−α1m∑i=1m(hθ(x(i))−y(i))xj(i)(5)\theta_j := \theta_j(1-\alpha \frac{\lambda}{m}) - \alpha \frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)} \tag{5}θj​:=θj​(1−αmλ​)−αm1​i=1∑m​(hθ​(x(i))−y(i))xj(i)​(5)

其中λ\lambdaλ就是正则化参数。从上式可以看到,与未添加L2正则化的迭代公式相比,每一次迭代,θj\theta_jθj​都要先乘以一个小于1的因子(即(1−αλm)(1-\alpha \frac{\lambda}{m})(1−αmλ​)),从而使得θj\theta_jθj​不断减小,因此总的来看,θ\thetaθ是不断减小的。

最开始也提到L1正则化一定程度上也可以防止过拟合。之前做了解释,当L1的正则化系数很小时,得到的最优解会很小,可以达到和L2正则化类似的效果。

正则化参数的选择

L1正则化参数

通常越大的λ\lambdaλ可以让代价函数在参数为0时取到最小值。因为正则化系数越大,正则化的函数图形(上文图中的方形或圆形)会向坐标轴原点收缩得越厉害,这个现象称为shrinkage,过程可以称为shrink to zero. 下面是一个简单的例子,这个例子来自Quora上的问答。为了方便叙述,一些符号跟这篇帖子的符号保持一致。

假设有如下带L1正则化项的代价函数:

F(x)=f(x)+λ∣∣x∣∣1F(x) = f(x) + \lambda ||x||_1F(x)=f(x)+λ∣∣x∣∣1​

其中xxx是要估计的参数,相当于上文中提到的www以及θ\thetaθ. 这个例子中的正则化函数LLL就是L=λ∣x∣L=\lambda |x|L=λ∣x∣。注意到L1正则化在某些位置是不可导的,当λ\lambdaλ足够大时可以使得F(x)F(x)F(x)在x=0x = 0x=0时取到最小值。如下图:


图3 L1正则化参数的选择

作为一个直观的例子,这个图的示例中,取了f(x)=(x−1)2f(x) = (x-1)^2f(x)=(x−1)2作为损失函数,其实可以取更复杂的,但不好画图,不过原理是一样的,因为损失函数都是凸函数,很多性质是一样的。

正则化分别取λ=0.5\lambda = 0.5λ=0.5和λ=2\lambda = 2λ=2,可以看到越大的λ\lambdaλ越容易使F(x)F(x)F(x)在x=0x=0x=0时取到最小值。

此外也可以自己计算一下,当损失函数f(x)f(x)f(x)和正则化函数L=∣x∣L=|x|L=∣x∣在定义域内第一次相交的地方,就是整个代价函数F(x)F(x)F(x)的最优解。

L2正则化参数

从公式5可以看到,λ\lambdaλ越大,θj\theta_jθj​衰减得越快。另一个理解可以参考图2,λ\lambdaλ越大,L2圆的半径越小,最后求得代价函数最值时各参数也会变得很小,同样是一个shrink to zero的过程,原理与L1正则化类似。

Reference

过拟合的解释:
https://hit-scir.gitbooks.io/neural-networks-and-deep-learning-zh_cn/content/chap3/c3s5ss2.html

正则化的解释:
https://hit-scir.gitbooks.io/neural-networks-and-deep-learning-zh_cn/content/chap3/c3s5ss1.html

正则化的解释:
http://blog.csdn.net/u012162613/article/details/44261657

正则化的数学解释(一些图来源于这里):
http://blog.csdn.net/zouxy09/article/details/24971995

机器学习中正则化项L1和L2的直观理解相关推荐

  1. 机器学习中正则化项L1和L2

    机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm和ℓ2-norm,中文称作 L1正则化 和 L2正则化,或者 L1范数 和 L2范数.  图像卷 ...

  2. 损失函数中正则化项L1和L2的理解

    正则化(Regularization) 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1-norm和ℓ2-norm,中文称作L1正则化和L2正则化,或者L ...

  3. [机器学习]正则化项L1和L2的学习与理解

    正则化项L1和L2的学习与理解 一,正则化(Regularization) 稀疏模型与特征选择的关系 二, 为什么L1产生稀疏模型而L2可以防止过拟合 1, L1和L2正则化的直观理解 正则化和特征选 ...

  4. 【应用】【正则化】L1、L2正则化

    L1正则化的作用:特征选择从可用的特征子集中选择有意义的特征,化简机器学习问题.著名的LASSO(Least Absolute Shrinkage and Selection Operator)模型将 ...

  5. Lasso回归系列三:机器学习中的L0, L1, L2, L2,1范数

    L0, L1, L2, L2,1范数 机器学习中的范数定义不同于数学中的定义. 对于向量xxx (x=[x1,x2,x3,...xm]x=[x_1,x_2,x_3,... x_m]x=[x1​,x2​ ...

  6. 机器学习中正则化技术

    使用机器学习算法过程中,如果太过于追求准确率,就可能会造成过拟合.使用正则化技术可以在一定程度上防止过拟合.首先来回顾一下过拟合的概念. 过拟合简单来说就是对于当前的训练数据拟合程度过高以至于模型失去 ...

  7. 在tensorflow框架下添加正则化约束l1、l2的方法

    一.基础正则化函数 tf.contrib.layers.l1_regularizer(scale, scope=None) 返回一个用来执行L1正则化的函数,函数的签名是func(weights).  ...

  8. tikhonov正则化 matlab_4 L1和l2正则化详解(花书7.1 参数范数惩罚)

    7.1 参数范数惩罚 许多正则化方法通过对目标函数 添加一个 参数范数惩罚 ,限制模型(如神经网络.线性回归和逻辑回归)的学习能力.将正则化后的目标函数记为: 其中 是权衡范数惩罚项 和标准目标函数 ...

  9. 机器学习中正则化的作用

           监督机器学习问题无非就是"minimizeyour error while regularizing your parameters",也就是在规则化参数的同时最小化 ...

最新文章

  1. 获得一个字符的ASCII值
  2. win7 win10下80端口被System进程占用的解决方法
  3. HTTP协议及其POST与GET操作差异 C#中如何使用POST、GET等
  4. 洞察疫情,微软推出新冠数据分析网站 COVID Insights
  5. 26.go test
  6. 可视化排班管理_人事工资管理系统就选i人事,提升算薪效率聚焦战略决策
  7. 我们应当怎样做需求分析
  8. android smb windows,Android使用SMB协议共享电脑内文件方法
  9. WIN10 自带无线投屏功能 灰色不可用
  10. php文件怎么改为mp3,如何将wav转换成MP3格式的音频文件
  11. Windows Server 2019/2022域控制器网络位置变为“专用网络”或“公共网络”
  12. GPG使用方法总结(密钥管理,加解密文件)
  13. 安全专业委员会发言_安全专业委员会发言稿
  14. 摇篮式五轴与主轴摆动式五轴加工中心的区别
  15. 1NF,2NF,3NF,BCNF范式(学习笔记)
  16. 用汽车拉苹果的例子来说HTTPS的安全性很容易理解 但HTTPS并不是绝对可靠的
  17. 使用Java API访问HFDS
  18. PROFINET 概念
  19. 看书APP开发制作流程(成品案例)
  20. ADCIRC模型模拟沿海风暴潮和飓风灾害—实例讲解

热门文章

  1. 【Camunda八】Camunda网关
  2. Spark RDD知识点汇总
  3. Filter过滤器的拦截路径配置
  4. latex论文排版个人向相关问题记录
  5. 985非科班本科毕业,当了两年CRUD程序员后,我躺平了
  6. 图像整合到文件中_整合图像和表格数据以进行深度学习
  7. Theano、Lasagne、TensorFlow在Ubuntu14.04 64支持GPU的安装 py27
  8. Ubuntu20.04 引导修复(亲测有效)
  9. 目标检测——SPPNet【含全网最全翻译】
  10. 经济学硕士读计算机博士,纠结留美申博士还是读硕士?多专业硕博同申,9所大学来了offer...