L1正则化与L2正则化的区别
摘要
正则化
的本质是在Cost Function
中添加的p-范数
。本文从正则化
的本质p-范数
入手,解释了L1正则化
和L2正则化
的区别。
正则化
在Cost Function
上添加了正则化项
,就能降低模型的过拟合程度,这就是正则化的作用。
关于正则化更细节的讲述,请参考为什么正则化能减少模型过拟合程度。
正则化项
的不同,就产生了L1正则化
和L2正则化
。L1正则化
和L2正则化
的表达式,其实就是1-范数与2-范数
范数
正则化项
的实质就是叠加到Cost Function
中的范数
。下面是p-范数
的表达式:
在上图中(x,y)相同的情况下,随着p值的增加,p-范数
的值趋向于更大,对较大权重的惩罚力度加大(就是说W大的,p-范数
的值也更大,所以表现在Cost Function
的值变小)。
L1正则化
下面是整个Cost Function
的表达式,红色部分就是L1正则化
的表达式。
L1正则化
对所有参数的惩罚力度都一样,可以让一部分权重变为零,因此产生稀疏模型,能够去除某些特征(权重为0则等效于去除)。
L2正则化
下面是整个Cost Function
的表达式,红色部分就是L2正则化
的表达式。
L2正则化
减少了权重的固定比例,使权重平滑。L2正则化
不会使权重变为0(不会产生稀疏模型),所以选择了更多的特征。
区别
- L1减少的是一个常量,L2减少的是权重的固定比例
- L1使权重稀疏,L2使权重平滑
- L1优点是能够获得sparse模型,对于large-scale的问题来说这一点很重要,因为可以减少存储空间
- L2优点是实现简单,能够起到正则化的作用。缺点就是L1的优点:无法获得sparse模型
参考
- https://blog.csdn.net/ybdesire/article/details/79068603
- https://blog.csdn.net/TXBSW/article/details/79073933
- https://blog.csdn.net/vincent2610/article/details/53408088
- https://www.quora.com/What-is-the-difference-between-L1-and-L2-regularization-How-does-it-solve-the-problem-of-overfitting-Which-regularizer-to-use-and-when
- https://www.zhihu.com/question/26485586
L1正则化与L2正则化的区别相关推荐
- 正则项的原理、梯度公式、L1正则化和L2正则化的区别、应用场景
先对"L1正则化和L2正则化的区别.应用场景"给出结论,具体见后面的原理解释: L1正则化会产生更稀疏的解,因此基于L1正则化的学习方法相当于嵌入式的特征选择方法. L2正则化计算 ...
- L1正则化和L2正则化的区别
文章目录 前言 一.L1和L2正则化是什么? 二.区别 三.其他问题 前言 在防止过拟合的方法中有L1正则化和L2正则化,那么这两者有什么区别呢? 一.L1和L2正则化是什么? L1和L2是正则化项, ...
- L1正则化和L2正则化(从解空间角度)
文章目录 一.什么是过拟合? 二.为什么模型会过拟合? 三.如何防止模型过拟合? 四.L1正则和L2正则 4.1 L1.L2的区别 4.2 为什么正则化能够防止过拟合? 4.3 为什么L1正则具有稀疏 ...
- 【AI面试】L1 loss、L2 loss和Smooth L1 Loss,L1正则化和L2正则化
损失函数是深度学习模型优化的一个灵魂基础,所以无论是很新的transform模型,还是比较早期的AlexNet,都不可避免的要涉及到损失函数的设计和应用. 所以,各种形形色色的损失函数(Loss)也就 ...
- l1正则化和l2正则化_l1 vs l2正则化以及何时使用
l1正则化和l2正则化 I have read many articles on the topic to find out which is better out of two and what s ...
- 【L1正则化与L2正则化详解及为什么L1和L2正则化可防止过拟合】
一.为什么L1和L2正则化可防止过拟合? 线性模型常用来处理回归和分类任务,为了防止模型处于过拟合状态,需要用L1正则化和L2正则化降低模型的复杂度,很多线性回归模型正则化的文章会提到L1是通过稀疏参 ...
- L1正则化,L2正则化与范数的关系?
目录 深度学习基础:L1正则化,L2正则化与范数的关系? 范数的概念 范数如何与正则联系起来? 为什么最小化权重的范数就可以实现正则化? L1L1L1 范数和 L2L2L2 **范数** 有什么区别? ...
- L1正则化、L2正则化的多角度分析和概率角度的解释
L1正则化.L2正则化的公式如下 min w L 1 ( w ) = min w f ( w ) + λ n ∑ i = 1 n ∣ w i ∣ min w L 2 ( w ) = min ...
- L1正则化与L2正则化
1.1-范数,2-范数 1-范数: 2-范数:2-范数就是通常意义下的距离 2.L1和L2正则化 我们所说的正则化,就是在原来的loss function的基础上,加上了一些正则化项或者称为模型复杂度 ...
最新文章
- 深度学习实战讲词嵌入 很好的 NLP电子书
- php项目后的感受,PHP项目感受4 - 刘景刘恒的个人空间 - OSCHINA - 中文开源技术交流社区...
- cisco 6509交换配置
- 《Arduino开发实战指南:LabVIEW卷》——3.2 LabVIEW的数据流编程方法
- IKVM 编程武林之.NET派的北冥神功
- LVS--NAT模型
- H5页面适配 iPhoneX
- Hazelcast发布开源流处理引擎Jet
- 基于turtle库用python画太极图案
- 蓝桥杯-标题:史丰收速算
- android 关闭来电铃声,Android删除除自定义铃声后,来电铃声显示是一串数字
- 四、子弹类的创建,飞机子弹发射与无用子弹的销毁(雷霆战机)
- 2005 最新GIS地理信息系统软件
- 北京信息科技大学第十三届程序设计竞赛暨ACM选拔赛(重现赛)题解
- AUTOSAR DiagnosticLogAndTrace DLT(三)-- 消息的发送、DLT命令的发送与接收
- Web前端系列技术之HTML基础(从入门开始)①
- 准备使用Office 365中国版--购买
- sd和sem啥区别_sd和sem的区别 sem测试主要测什么
- 实战6:基于OpenCV的人脸口罩识别检测详细教程
- java 众数 中位数_中位数和众数