1.、权重衰减(weight decay)

L2正则化的目的就是为了让权重衰减到更小的值,在一定程度上减少模型过拟合的问题,所以权重衰减也叫L2正则化。

L2正则化就是在代价函数后面再加上一个正则化项:

其中C0代表原始的代价函数,后面那一项就是L2正则化项,它是这样来的:所有参数w的平方的和,除以训练集的样本大小n。λ就是正则项系数,权衡正则项与C0项的比重。另外还有一个系数1/2,1/2 1/211经常会看到,主要是为了后面求导的结果方便,后面那一项求导会产生一个2,与1/2相乘刚好凑整为1。系数λ就是权重衰减系数。

我们对加入L2正则化后的代价函数进行推导,先求导:

可以发现L2正则化项对b的更新没有影响,但是对于w的更新有影响:

在不使用L2正则化时,求导结果中w前系数为1,现在w前面系数为1-ηλ/n,因为η、λ、n都是正的,所以1-ηλ/n小于1,它的效果是减小w,这也就是权重衰减(weight decay)的由来。当然考虑到后面的导数项,w最终的值可能增大也可能减小。

另外,需要提一下,对于基于mini-batch的随机梯度下降,w和b更新的公式跟上面给出的有点不同:

对比上面w的更新公式,可以发现后面那一项变了,变成所有导数加和,乘以η再除以m,m是一个mini-batch中样本的个数。

作用:权重衰减(L2正则化)可以避免模型过拟合问题。

思考:L2正则化项有让w变小的效果,但是为什么w变小可以防止过拟合呢?

原理:(1)从模型的复杂度上解释:更小的权值w,从某种意义上说,表示网络的复杂度更低,对数据的拟合更好(这个法则也叫做奥卡姆剃刀),而在实际应用中,也验证了这一点,L2正则化的效果往往好于未经正则化的效果。(2)从数学方面的解释:过拟合的时候,拟合函数的系数往往非常大,为什么?如下图所示,过拟合,就是拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。在某些很小的区间里,函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大,由于自变量值可大可小,所以只有系数足够大,才能保证导数值很大。而正则化是通过约束参数的范数使其不要太大,所以可以在一定程度上减少过拟合情况。

动态正则化权重系数_权重衰减防止过拟合(L2正则化)相关推荐

  1. 动态正则化权重系数_蘑菇街增量学习番外篇三:deepFM的动态正则实践

    欢迎关注公众号: 『诗品算法』,禁止一切未经本人@琦琦许可的转载.转载必须注明出处. 0.引言 这篇文章仍是在蘑菇街 增量学习背景下的实践,增量学习的理论很简单,但实践起来,还是有很多细节和trick ...

  2. 动态正则化权重系数_多参数正则化的动态光散射测量数据反演

    ISSN 1QQ6 -7167 CN 31 - 1707/T RESEARCH AND EXPLORATION IN LABORATORY 第 3 8 卷 第 2 期 2019 年 2 月 Vol.  ...

  3. 屏蔽预训练模型的权重。 只训练最后一层的全连接的权重。_权重/参数初始化...

    一.参数初始化的重要性 参数初始化又称为权重初始化(weight initialization)或权值初始化.深度学习模型训练过程的本质是对weight(即参数 W)进行更新,这需要每个参数有相应的初 ...

  4. 求解神经网络的权重系数,神经网络权重取值范围

    神经网络权值怎么确定? 神经网络的权值是通过对网络的训练得到的.如果使用MATLAB的话不要自己设定,newff之后会自动赋值.也可以手动:{}=;{}=.一般来说输入归一化,那么w和b取0-1的随机 ...

  5. keras添加正则化全连接_第16章 Keras使用Dropout正则化防止过拟合

    Dropout虽然简单,但可以有效防止过拟合.本章关于如何在Keras中使用Dropout.本章包括: dropout的原理 dropout的使用 在隐层上使用dropout 我们开始吧. 16.1 ...

  6. 模型评估(交叉验证——针对回归和分类、均方误差MSE、精度、精确率、召回率、F值、K折交叉验证、如何解决过拟合——L2正则化与L1正则化、欠拟合、如何区分过拟合和欠拟合——学习曲线)

    模型评估 意义:定量地表示机器学习模型的精度 1.交叉验证 把获取的全部训练数据按照 3 : 7或者 2 : 8的比例分成两份:一份用于测试,一份用于训练,然后用前者来评估模型,检查训练好的模型对测试 ...

  7. (tensorflow笔记)神经网络中的一些关键概念(学习率、激活函数、损失函数、欠拟合和过拟合、正则化和优化器)

    目录 1.神经网络复杂度 空间复杂度 时间复杂度 2.学习率策略 指数衰减学习率 分段常数衰减 3.激活函数 sigmoid tanh ReLU Leaky ReLU 建议 4.损失函数 均方误差损失 ...

  8. L1 L2正则化和优化器的weight_decay参数

    L1正则和L2正则的效果有什么差异?为什么? 角度一:解空间形状 通常认为L1 正则化可以产生稀疏权值矩阵,即产生一个参数稀疏的模型. 而L2 正则化可以让模型的参数取绝对值较小的数. 考虑两种正则化 ...

  9. L1正则化和L2正则化讲解

    L1正则化和L2正则化讲解   在机器学习实践过程中,训练模型的时候往往会出现过拟合现象,为了减小或者避免在训练中出现过拟合现象,通常在原始的损失函数之后附加上正则项,通常使用的正则项有两种:L1正则 ...

最新文章

  1. 2020年度国家科学技术奖提名项目公示丨附全名单
  2. iOS使用Charles(青花瓷)抓包并篡改返回数据图文详解
  3. 移动端h5开发总结不断更新中....
  4. 计算机中丢失sense3.dll,sense3.dll
  5. 湖南理工学院计算机老师信息,郭观七(计算机与信息工程系)老师 - 湖南理工学院 - 院校大全...
  6. linux mate桌面主题下载_7款Linux桌面环境推荐,你值得拥有!
  7. 部分网站为什么上不去_企业网站如何霸占搜索引擎首页
  8. 分布式查询处理和优化相关知识介绍
  9. nRFgo Studio 和 Nrfjprog 无法找到JLinkARM.dll的解决方法
  10. 重磅,企业实施大数据的路径
  11. 【Python游戏】Python实现一个简易版本的阴阳师游戏 | 附带源码
  12. VS2005远程调试
  13. net start mysql启动常见问题
  14. VB 获取文件名后缀
  15. Groundhog Chasing Death
  16. fly.io ruby on rails
  17. 台式小风扇(HTML+CSS+JS练手小项目)
  18. android pwm 唤醒 闪屏,A屏低亮度PWM频闪伤眼?拯救OLED屏伤眼的APP了解下
  19. ACM:nbsp;polya定理+hashnbsp;数论题nbsp;pojnbsp;3…
  20. 腾讯哈勃_前5名:哈勃,业力,树莓派,午夜指挥官等

热门文章

  1. 基于Javaee的新生报到系统管理的设计与实现
  2. 软件测试用例篇(2)
  3. Java工具包之-Guava
  4. 使用百度地图api模拟实时定位页面 完整示例
  5. Java 逆向工程
  6. 揭秘:各大视频网站是这样密谋秀场的
  7. 鼠标捕获(setCapture,releaseCapture)的学习
  8. Web 3D智慧变电站三维工程进度系统-WebGL/Threejs实战开发
  9. 搭建用户登录与注册界面项目
  10. 将FlashFXP与ubuntu虚拟机进行连接以实现文件传输