一、weight decay(权值衰减)的使用既不是为了提高你所说的收敛精确度也不是为了提高收敛速度,其最终目的是防止过拟合。在损失函数中,weight decay是放在正则项(regularization)前面的一个系数,正则项一般指示模型的复杂度,所以weight decay的作用是调节模型复杂度对损失函数的影响,若weight decay很大,则复杂的模型损失函数的值也就大。
二、momentum是梯度下降法中一种常用的加速技术。对于一般的SGD,其表达式为 , 沿负梯度方向下降。而带momentum项的SGD则写生如下形式:


其中 即momentum系数,通俗的理解上面式子就是,如果上一次的momentum(即 )与这一次的负梯度方向是相同的,那这次下降的幅度就会加大,所以这样做能够达到加速收敛的过程。
三、normalization。如果我没有理解错的话,题主的意思应该是batch normalization吧。batch normalization的是指在神经网络中激活函数的前面,将 按照特征进行normalization,这样做的好处有三点:
1、提高梯度在网络中的流动。Normalization能够使特征全部缩放到[0,1],这样在反向传播时候的梯度都是在1左右,避免了梯度消失现象。
2、提升学习速率。归一化后的数据能够快速的达到收敛。
3、减少模型训练对初始化的依赖。
作者:陈永志
链接:https://www.zhihu.com/question/24529483/answer/114711446
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

转载于:https://www.cnblogs.com/lindaxin/p/7998334.html

weight decay(权值衰减)、momentum(冲量)和normalization相关推荐

  1. weight decay (权值衰减)

    http://blog.sina.com.cn/s/blog_890c6aa30100z7su.html 在机器学习或者模式识别中,会出现overfitting,而当网络逐渐overfitting时网 ...

  2. 权值衰减weight decay的理解

    1. 介绍 权值衰减weight decay即L2正则化,目的是通过在Loss函数后加一个正则化项,通过使权重减小的方式,一定减少模型过拟合的问题. L1正则化:即对权重矩阵的每个元素绝对值求和, λ ...

  3. 抑制过拟合的方法之权值衰减

    机器学习很常见的一个需要解决的问题就是过度拟合(overift),过拟合的意思是它能够很好的拟合训练数据,但是对于训练数据之外的数据可能就显得差强人意了,也就是常说的泛化能力比较差,所以抑制过拟合就显 ...

  4. 权值衰减和L2正则化傻傻分不清楚?

    点击上方"AI公园",关注公众号,选择加"星标"或"置顶" 作者:Divyanshu Mishra 编译:ronghuaiyang 导读 权 ...

  5. 权值衰减和 L2 正则化傻傻分不清楚?

    作者 | Divyanshu Mishra 编译 | ronghuaiyang 转自 | AI公园 导读 权值衰减和L2正则化,到底是不是同一个东西,这篇文章给你答案. 神经网络是伟大的函数逼近器和特 ...

  6. 使用权值衰减算法解决神经网络过拟合问题、python实现

    使用权值衰减算法解决神经网络过拟合问题.python实现 一.what is 过拟合 二.过拟合原因 三.权值衰减 四.实验验证 4.1制造过拟合现象 4.2使用权值衰减抑制过拟合 一.what is ...

  7. 卷积神经网络中的权值共享

    一.起源 权值共享这个词最开始其实是由LeNet5模型提出来,在1998年,LeCun发布了LeNet网络架构 其实权值共享这个词说全了就是整张图片在使用同一个卷积核内的参数,比如一个3*3*1的卷积 ...

  8. weight decay 的矩阵描述

    weight decay(权重衰减) 又叫regularization(正则化).下面叙述如何用矩阵简明的描述loss表达式,以及矩阵求导问题. loss表达式 L ( w , b ) = η 2 ∣ ...

  9. tf.nn.l2_loss() 与 权重衰减(weight decay)

    权重衰减(weight decay)   L2正则化的目的就是为了让权重衰减到更小的值,在一定程度上减少模型过拟合的问题,所以权重衰减也叫L2正则化.   L2正则化就是在代价函数后面再加上一个正则化 ...

最新文章

  1. linux中mtools工具_Linux mtools命令
  2. PPT 2016的加解密功能
  3. python中的seth函数_Python入门——turtle库的使用
  4. 多线程—AQS独占锁与共享锁原理
  5. AI前沿 | Gartner曲线5大趋势:传感和移动、超能人类、自动机器人、高级人工智能…...
  6. dorehtml.php,帝国cms后台实现刷新多栏目内容页的方法详解
  7. linux vi 排序命令,10 个你必须掌握的超酷 VI 命令技巧
  8. 5个 GIS空间分析 空间查询与量算 的重要知识点
  9. python 相关系数显著检验_Python dataframe 算相关系数用corr(),算不出结果
  10. ie浏览器代理设置方法 怎么给IE浏览器设置代理?
  11. C++实验一简单的C程序设计(一)
  12. 贴吧猫头鹰隐藏二维码是怎么制作的?
  13. java 把文件压缩成zip文件
  14. 安全运维到安全运营的转变
  15. Nodejs生成二维码图片文件
  16. linux打包tar包命令,Linux tar打包命令详解
  17. Vue渲染器(一):渲染器的设计
  18. 带你打造一套 APM 监控系统 之 卡顿监控
  19. C3D、Two-stream、TSN等动作识别方法简介
  20. 爬虫——图像识别和文字处理(代码极少)

热门文章

  1. java 取系统环境变量_java获取和设置系统变量(环境变量)
  2. Linux初学者学习方法
  3. UE4开发神秘海域类游戏原型 初阶(二):动画资源的整合
  4. 建筑施工二维码设备应用
  5. linux磁盘及文件系统之四swap文件系统
  6. VC操作Excel-Automation版
  7. 外卖+电商类小程序——微信小程序心得分享
  8. Error: Watching remote files is not supported.
  9. FPGA Implementation of White Gaussian Noise
  10. 汇编:实模式->保护模式->实模式 的切换步骤