本篇笔记将介绍深度学习中几种优化算法,SGD,Momentum,Nestrov,AdaGrad,RMSprop和Adam的理解以及简单的python实现


一、SGD

随机梯度下降法不用多说,每一个参数按照梯度的方向来减小以追求最小化损失函数

更新方式

Python实现

class 

二 、Momentum

在梯度下降的基础上加入了动量,即前面的梯度将会影响本轮的梯度方向

更新方式

Python实现

class 

三、Nestrov

Nestrov也是一种动量更新的方式,但是与普通动量方式不同的是,Nestrov为了加速收敛,提前按照之前的动量走了一步,然后求导后按着梯度再走一步

更新方式

但是这样一来,就给实现带来了很大的麻烦,因为我们当前是在W的位置上,无法求得W+αv处的梯度,所以我们要进行一定改变。由于W与W+αv对参数来说没有什么区别,所以我们可以假设当前的参数就是W+αv。就像下图,按照Nestrov的本意,在0处应该先按照棕色的箭头走αv到1,然后求得1处的梯度,按照梯度走一步到2。

现在,我们假设当前的W就是1处的参数,但是,当前的动量v仍然是0处的动量,那么更新方式就可以写作

这样一来,动量v就更新到了下一步的2处的动量。但是下一轮的W相应的应该在3处,所以W还要再走一步αv,即完整的更新过程应该如下所示:

第二行的v是第一行更新的结果,为了统一v的表示,更新过程还可以写作:

Python实现

class 

但是根据我看到的各个框架的代码,它们好像都把动量延迟更新了一步,所以实现起来有点不一样(或者说是上下两个式子的顺序进行了颠倒),我也找不到好的解释,但是在MNIST数据集上最终的结果要好于原来的实现。

Python实现

class 

四、AdaGrad

前面介绍了几种动量法,动量法旨在通过每个参数在之前的迭代中的梯度,来改变当前位置参数的梯度,在梯度稳定的地方能够加速更新的速度,在梯度不稳定的地方能够稳定梯度。

而AdaGrad则是一种完全不同的思路,它是一种自适应优化算法。它通过每个参数的历史梯度,动态更新每一个参数的学习率,使得每个参数的更新率都能够逐渐减小。前期梯度加大的,学习率减小得更快,梯度小的,学习率减小得更慢些。

更新过程为

其中δ用于防止除零错

Python实现

class 

五、RMSprop

AdaGrad有个问题,那就是学习率会不断地衰退。这样就会使得很多任务在达到最优解之前学习率就已经过量减小,所以RMSprop采用了使用指数衰减平均来慢慢丢弃先前得梯度历史。这样一来就能够防止学习率过早地减小。

更新过程如下:

Python实现

class 

六、Adam

Adam方法结合了上述的动量(Momentum)自适应(Adaptive),同时对梯度和学习率进行动态调整。如果说动量相当于给优化过程增加了惯性,那么自适应过程就像是给优化过程加入了阻力。速度越快,阻力也会越大。

Adam首先计算了梯度的一阶矩估计和二阶矩估计,分别代表了原来的动量和自适应部分

β_1 与 β_2 是两个特有的超参数,一般设为0.9和0.999

但是,Adam还需要对计算出的矩估计进行修正

其中t是迭代的次数,修正的原因在

Why is it important to include a bias correction term for the Adam optimizer for Deep Learning?​stats.stackexchange.com

这个问题中有非常详细的解释。

简单来说就是由于m和v的初始指为0,所以第一轮的时候会非常偏向第二项,那么在后面计算更新值得时候根据β_1 与 β_2的初始值来看就会非常的大,需要将其修正回来。而且由于β_1 与 β_2很接近于1,所以如果不修正,对于最初的几轮迭代会有很严重的影响。

最后就是更新参数值,和AdaGrad几乎一样,只不过是用上了上面计算过的修正的矩估计

python实现

class 

七、参考

《Deep Learning》花书

《深度学习入门——基于python的理论与实现》

线材下料优化python算法_深度学习中的优化算法(Optimizer)理解与python实现相关推荐

  1. nfa确定化 dfa最小化_深度学习中的优化:梯度下降,确定全局最优值或与之接近的局部最优值...

    深度学习中的优化是一项极度复杂的任务,本文是一份基础指南,旨在从数学的角度深入解读优化器. 一般而言,神经网络的整体性能取决于几个因素.通常最受关注的是网络架构,但这只是众多重要元素之一.还有一个常常 ...

  2. 深度学习中的优化算法串讲

    Datawhale原创 作者:谢文睿,Datawhale成员 寄语:优化算法是一个超参数,一个优化算法不是适合所有损失函数的,没有哪个优化算法是绝对的好或绝对的坏,是要根据损失函数判断的 本文对深度学 ...

  3. 深度学习算法(第5期)----深度学习中的优化器选择

    欢迎关注微信公众号"智能算法" – 原文链接(阅读体验更佳): 深度学习算法(第5期)----深度学习中的优化器选择 上一期,我们一起学习了TensorFlow在训练深度网络的时候 ...

  4. 深度学习中的优化算法之Adam

    之前在https://blog.csdn.net/fengbingchun/article/details/124909910 介绍过深度学习中的优化算法Adadelta,这里介绍下深度学习的另一种优 ...

  5. 深度学习中的优化算法之RMSProp

    之前在https://blog.csdn.net/fengbingchun/article/details/124766283 中介绍过深度学习中的优化算法AdaGrad,这里介绍下深度学习的另一种优 ...

  6. 手撕深度学习中的优化器

    深度学习中的优化算法采用的原理是梯度下降法,选取适当的初值params,不断迭代,进行目标函数的极小化,直到收敛.由于负梯度方向时使函数值下降最快的方向,在迭代的每一步,以负梯度方向更新params的 ...

  7. 深度学习中的优化简介

    深度学习算法在许多情况下都涉及到优化. 1. 学习和纯优化有什么不同 在大多数机器学习问题中,我们关注某些性能度量P,其定义于测试集上并且可能是不可解的.因此,我们只是间接地优化P.我们系统通过降低代 ...

  8. 深度学习中的优化算法与实现

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 GiantPandaCV导语:这篇文章的内容主要是参考 沐神的mxnet/gluon视频中,Aston ...

  9. 正则化的通俗解释_干货|深度学习中的正则化技术概述(附Python+keras实现代码)...

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 介绍 数据科学研究者们最常遇见的问题之一就是怎样避免过拟合.你也许在训练模型的时候也遇 ...

  10. 深度学习中的优化算法之MBGD

    之前在https://blog.csdn.net/fengbingchun/article/details/75351323 介绍过梯度下降,常见的梯度下降有三种形式:BGD.SGD.MBGD,它们的 ...

最新文章

  1. iOS 中的网络请求 (同步请求、异步请求、GET请求、POST请求)
  2. java基础学习总结——接口
  3. dp按照规模分类总结
  4. Linux定时任务Crontab命令详解
  5. 算法----字符串拷贝
  6. 快速傅里叶变换学习笔记(更新中)
  7. PHP安全编程:register_globals的安全性
  8. 免费DDOS攻击测试工具大合集
  9. D. Binary Spiders(dpTrie)
  10. 视频剪辑教程,视频批量分割,分割后的新视频怎么保存
  11. 要写码,又要做年终总结PPT?高效神器保住你的发际线
  12. neutron-server.service启动失败显示代理报错http://controller:9696/v2.0/agents.json
  13. OpenCV数字图像处理基于C++:灰度变换
  14. pdf合并的工具下载
  15. python下划线怎么输入_Python中下划线的使用方法有哪些
  16. 按shift delete删除的文件还能恢复吗?shift+delete删除的文件如何恢复?
  17. 虚拟机Ubuntu没有IP地址上不了网
  18. 灰度重心法提取中心线遇到的问题
  19. JavaPOI导出Excel合集——Java导出全内容
  20. 渗透测试 ( 3 ) --- Metasploit Framework ( MSF )

热门文章

  1. php+mysql事务处理例子详细分析实例
  2. “导航技术”学习笔记
  3. Android 打开WIFI并快速获取WIFI的信息
  4. dns服务与配置管理,一机多站
  5. yum快速安装mysql
  6. 二分查找递归、非递归实现(Python)
  7. java 设置全局热键_第三方包jintellitype实现Java设置全局热键
  8. python set集合与列表_python set集合的添加、删除、修改和访问操作/frozenset 集合,集合内置方法完整列表-立地货...
  9. Android实现计算器布局(相对布局)
  10. 关于继承中调用成员变量和局部变量以及如何区分子类和父类中的变量,白话文详解,适合刚刚接触编程的新手