RMSprop算法全称是root mean square prop算法,该算法可以加速梯度下降,回忆一下之前的例子,如果执行梯度下降,虽然横轴方向正在推进,但纵轴方向会有大幅度的摆动,假设纵轴代表参数b,横轴代表参数W,可能有W1W_1W1​,W2W_2W2​或者其它重要的参数,为了便于理解,称为b和W。所以如果想减缓b方向的学习,同时加快横轴方向的学习,RMSprop算法可以实现这一点。

在第t次迭代中,该算法会照常计算当下mini-batch的微分dWdWdW和dbdbdb。这里用新符号SdwS_{dw}Sdw​,Sdw=β∗Sdw+(1−β)∗(dW)2S_{dw}=\beta*S_{dw} +(1-\beta)*(dW)^2 Sdw​=β∗Sdw​+(1−β)∗(dW)2公式中平方的操作是针对这一整个符号的,这样做能够保留微分平方的加权平均数。同样有Sdb=β∗Sdb+(1−β)∗(db)2S_{db}=\beta * S_{db}+(1-\beta)*(db)^2Sdb​=β∗Sdb​+(1−β)∗(db)2参数更新公式变为W=W−α∗dWSdWW=W-\alpha * \frac{dW}{\sqrt{S_{dW}}}W=W−α∗SdW​​dW​b=b−α∗dbSdbb=b-\alpha*\frac{db}{\sqrt{S_{db}}}b=b−α∗Sdb​​db​我们理解一下其中的原理,在横轴方向或者在例子中的W方向,我们希望学校速度快,而在垂直方向,也就是例子中的b方向,我们希望减缓纵轴上的摆动。所以有了SdWS_{dW}SdW​和SdbS_{db}Sdb​,我们希望SdWS_{dW}SdW​会相对较小,所以W参数更新要除以一个较小的数,而希望SdbS_dbSd​b较大,这样b更新会除以一个较大的数字,这样就可以减缓纵轴上的变化。

RMSprop的影响就是,纵轴方向上的摆动较小,而横轴方向继续推进。还有个影响就是,可以用更大学习率α\alphaα加快学习。

在RMSprop中要确保算法不会除于0,如果SdWS^{dW}SdW的平方根趋近于0怎么办?这样得到的答案非常大,为了确保数值稳定,在实际中操作的时候,要在分母加上一个很小很小的ε\varepsilonε,ε\varepsilonε是多少没关系,KaTeX parse error: Expected 'EOF', got '&' at position 3: 10&̲{-8}是个不错的选择,这只是保证数值能够稳定一些。无论什么原因,都不会除以一个很小很小的数,所以RMSprop跟Momentum有很相似的一点,可以消除梯度下降中的摆动,并允许使用一个更大的学习率alphaalphaalpha,从而加快算法学习速度。

改善深层神经网络:超参数调整、正则化以及优化——2.7 RMSprop相关推荐

  1. 交叉验证和超参数调整:如何优化您的机器学习模型

    In the first two parts of this article I obtained and preprocessed Fitbit sleep data, split the data ...

  2. 2020-6-9 吴恩达-改善深层NN-w3 超参数调试(3.3 超参数训练的实践:Pandas(资源少,一次一个模型) VS Caviar(资源多,一次多个模型))

    1.视频网站:mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c 2.详细笔记网站(中文):http://www.ai-sta ...

  3. python/keras中用Grid Search对神经网络超参数进行调参

    原文:How to Grid Search Hyperparameters for Deep Learning Models in Python With Keras 作者:Jason Brownle ...

  4. 02.改善深层神经网络:超参数调试、正则化以及优化 W2.优化算法(作业:优化方法)

    文章目录 1. 梯度下降 2. mini-Batch 梯度下降 3. 动量 4. Adam 5. 不同优化算法下的模型 5.1 Mini-batch梯度下降 5.2 带动量的Mini-batch梯度下 ...

  5. 02.改善深层神经网络:超参数调试、正则化以及优化 W1.深度学习的实践层面(作业:初始化+正则化+梯度检验)

    文章目录 作业1:初始化 1. 神经网络模型 2. 使用 0 初始化 3. 随机初始化 4. He 初始化 作业2:正则化 1. 无正则化模型 2. L2 正则化 3. DropOut 正则化 3.1 ...

  6. 02.改善深层神经网络:超参数调试、正则化以及优化 W3. 超参数调试、Batch Norm和程序框架(作业:TensorFlow教程+数字手势预测)

    文章目录 1. 探索TensorFlow库 1.1 线性函数 1.2 计算 sigmoid 1.3 计算损失函数 1.4 One_Hot 编码 1.5 用0,1初始化 2. 用TensorFlow建立 ...

  7. 02.改善深层神经网络:超参数调试、正则化以及优化 W3. 超参数调试、Batch Norm和程序框架

    文章目录 1. 调试处理 2. 为超参数选择合适的范围 3. 超参数调试的实践 4. 归一化网络的激活函数 5. 将 Batch Norm 拟合进神经网络 6. Batch Norm 为什么奏效 7. ...

  8. 02.改善深层神经网络:超参数调试、正则化以及优化 W2.优化算法

    文章目录 1. Mini-batch 梯度下降 2. 理解 mini-batch 梯度下降 3. 指数加权平均数 4. 理解指数加权平均数 5. 指数加权平均的偏差修正 6. 动量Momentum梯度 ...

  9. 02.改善深层神经网络:超参数调试、正则化以及优化 W1.深度学习的实践层面

    文章目录 1. 训练,验证,测试集 2. 偏差,方差 3. 机器学习基础 4. 正则化 5. 为什么正则化预防过拟合 6. dropout(随机失活)正则化 7. 理解 dropout 8. 其他正则 ...

  10. 深度学习(二)吴恩达给你的人工智能第一课: 02.改善深层神经网络:超参数调试、正则化以及优化

    目录 第一周 深度学习的实用层面 1.1 训练 / 开发 / 测试集 1.1.1. 训练集.验证集.测试集 ​         1.2 偏差 / 方差 1.3 机器学习基础 1.3.1.降低偏差/降低 ...

最新文章

  1. 为SharePoint 2010创建Application Page
  2. notepad++ 文本文件内容丢失恢复
  3. java 数字计算精度问题
  4. rails db 查询优化_如何优化查询以解决Rails中常见的可伸缩性瓶颈
  5. 常见十大排序算法--python3实现
  6. Gradle简单使用
  7. php创建对象出问题,activex部件不能创建对象
  8. bi 工具 市场排行榜_bi工具市场排行榜,国内BI软件排名
  9. 做互联网产品运营的一点心得
  10. 如何计算摄影参数:分区基准面高程、相对航高、绝对航高、基线长度、航线间隔、航线数、每条航线的相片数、总相片数。
  11. linux多点触摸屏驱动程序,Linux系统实现支持多点触控操作[视频]
  12. 银行卡三要素实名认证接口
  13. excel怎么把竖排变成横排_排版丑怎么办?5个方法拯救你
  14. html魔方转动效果,简单说 用CSS做一个魔方旋转的效果
  15. 程序员噩梦typescript+vue3
  16. ubuntu16.04升级至18.04
  17. 美貌智慧不可兼得?超模琳赛 斯科特变身程序员
  18. 【嵌入式开发教程6】手把手教你做平板电脑-触摸屏驱动实验教程
  19. Fortran—格式化输入输出控制
  20. 3.3 设置坐标轴的长度和范围

热门文章

  1. nusoap传递数组对象
  2. Android Service LifeCycle
  3. 深入 JavaScript 装饰器
  4. Serverless 实战 —— 轻松搭建基于 SpringBoot + Vue 的 Web 商城应用
  5. 容器编排技术 -- 了解Kubernetes对象
  6. 计算机网络的最短帧长公式,每日一题 | CSMA/CD协议的最短帧长公式
  7. 初学java小白的疑惑梳理
  8. 【熊猫多模式站群开发日志】权限控制拦截器
  9. 【css】响应式布局 @media媒介 适配平板手机
  10. 斐讯N1刷Armbian_5.62,无法自动获取到ip怎么办?