文章目录

  • 1. 什么是梯度?求梯度有什么公式?
  • 2. 批量梯度下降 | 随机梯度下降 | 小批度梯度下降 区别
  • 3. 随机梯度下降的两种方式:原始形式 和 对偶形式

1. 什么是梯度?求梯度有什么公式?

  1. 什么是梯度? 区分:梯度向量、Jacobian、Hessian矩阵

  2. 求梯度向量的公式:【以下公式的证明点击此处查看】

2. 批量梯度下降 | 随机梯度下降 | 小批度梯度下降 区别

  1. 批量梯度下降:经过训练集的所有样本后才更新一次参数

    1. 最后得到的是一个全局最优解。
    2. 由于算法复杂度是看迭代次数,所以适用于样本量大的情况。
  2. 随机梯度下降:每经过到训练集的一个样本就更新一次参数
    1. 最后得到的可能是全局最优解,也可能是局部最优解。
    2. 由于算法复杂度是看迭代次数,所以适用于样本量较小的情况。(样本量越少越容易更快的找到极值点)
  3. 小批度梯度下降:是批量梯度下降与随机梯度下降的折中。对于所有要经过的点,经过一小批点更新一次参数
    1. 最后得到的可能是全局最优解,也可能是局部最优解。
    2. 适用于样本量折中的一种情况。

举一个例子:

感知机模型中经验风险为:

假设目标函数为经验风险最小化,那么对 Remp(w, b) 求梯度有:(使用上面提到的求梯度的公式很容易得到以下结果)

  1. 由于梯度是航叔上升或下降最快的方向,所以自然的得到参数的更新公式:

    很显然,这是经过训练集的所有样本后才更新一次参数。这就是批量梯度下降

  2. 只需要将上面的求和去掉就变成了经过一个样本更新一次参数。即:随机梯度下降

3. 随机梯度下降的两种方式:原始形式 和 对偶形式

随机梯度下降的核心是每经过到训练集的一个样本就更新一次参数。而对于参数更新的公式也可以不同。

  1. 原始形式的随机梯度下降:就是前面介绍的,根据批量梯度下降的参数迭代公式改进得到。

  2. 对偶形式的随机梯度下降:根据原始形式的随机梯度下降的参数迭代公式改进得到。降低了计算量。

    注意:只要某方法有对应的对偶形式,那么它一定是对原始形式在以下3个方面之一做了优化:

    1. 降低时间复杂度
    2. 降低空间复杂度
    3. 原问题无法解决,使用对偶形式就可以解决。

还是拿感知机模型的例子举例:

  1. 原始形式:

  2. 改进过程:

批量梯度下降 | 随机梯度下降 | 小批度梯度下降相关推荐

  1. 【数据挖掘】神经网络 后向传播算法 ( 梯度下降过程 | 梯度方向说明 | 梯度下降原理 | 损失函数 | 损失函数求导 | 批量梯度下降法 | 随机梯度下降法 | 小批量梯度下降法 )

    文章目录 I . 梯度下降 Gradient Descent 简介 ( 梯度下降过程 | 梯度下降方向 ) II . 梯度下降 示例说明 ( 单个参数 ) III . 梯度下降 示例说明 ( 多个参数 ...

  2. 批梯度下降 随机梯度下降_梯度下降及其变体快速指南

    批梯度下降 随机梯度下降 In this article, I am going to discuss the Gradient Descent algorithm. The next article ...

  3. 线性回归随机梯度下降_线性回归的批次梯度与随机梯度下降

    线性回归随机梯度下降 In this article, we will introduce about batch gradient and stochastic gradient descent m ...

  4. 坐标下降+随机梯度下降

    坐标下降+随机梯度下降 坐标轴下降法(Coordinate Descent, CD)是一种迭代法,通过启发式的方法一步步的迭代求解函数的最小值,和梯度下降法(GD)不同的时候,坐标轴下降法是沿着坐标轴 ...

  5. python 梯度下降_Python解释的闭合形式和梯度下降回归

    python 梯度下降 机器学习 , 编程 (Machine learning, Programming) 介绍 (Introduction) Regression is a kind of supe ...

  6. 人工智能算法之梯度下降法、协同过滤、相似度技术、ALS算法(附案例分析)、模型存储与加载、推荐系统的冷启动问题

    梯度下降法 求解机器学习算法的模型参数,即无约束优化问题时,梯度下降法是最常采用的方法之一,另一种常用的方法是最小二乘法.这里对梯度下降法做简要介绍. 最小二乘法法适用于模型方程存在解析解的情况.如果 ...

  7. 【梯度下降法】详解优化算法之梯度下降法(原理、实现)

    本文收录于<深入浅出讲解自然语言处理>专栏,此专栏聚焦于自然语言处理领域的各大经典算法,将持续更新,欢迎大家订阅! ​个人主页:有梦想的程序星空 ​个人介绍:小编是人工智能领域硕士,全栈工 ...

  8. 用户参与度与活跃度的区别_用户参与度突然下降

    用户参与度与活跃度的区别 disclaimer: I don't work for Yammer, this is a public data case study, I've written it ...

  9. 梯度、梯度法、python实现神经网络的梯度计算

    [机器学习]梯度.梯度法.python实现神经网络的梯度计算 一.python实现求导的代码: 二.what is 梯度 三.使用梯度法寻找神经网络的最优参数 四.神经网络的梯度计算 一.python ...

最新文章

  1. mysql 表空间监控shell_一种通过zabbix监控mysql表空间的方法
  2. SBB:不同植被土壤中细菌古菌的群落分布模式比较
  3. 波士顿动力双足机器人Atlas放出逆天体操表演,网友:比我还强
  4. Oracle私房菜之安装Oracle 11g
  5. 21、 TRUNCATE:清空表记录
  6. Cpp 对象模型探索 / 编译器为对象创建缺省析构函数的条件
  7. window 系统上传文件到linux 系统出现dos 格式换行符
  8. Game(HDU-6669)
  9. Spark Streaming自定义接收器
  10. leetcode python3 简单题206. Reverse Linked List
  11. Linux就这个范儿 第8章 我是Makefile
  12. 计算机的分类按cpu芯片可以分为,按CPU芯片可分为单片机、单板机、多芯片机和多板机...
  13. [转]ASP.NET Web API系列教程(目录)
  14. 架构实战篇:使用MyBatis延迟加载模式为数据库减压,附演示实例
  15. 西门子触摸屏中显示HTML,西门子触摸屏上传问题
  16. 杰·亚伯拉罕的产品营销35种策略完整版
  17. Openfire之服务器地址更改
  18. 国企程序员可以干多久
  19. 互联网周刊:草根创业选择题
  20. 普通话测试app怎么样可以不交钱_如何说普通话才算标准?

热门文章

  1. ​力扣解法汇总2347. 最好的扑克手牌
  2. c51时钟数码管显示流程图_基于单片机的电子时钟程序流程图等资料
  3. 整天996,绩效却很一般?CTO让我用“峰终定律”做职场规划
  4. 外接27寸4K显示器贼爽,这就送你
  5. 创利树:以互联网构建跨界联盟价值商圈
  6. acd安装_ACD的完整形式是什么?
  7. mysql函数之截取字符串
  8. MartrikonOP java Unknown error (80040154)
  9. 李宏毅机器学习特训营之作业二年收入判断
  10. Kindle,忽而可以买,忽而不可买,忽而中国版上市