文章目录

  • 局部最值(Local Minimum)与鞍点(Saddle Point)
    • 处理鞍点
    • 处理局部最小值
  • 批次(batch)和动量(Momentum)
  • 自动调整学习速率
  • Batch Normalization

局部最值(Local Minimum)与鞍点(Saddle Point)

在训练过程中,不可避免的会有局部最小值和鞍点的问题。它们的梯度都为0,我们把这两种点统称为临界点(Critical Point)

那么如何分辨临界点呢

我们可以在θ\thetaθ附近找一点θ′\theta^\primeθ′,通过泰勒展开,在θ′\theta ^ \primeθ′点逼近L(θ)L(\theta)L(θ)

L(θ)≈L(θ′)+(θ−θ′)Tg+0.5(θ−θ′)TH(θ−θ′)

梯度ggg为0,那么

L(θ)≈L(θ′)+0.5(θ−θ′)TH(θ−θ′)

当HHH为正定矩阵(所有特征值为正)时,θ′\theta ^ \primeθ′为局部最小值

如果有正有负那么为鞍点。

处理鞍点

我们需要梯度朝向损失函数小的地方,所以使用负特征值对应特征向量uuu作为梯度,那么θ=θ′+u\theta=\theta ^ \prime+uθ=θ′+u

处理局部最小值

  1. 局部最小值极少出现
  2. 可以通过升维转化为鞍点

批次(batch)和动量(Momentum)

批次:将数据分为多段,分批训练网络

批次优势:即使有一个段是局部最小值,其他部分不是,那么就不是局部最小值

批次大小

  1. 在并行计算情况下,大批次更快
  2. 小批次更加稳定,泛化率高

Momentum方法:m1=λm0−ηg0m_1 = \lambda m_0 - ηg_0m1​=λm0​−ηg0​,θ=θ′+m1\theta = \theta^\prime + m_1θ=θ′+m1​

自动调整学习速率

Loss一直在高位的原因可能是步子迈的太大在山谷间来回震荡。但步子迈得太小又会降低效率,于是我们需要自适应梯度。

如下图,下一步有梯度和学习率共同决定,随迭代次数逐渐增加,梯度会越来越小。(类似模拟退火)

当然为了防止陷入局部最小值,我们可以在学习率十分低时突然清零,跳出局部,看看最后收敛是否还在原来位置。

我们还增加了权值α\alphaα,使梯度由当前梯度和历史梯度共同决定

Batch Normalization

归一化,略

【李宏毅机器学习】task05-网络设计的技巧相关推荐

  1. 李宏毅机器学习课程9~~~深度学习技巧

    Recipe of Deep Learning Overfitting overfitting的判断是要训练误差与测试误差做比较.这个56-layer的网络在训练集上都没有训练好,说白了就是有点欠拟合 ...

  2. 【11月组队学习】 网络设计的技巧

    写在前面:机器学习的trick非常多,在训练模型的时候如何判断哪些trick有效更加重要. 关于Local minima和Saddle point 在深度学习等搭建的多参数模型中,更多的是可逃离的sa ...

  3. 【李宏毅机器学习CP1-3】(task1)机器学习简介分类|回归

    文章目录 1.机器学习的过程 2.机器学习相关分类 3.选择合适的model,loss function 4.CP3 一.回归定义和应用例子 回归定义 应用举例 二.模型步骤 Step 1:模型假设 ...

  4. ​李宏毅机器学习——对抗生成网络(GAN)

    代码部分参考:李宏毅机器学习作业6-使用GAN生成动漫人物脸_iwill323的博客-CSDN博客 目录 基本概念介绍 生成器(generator) 什么时候需要输出一个分布 Generative A ...

  5. 深度网络设计技巧(五)之VAN:Visual Attention Network#超越Swin的纯CNN#

    单位:清华,南开(程明明团队) ArXiv:https://arxiv.org/abs/2202.09741 Github: https://github.com/Visual-Attention-N ...

  6. 李宏毅机器学习—读书笔记

    李宏毅机器学习笔记(LeeML-Notes) leeml-notes 机器学习 人工智慧(Artificial Intelligence)是我们想要达成的目标,希望机器可以跟人一样的聪明.机器学习(M ...

  7. 资料分享:推荐一本《李宏毅机器学习》开源电子书!

    背景 今天在 github 上看到了 datawhale 发布的 李宏毅机器学习笔记. https://datawhalechina.github.io/leeml-notes 其目录如下: P1 机 ...

  8. 【李宏毅机器学习】Convolutiona Neural Network 卷积神经网络(p17) 学习笔记

    李宏毅机器学习学习笔记汇总 课程链接 文章目录 Why CNN for image? property1:对于整张图来说,一些局部是很小的 property2:相同的部分会出现在不同的图片中 prop ...

  9. 【李宏毅机器学习】Brief Introduction of Deep Learning 深度学习简介(p12) 学习笔记

    李宏毅机器学习学习笔记汇总 课程链接 Deep Learning 文章目录 Deep Learning Deep Learning attracts lots of attention Ups and ...

  10. 李宏毅-机器学习-RNN-笔记

    文章目录 前言 1 RNN 1.1 引例导入 1.2 RNN 1.3 举例 2 Long Short-term Memeory (LSTM) 2.1 LSTM 基本组成 2.2 LSTM实例 2.3L ...

最新文章

  1. ML之MLiR:输入两个向量,得出两个向量之间的相关度
  2. QT的QDnsLookup类的使用
  3. oci连接mysql_OCILIB 连接Oracle数据库——插入数据
  4. OJ1026: 字符类型判断
  5. cif t t操作流程图_T+操作手册
  6. 论文阅读:A Progressive Architecture With Knowledge Review Network for Salient Object Detection
  7. Java 基础——日期(Date)的解析
  8. 威伦触摸屏脚本,宏指令
  9. AltiumDesigner原理图库修改操作流程
  10. 访问网络共享找不到网络名的解决方案
  11. Bootstrap框架----标签Tag输入用法--Bootstrap-tagsinput
  12. python编程书在线阅读_Python编程完全入门教程
  13. [转] 最火的42部美剧,练听力的不二之选
  14. php和durex,做避孕的杜蕾斯突然收购奶粉厂,竟是这样的理由……
  15. 输入一个字符串并原样输出。
  16. MATLAB之高斯消元法
  17. 参加2020Jam初赛记录与部分题目解答
  18. android view.gone 动画,android – 如何动画View.setVisibility(GONE)
  19. 笔记-uni-app入门到实战 以项目为导向 掌握完整开发流程
  20. 服务器空间不足的原因有哪些

热门文章

  1. HTTP/2 504 Gateway Timeout 36369ms
  2. node.js编写前端接口,服务器创建、数据库连接、路由挂载,增删改查、分页查询接口的编写
  3. 支付宝沙箱模拟支付过程
  4. Linux系统下Java 转换Word到PDF时,结果文档内容乱码的解决方法
  5. python数据科学常国珍_python数据科学:技术详解与商业实践
  6. Win7 iis的安装与配置
  7. 浅谈Java等软件和嵌入式的区别,给你明确一个方向
  8. 远程会议的正确打开方式
  9. about 原型相关
  10. android自定义指南针罗盘学习笔记