【李宏毅机器学习】task05-网络设计的技巧
文章目录
- 局部最值(Local Minimum)与鞍点(Saddle Point)
- 处理鞍点
- 处理局部最小值
- 批次(batch)和动量(Momentum)
- 自动调整学习速率
- Batch Normalization
局部最值(Local Minimum)与鞍点(Saddle Point)
在训练过程中,不可避免的会有局部最小值和鞍点的问题。它们的梯度都为0,我们把这两种点统称为临界点(Critical Point)
那么如何分辨临界点呢
我们可以在θ\thetaθ附近找一点θ′\theta^\primeθ′,通过泰勒展开,在θ′\theta ^ \primeθ′点逼近L(θ)L(\theta)L(θ)
L(θ)≈L(θ′)+(θ−θ′)Tg+0.5(θ−θ′)TH(θ−θ′)
梯度ggg为0,那么
L(θ)≈L(θ′)+0.5(θ−θ′)TH(θ−θ′)
当HHH为正定矩阵(所有特征值为正)时,θ′\theta ^ \primeθ′为局部最小值
如果有正有负那么为鞍点。
处理鞍点
我们需要梯度朝向损失函数小的地方,所以使用负特征值对应特征向量uuu作为梯度,那么θ=θ′+u\theta=\theta ^ \prime+uθ=θ′+u
处理局部最小值
- 局部最小值极少出现
- 可以通过升维转化为鞍点
批次(batch)和动量(Momentum)
批次:将数据分为多段,分批训练网络
批次优势:即使有一个段是局部最小值,其他部分不是,那么就不是局部最小值
批次大小:
- 在并行计算情况下,大批次更快
- 小批次更加稳定,泛化率高
Momentum方法:m1=λm0−ηg0m_1 = \lambda m_0 - ηg_0m1=λm0−ηg0,θ=θ′+m1\theta = \theta^\prime + m_1θ=θ′+m1
自动调整学习速率
Loss一直在高位的原因可能是步子迈的太大在山谷间来回震荡。但步子迈得太小又会降低效率,于是我们需要自适应梯度。
如下图,下一步有梯度和学习率共同决定,随迭代次数逐渐增加,梯度会越来越小。(类似模拟退火)
当然为了防止陷入局部最小值,我们可以在学习率十分低时突然清零,跳出局部,看看最后收敛是否还在原来位置。
我们还增加了权值α\alphaα,使梯度由当前梯度和历史梯度共同决定
Batch Normalization
归一化,略
【李宏毅机器学习】task05-网络设计的技巧相关推荐
- 李宏毅机器学习课程9~~~深度学习技巧
Recipe of Deep Learning Overfitting overfitting的判断是要训练误差与测试误差做比较.这个56-layer的网络在训练集上都没有训练好,说白了就是有点欠拟合 ...
- 【11月组队学习】 网络设计的技巧
写在前面:机器学习的trick非常多,在训练模型的时候如何判断哪些trick有效更加重要. 关于Local minima和Saddle point 在深度学习等搭建的多参数模型中,更多的是可逃离的sa ...
- 【李宏毅机器学习CP1-3】(task1)机器学习简介分类|回归
文章目录 1.机器学习的过程 2.机器学习相关分类 3.选择合适的model,loss function 4.CP3 一.回归定义和应用例子 回归定义 应用举例 二.模型步骤 Step 1:模型假设 ...
- 李宏毅机器学习——对抗生成网络(GAN)
代码部分参考:李宏毅机器学习作业6-使用GAN生成动漫人物脸_iwill323的博客-CSDN博客 目录 基本概念介绍 生成器(generator) 什么时候需要输出一个分布 Generative A ...
- 深度网络设计技巧(五)之VAN:Visual Attention Network#超越Swin的纯CNN#
单位:清华,南开(程明明团队) ArXiv:https://arxiv.org/abs/2202.09741 Github: https://github.com/Visual-Attention-N ...
- 李宏毅机器学习—读书笔记
李宏毅机器学习笔记(LeeML-Notes) leeml-notes 机器学习 人工智慧(Artificial Intelligence)是我们想要达成的目标,希望机器可以跟人一样的聪明.机器学习(M ...
- 资料分享:推荐一本《李宏毅机器学习》开源电子书!
背景 今天在 github 上看到了 datawhale 发布的 李宏毅机器学习笔记. https://datawhalechina.github.io/leeml-notes 其目录如下: P1 机 ...
- 【李宏毅机器学习】Convolutiona Neural Network 卷积神经网络(p17) 学习笔记
李宏毅机器学习学习笔记汇总 课程链接 文章目录 Why CNN for image? property1:对于整张图来说,一些局部是很小的 property2:相同的部分会出现在不同的图片中 prop ...
- 【李宏毅机器学习】Brief Introduction of Deep Learning 深度学习简介(p12) 学习笔记
李宏毅机器学习学习笔记汇总 课程链接 Deep Learning 文章目录 Deep Learning Deep Learning attracts lots of attention Ups and ...
- 李宏毅-机器学习-RNN-笔记
文章目录 前言 1 RNN 1.1 引例导入 1.2 RNN 1.3 举例 2 Long Short-term Memeory (LSTM) 2.1 LSTM 基本组成 2.2 LSTM实例 2.3L ...
最新文章
- ML之MLiR:输入两个向量,得出两个向量之间的相关度
- QT的QDnsLookup类的使用
- oci连接mysql_OCILIB 连接Oracle数据库——插入数据
- OJ1026: 字符类型判断
- cif t t操作流程图_T+操作手册
- 论文阅读:A Progressive Architecture With Knowledge Review Network for Salient Object Detection
- Java 基础——日期(Date)的解析
- 威伦触摸屏脚本,宏指令
- AltiumDesigner原理图库修改操作流程
- 访问网络共享找不到网络名的解决方案
- Bootstrap框架----标签Tag输入用法--Bootstrap-tagsinput
- python编程书在线阅读_Python编程完全入门教程
- [转] 最火的42部美剧,练听力的不二之选
- php和durex,做避孕的杜蕾斯突然收购奶粉厂,竟是这样的理由……
- 输入一个字符串并原样输出。
- MATLAB之高斯消元法
- 参加2020Jam初赛记录与部分题目解答
- android view.gone 动画,android – 如何动画View.setVisibility(GONE)
- 笔记-uni-app入门到实战 以项目为导向 掌握完整开发流程
- 服务器空间不足的原因有哪些