神经网络训练细节part1上

  1. 训练过程

  2. 激活函数

  3. 数据预处理

训练过程

  1. 取一个batch数据
  2. 将数据延着网络前向传播,计算每个单元的输出和损失
  3. 将梯度依据链式法则延网络反向传播
  4. 根据梯度更新参数

激活函数

  1. Sigmoid
  2. tanh
  3. ReLU
  4. Leaky ReLU
  5. PReLU
  6. Maxout
  7. ELU

Sigmoid

(挤压函数)函数图像:

特点:输出在[0,1]之间

问题:

(1)神经元饱和导致梯度消失。在输入值很大或很小的时候输出要么接近0要么接近1,在反向传播过程中梯度会是0,梯度消失。当神经网络较大时,而且很多神经元处于饱和状态,就导致网络无法进行反向传播。

(2)函数输出不是关于原点中心对称的。即激活函数为f,函数输入为,当输入全为正值时,权值的梯度为,所以当x为正时,权值的梯度的符号只取决于所以w的权值都同号,要么全为负值要么全为正值。如果输入全为负值也是类似的道理。所以梯度更新在下图绿色部分,但是如果数据不是全为正值或负值时,权值更新就是红色路径,收敛缓慢。输入数据不是中心对称的时候,收敛速度慢。希望输入数据是关于原点中心对称的,输出也是关于原点中心对称的。

(3)指数计算比较耗时。

tanh

函数图像:

特点:(1)输出函数范围[-1,1]。(2)关于原点中心对称的。

问题:在输入数据很大或很小的时候仍然会发生神经元饱和梯度消失的情况。

ReLU

也称为修正线性函数

函数图像:

特点:(1)在输入数据为正时不会发现神经元饱和梯度消失的情况。(2)计算效率高。(3)收敛速度比tanh和sigmoid快。

问题:(1)也不是关于原点中心对称的。(2)在输入时负值时仍然会出现神经元饱和梯度消失的情况。

注:(1)当x=0时,,此时梯度是未定义的,如果真出现这种情况梯度是1或者0都可以,对网络影响不大。(2)死Relu:从不会被激活。如果可以激活神经元的数据不在数据集内,那这个神经元将永远不会被激活,就成了死神经元。出现死ReLU的情况有两种,第一种就是初始化时权重被设置成了无法激活神经元的值。第二种就是学习率过大,神经元的输出限制在一个范围内波动,可能发生数据多样性缺失。通常会选择初始化神经元的权值为较小数,使网络更有可能输出正值,更可能被激活。

Leaky ReLU

函数图像:

特点:(1)不会出现饱和梯度消失的现象。(2)计算效率高。(3)收敛速度比sigmoid、tanh快。(4)不会出现死神经元的情况。

PReLU

,其中参数是从网络中学习出来的,每二个神经元都有一个自己的

Maxout

特点:(1)是分段线性函数。(2)不会出现饱和梯度消失现象。(3)不会出现死神经元。(4)是ReLU和Leaky ReLU的一般化。

问题:参数数目翻倍。

ELU

指数线性函数

特点:1)在输入数据为正时不会发现神经元饱和梯度消失的情况。(2)计算效率高。(3)收敛速度比tanh和sigmoid快。(4)不会出现死神经元。(5)接近于0均值输入。

问题:计算比较耗时。

数据预处理

常用的两种:(1)减去图像均值(2)减去通道均值:在红绿蓝三个通道中单独计算均值,三个通道分别减去其对应的均值。

CS231n李飞飞计算机视觉 神经网络训练细节part1上相关推荐

  1. [深度学习基础] 斯坦福CS231n李飞飞计算机视觉Lecture 7笔记

    内容列表 Lecture 7 Convolutional Neural Networks 卷积神经网络历史 卷积神经网络具体结构 卷积层 池化层 全连接层 神经网络架构发展 LeNet AlexNet ...

  2. [深度学习基础] 斯坦福CS231n李飞飞计算机视觉Lecture 5笔记

    内容列表 Lecture 5 Training Neural Networks,Part I 神经网络的历史 训练神经网络 激活函数 数据预处理 权重初始化 批量归一化 检查学习过程 超参数优化 小结 ...

  3. [深度学习基础] 斯坦福CS231n李飞飞计算机视觉Lecture 1笔记

    前言:目前做深度学习也有一段时间了,系统的知识也学了很多,但是大多数都是自己在网上所获得的零散的知识,最近看了李飞飞的斯坦福网上公开课,觉得可以好好的巩固一下基础,对每个Lecture做一下笔记,De ...

  4. 斯坦福CS231n李飞飞计算机视觉之线性分类上

    线性分类器简介 线性评分函数 阐明线性分类器 译者注:上篇翻译截止处 损失函数 多类SVM Softmax分类器 SVM和Softmax的比较 基于Web的可交互线性分类器原型 小结 线性分类 上一篇 ...

  5. CS231N斯坦福李飞飞-计算机视觉-损失函数和优化

    CS231N斯坦福李飞飞-计算机视觉-损失函数和优化

  6. 李飞飞计算机视觉课CS231n第一天

    李飞飞计算机视觉课CS231n第一天 数据集 Pascal Visual Object Challenge: 20 catagories ImageNet: 22000 catagories and ...

  7. 李飞飞计算机视觉-自用笔记(第八周)

    李飞飞计算机视觉-自用笔记(八) 15 深度学习高效方法与硬件 15 深度学习高效方法与硬件 庞大模型的三大挑战: 大小.速度.能源效率 解决方法: 1.算法优化: 剪枝(pruning):并非神经网 ...

  8. 李飞飞计算机视觉-自用笔记(第一周)

    李飞飞计算机视觉-自用笔记(一) 1 课程介绍-计算机视觉概述 1.1 课程介绍-历史背景 2 图像分类 2.1 数据-驱动方法(机器学习) 2.2 K最近邻算法 2.3 线性分类I 3 损失函数和优 ...

  9. 李飞飞计算机视觉笔记(2)--线性分类器损失函数与最优化

    文章中的词语解释: 分类器:完整的神经网络 类别分类器:分类器中的某一个输出对应的所有权值(单层全连接神经网络) 损失函数:不包括正则式的损失函数 正则化损失函数:包括正则式的损失函数 多类SVM损失 ...

  10. 李飞飞计算机视觉总结

    李飞飞计算机视觉总结 待续- https://www.bilibili.com/video/BV1we4y137Wy/?spm_id_from=333.999.0.0&vd_source=0d ...

最新文章

  1. comsat java_java-com.thoughtworks.xstream.converters.ConversionExce...
  2. java 只去掉_30行代码带你了解Java的Serializable接口
  3. 右手螺旋判断磁感应强度方向_高考丨电磁感应丨感应电动势
  4. android怎么关应用程序,如何关闭Android应用程序?
  5. Daimler CRM中间件 inbound 调试
  6. 新闻网大数据实时分析可视化系统项目——7、Kafka分布式集群部署
  7. 基于nbu oj c语言答案,Just oj 2018 C语言程序设计竞赛(高级组)F:Star(结构体排序+最小生成树)...
  8. 计算机网络tcp三次握手,快速掌握_计算机网络_TCP_三次握手
  9. 关于ppt中嵌入echarts图表
  10. 系统架构设计师含金量_软考高级系统架构设计师如何备考?
  11. oracle10.2.0.4 dbca,在rhel5上oracle 10.2.0.4 上dbca silent删除数据库
  12. Eclipse hibernate Tools下载
  13. HTML——超链接、音视频
  14. 离散数学自反与反自反
  15. 第一次登陆阿里云ECS云服务器及其配置
  16. 什么打印软件比较好用?可以打印资料的网上打印平台
  17. 苹果系统怎么链接共享服务器,mac连接共享服务器设置
  18. ES6中...省略号的意思
  19. 华为手机自带浏览器无法下载 iis 网站 apk 问题解决方案(和SSL有关)
  20. nodemon:运行提示错误:无法加载文件 xxxx

热门文章

  1. 4: Consolidating Datasets ( Challenge: Data Munging Using The Command Line)
  2. Daily Scrum 10.23
  3. UVA 10341 Solve It
  4. sha1 java 代码_HMAC-SHA1的java源代码实现
  5. 算法学习:最小生成树
  6. linux openssh升级8.1,ssh服务升级8.1
  7. 发那科oimf是什么时候出的_请问下FANUC Oi-MF系统怎么把卡里的程序传到机床里面?...
  8. Python(十七):python的编程规范、PEP8
  9. mysql xtrabackup-v2_MySQL物理备份基础知识(基于xtrabackup2.4版本)
  10. linux smartctl 命令,在 CentOS 7 里用 smartctl 和 hdparm 对硬盘进行基本测试