李宏毅机器学习P13+P5+6+7+8+9(21版)学习笔记

P13深度学习

1.神经网络

由不同的逻辑回归函数（不同权重和偏差）连接而成不同结构

输入层（Input Layer）：1层
隐藏层（Hidden Layer）：N层
输出层（Output Layer）：1层

Fully Connect Feedforward network
Fully Connect：layer1与layer2之间两两都有连接。
传递的方向是单向，由后往前传，所以叫Feedforward。

深度学习能表达出更多情况：

一个神经网络的权重和偏差已知，则可以看作一个函数：输入是向量，输出也是向量。
回归模型和逻辑回归都是定义了一个函数集，给神经网络结构的参数设置为不同的数，
就是不同的函数，结合为函数集，这个函数集较大，是回归模型无法包含的函数。

Deep = Many hidden layer

随着层数变多，错误率降低，随之运算量增大，因此引入矩阵计算加速运算

矩阵计算（激活函数）方法：σ（权重w * 输入+ 偏移量b）= 输出

矩阵运算优点：可以使用GPU加速

本质：通过隐藏层进行特征转换。
特征提取用隐藏层替代原特征工程，最后一个隐藏层输出为新特征（相当于黑箱操作）
把前面的隐藏层的输出当做输入（经过特征提取得到的一组最好的特征），通过一个多分类器得到最后的输出y。

问题

多少层？每层有多少神经元？尝试加上直觉

对于有些机器学习相关的问题，我们一般用特征工程来提取特征，
对于深度学习，我们只需要设计神经网络模型来进行就可以了

结构可以自动确定吗？有很多设计方法可以让机器自动找到神经网络的结构的，如进化人工神经网络，但并不普及

可以设计网络结构吗？可以，比如 CNN卷积神经网络

2.模型评估

对于神经网络，采用交叉熵（cross entropy）函数来对损失进行计算

3.选择最优函数

用梯度下降找最优函数和最优参数

P5 training失败及解决1

gradient为0的点，称为critical point，其中有很多可能，导致无法继续优化

用泰勒级数近似计算鉴别critical point的种类(local minima/maxina/saddle point)

P6 training失败及解决2

Batch:是否采用batch进行训练，训练资料分为N个batch,进行训练。

在large和small batching的testing准确率类似的时候，small batch的testing值更好。

结论：

LB和SB时间在一定size内，差距很小

LB梯度下降更平稳

SB的最优化值更好

SB的Generalization更好

SB易得到Flat Minima(较好)；LB易得到Sharp Minima

Momentum动量:

gradient method+momentum：计算参数θ的时候，g反方向+前一步方向调整参数

优点：每一次迭代，都会更接近最优解。有几率不停留在local minima和maxina，因为不只有g的方向，还有前一步的动量。

缺点：算法稳定性变差，出现了一些震荡。算法也不再保证目标函数单调下降。momentum是外插值。

P7 training失败及解决3

training stuck ≠ small gradient，训练卡住/loss不再下降的时候，并非到达了critical point或者saddle point

自适应学习率：不同参数需要不同的学习率，Adaptive learning rate

RMSProp：在计算parameter dependent部分中σ时，给之前和现在计算的g不同的权重。解决同一参数不用时期需要不同学习率的问题

Adam:RMSProp+Momentum-用得较多：计算θ和σ时，都考虑前一个g

learning rate scheduling学习率η随时间有关:
1.learning rate decay(随时间逐渐下降）
2.warm up（先变大再变小），在统计数据获取的时候，最初不太精准，需要一定时间先变得较为精准，再进行统计数据。

P8 training失败及解决4

Classification as Regression:将种类用数字表示，但若用1，2，3表示，那么既就有亲疏关系，不太好，解决方法是，用向量[0,0,1],[0,1,0]等表示不同分类，这样就可以解决。

Classification: input x output y,使softmax(y)得到y',使y'接近y^【softmax使ynormalize,classification需要的范围】

loss function可以改变training的难度：

Loss of Classification(e=y^- y')的表示方式：Mean Square Error(MSE)，Cross-entropy（win），Minimizing Cross-entropy is equivalent to maximizing likelihood

P9 training失败及解决5

Feature Normalization：使不同的demonsion范围接近。
在training时标准化参数或者加权后的参数，这会造成很大的计算量，因为一个参数的改变会改变全局，实际上，考虑一个big sized的batch进行Normalization比较合适。

在testing的时候，数据不足，未达到batch标准，做Normalization的参数会随数据的增多使用其移动平均数。

李宏毅机器学习P13+P5+6+7+8+9(21版)学习笔记相关推荐

【李宏毅机器学习】Tips for Deep Learning（p14）学习笔记
李宏毅机器学习学习笔记汇总课程链接文章目录 Recipe if Deep Learning Do not always blame Overfitting 针对不同的状况使用不同的方法在训练集上 ...
【李宏毅机器学习】Logistic Regression 逻辑回归（p11）学习笔记
李宏毅机器学习学习笔记汇总课程链接文章目录 Logistic Regression Step 1: Function Set Step 2: Goodness of a Function Step ...
【李宏毅机器学习】Basic Concept 基础概念（p4）学习笔记
李宏毅机器学习学习笔记汇总课程链接 Review 越复杂的model,在testing data上的error未必越低. error来自两个地方: bias variance f_star是f_ha ...
【李宏毅机器学习】Semi-supervised Learning 半监督学习（p24）学习笔记
文章目录 Semi-supervised Learning Introduction Supervised Learning Semi-supervised Learning Why semi-sup ...
ScalersTalk 机器学习小组第 21 周学习笔记（深度学习-10）
ScalersTalk 机器学习小组第 21 周学习笔记(深度学习-10) Scalers点评:机器学习小组是成长会的内部小组,这是成长会机器学习小组第21周学习笔记,也是深度学习第10次的复盘笔记 ...
李宏毅机器学习2022年春季班马上开始，深度学习圣经《深度学习》下载。
李宏毅(Hung-yi Lee)目前任台湾大学电机工程学系和电机资讯学院的助理教授,他曾于2010 年和2012 年分别获得台湾大学硕士和博士学位,并于 2013 年赴麻省理工学院(MIT)计算机科学 ...
《机器学习》 —— 第二章：模型评估与选择学习笔记
2.1 经验误差与过拟合把分类错误的样本数占样本总数的比例称为"错误率"(error rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m:相应的,1-a/m称为 ...
机器学习01_吴恩达版学习笔记
1.什么是机器学习较陈旧的定义:在没有明确设置的情况下,使计算机具有学习能力的研究领域较新的定义:计算机程序从经验E中学习,解决某一任务T进行某一性能度量P,通过P测定在T上的表现 ...
机器学习_周志华_西瓜书_学习笔记_第二章--模型的评估与选择
2 模型的评估与选择 2.1 误差与过拟合我们将学习器对样本的实际预测结果与样本的真实值之间的差异成为:误差(error).定义: 在训练集上的误差称为训练误差(training error)或经验 ...

李宏毅机器学习P13+P5+6+7+8+9(21版)学习笔记

李宏毅机器学习P13+P5+6+7+8+9(21版)学习笔记相关推荐

最新文章

热门文章