动态正则化权重系数_权重衰减防止过拟合（L2正则化）

1.、权重衰减(weight decay)

L2正则化的目的就是为了让权重衰减到更小的值，在一定程度上减少模型过拟合的问题，所以权重衰减也叫L2正则化。

L2正则化就是在代价函数后面再加上一个正则化项：

其中C0代表原始的代价函数，后面那一项就是L2正则化项，它是这样来的：所有参数w的平方的和，除以训练集的样本大小n。λ就是正则项系数，权衡正则项与C0项的比重。另外还有一个系数1/2，1/2 1/211经常会看到，主要是为了后面求导的结果方便，后面那一项求导会产生一个2，与1/2相乘刚好凑整为1。系数λ就是权重衰减系数。

我们对加入L2正则化后的代价函数进行推导，先求导：

可以发现L2正则化项对b的更新没有影响，但是对于w的更新有影响：

在不使用L2正则化时，求导结果中w前系数为1，现在w前面系数为1-ηλ/n，因为η、λ、n都是正的，所以1-ηλ/n小于1，它的效果是减小w，这也就是权重衰减(weight decay)的由来。当然考虑到后面的导数项，w最终的值可能增大也可能减小。

另外，需要提一下，对于基于mini-batch的随机梯度下降，w和b更新的公式跟上面给出的有点不同：

对比上面w的更新公式，可以发现后面那一项变了，变成所有导数加和，乘以η再除以m，m是一个mini-batch中样本的个数。

作用：权重衰减(L2正则化)可以避免模型过拟合问题。

思考：L2正则化项有让w变小的效果，但是为什么w变小可以防止过拟合呢？

原理：(1)从模型的复杂度上解释：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合更好(这个法则也叫做奥卡姆剃刀)，而在实际应用中，也验证了这一点，L2正则化的效果往往好于未经正则化的效果。(2)从数学方面的解释：过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值(绝对值)非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。

动态正则化权重系数_权重衰减防止过拟合（L2正则化）相关推荐

动态正则化权重系数_蘑菇街增量学习番外篇三：deepFM的动态正则实践
欢迎关注公众号: 『诗品算法』,禁止一切未经本人@琦琦许可的转载.转载必须注明出处. 0.引言这篇文章仍是在蘑菇街增量学习背景下的实践,增量学习的理论很简单,但实践起来,还是有很多细节和trick ...
动态正则化权重系数_多参数正则化的动态光散射测量数据反演
ISSN 1QQ6 -7167 CN 31 - 1707/T RESEARCH AND EXPLORATION IN LABORATORY 第 3 8 卷第 2 期 2019 年 2 月 Vol. ...
屏蔽预训练模型的权重。只训练最后一层的全连接的权重。_权重/参数初始化...
一.参数初始化的重要性参数初始化又称为权重初始化(weight initialization)或权值初始化.深度学习模型训练过程的本质是对weight(即参数 W)进行更新,这需要每个参数有相应的初 ...
求解神经网络的权重系数,神经网络权重取值范围
神经网络权值怎么确定? 神经网络的权值是通过对网络的训练得到的.如果使用MATLAB的话不要自己设定,newff之后会自动赋值.也可以手动:{}=;{}=.一般来说输入归一化,那么w和b取0-1的随机 ...
keras添加正则化全连接_第16章 Keras使用Dropout正则化防止过拟合
Dropout虽然简单,但可以有效防止过拟合.本章关于如何在Keras中使用Dropout.本章包括: dropout的原理 dropout的使用在隐层上使用dropout 我们开始吧. 16.1 ...
模型评估(交叉验证——针对回归和分类、均方误差MSE、精度、精确率、召回率、F值、K折交叉验证、如何解决过拟合——L2正则化与L1正则化、欠拟合、如何区分过拟合和欠拟合——学习曲线)
模型评估意义:定量地表示机器学习模型的精度 1.交叉验证把获取的全部训练数据按照 3 : 7或者 2 : 8的比例分成两份:一份用于测试,一份用于训练,然后用前者来评估模型,检查训练好的模型对测试 ...
（tensorflow笔记）神经网络中的一些关键概念（学习率、激活函数、损失函数、欠拟合和过拟合、正则化和优化器）
目录 1.神经网络复杂度空间复杂度时间复杂度 2.学习率策略指数衰减学习率分段常数衰减 3.激活函数 sigmoid tanh ReLU Leaky ReLU 建议 4.损失函数均方误差损失 ...
L1 L2正则化和优化器的weight_decay参数
L1正则和L2正则的效果有什么差异?为什么? 角度一:解空间形状通常认为L1 正则化可以产生稀疏权值矩阵,即产生一个参数稀疏的模型. 而L2 正则化可以让模型的参数取绝对值较小的数. 考虑两种正则化 ...
L1正则化和L2正则化讲解
L1正则化和L2正则化讲解在机器学习实践过程中,训练模型的时候往往会出现过拟合现象,为了减小或者避免在训练中出现过拟合现象,通常在原始的损失函数之后附加上正则项,通常使用的正则项有两种:L1正则 ...

动态正则化权重系数_权重衰减防止过拟合（L2正则化）

动态正则化权重系数_权重衰减防止过拟合（L2正则化）相关推荐

最新文章

热门文章