什么是正则化？他是如何起作用的？

正则化可以理解为规则化,规则就等同于一种限制。在损失函数中加入正则化项可以限制他们的拟合能力，正则化就是为了防止过拟合，那么什么是过拟合？

图1

假如我们要构建的模型是能够区分图中的红色与蓝色部分，看图1的三种模型对训练集的拟合状态：

第1种模型：欠拟合（underfitting），此模型不能很好的区分图中的红色与蓝色部分。

第2种模型：拟合状态刚好，虽然有个别红色部分未被区分但考虑到实际测试集中会有噪声的存在，其拟合程度就刚刚好。

第3种模型：过拟合（overfitting)，此种模型对于训练集的拟合程度非常高，导致其泛化能力("泛化"指的是一个假设模型能够应用到新样本的能力)较低。而且实际测试集中会有噪声的存在，在后续的测试集中得到的准确率也不高，这也会令模型的复杂度提高，让计算复杂，并不能起到理想的作用。

我们就可以使用正则化来解决过拟合，他的大致工作原理如下：

我们的目的是拟合图中的数据，对于第一幅图我们使用一个2次函数来拟合数据,这样看起来效果还不错，当我们使用一个高次函数来拟合数据时,像第二幅图,这样对于这个数据拟合的效果更加好，但这并不是我们想要的模型，因为它过度拟合了数据，我们可以想到这是由于高次项的出现，所以我们要对高次项的系数予以惩罚。

我们在损失函数的后面加上 1000 乘以 θ3 的平方，再加上 1000 乘以 θ4 的平方，这里的1000只是一个随机值。即

现在我们如果要求损失函数的最小值，就得让3和4的值非常小，因为损失函数中加入了有关他们的两项，如果 3和4的值非常大的话，损失函数的值也会变得非常大，所以 3和4的值趋近于0.

也即拟合函数中的 3和4两项的值近似为0，所以拟合函数就趋近与2次函数，这样以来，拟合函数的拟合程度就刚刚好了。

这里我们只是有目的的对 3和4两项进行了惩罚，那如果不知道拟合函数中哪些系数是高次项系数哪？

我们就要对所有项的系数都进行惩罚了，也即我们在损失函数中加入一项（正则化项）：

这里并没有惩罚 0，这只会造成很小的差异。对所有项的系数都进行惩罚相比之下还是对于高次项的惩罚程度更大。

其中叫做正则化参数，越大则惩罚力度也越大，但并不是越大越好当太大时就会造成拟合函数中的参数太小以至于拟合函数就等于0变成一条直线，造成欠拟合。

此外正则化还分为L1正则和L2正则，又叫L1范数和L2范数，其定义如下：

其他有关的细节不再赘述。

参考文章地址：机器学习之正则化（Regularization） - Acjx - 博客园1. The Problem of Overfitting 1 还是来看预测房价的这个例子，我们先对该数据做线性回归，也就是左边第一张图。如果这么做，我们可以获得拟合数据的这样一条直线，但是，实际上https://www.cnblogs.com/jianxinzhou/p/4083921.html

什么是正则化？他是如何起作用的？相关推荐

AI基础：数据划分、超参数调整、正则化
本文来源于吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 导语本文讲解机器学习的策略方面,包括数据划分.超参数调整.正则化等. 我正在编写AI基础系列,目前已经发布: AI 基础:简易 ...
深度学习系列 -- 第二门课改善深层神经网络：超参数调试、正则化以及优化(一)：深度学习的实践层面(Practical aspects of Deep Learning)
目录一.深度学习的实践层面(Practical aspects of Deep Learning) 1 训练,验证,测试集(Train / Dev / Test sets) 2 偏差,方差(Bias ...
深度学习入门笔记（十）：正则化
欢迎关注WX公众号:[程序员管小亮] 专栏--深度学习入门笔记声明 1)该文章整理自网上的大牛和机器学习专家无私奉献的资料,具体引用的资料请看参考文献. 2)本文仅供学术交流,非商用.所以每一部分具 ...
机器学习笔记之正则化(一)拉格朗日乘数法角度
机器学习笔记之正则化--拉格朗日乘数法角度引言回顾:基于正则化的最小二乘法正则化描述正则化的优化对象常见的正则化方法正则化角度处理神经网络的过拟合问题场景构建最优模型参数的不确定性最 ...
揭秘深度学习成功的数学原因：从全局最优性到学习表征不变性
来源:机器之心本文长度为4900字,建议阅读7分钟本文为深层网络的若干属性,如全局最优性.几何稳定性.学习表征不变性,提供了一个数学证明. 近年来,深度学习大获成功,尤其是卷积神经网络(CNN)在 ...
1.7 理解 Dropout-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 1.6 Dropout 正则化回到目录 1.8 其他正则化方法理解Dropout Dropout可以随机删除网络中的神经单元,他为什么可以通过正则化发挥如此大的作用呢? ...
语义分析的一些方法(中篇)
2 文本语义分析前面讲到一些文本基本处理方法.一个文本串,对其进行分词和重要性打分后(当然还有更多的文本处理任务),就可以开始更高层的语义分析任务. 2.1 Topic Model 首先介绍主题模型 ...
深度学习笔记第二门课改善深层神经网络第一周：深度学习的实践层面
本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...
李航《统计学习方法》笔记
虽然书名是统计学习,但是却是机器学习领域中和重要的一本参考书.当前的机器学习中机器指计算机,但是所运用的方法和知识是基于数据(对象)的统计和概率知识,建立一个模型,从而对未来的数据进行预测和分析(目的 ...
深度学习的实用层面 —— 1.7 理解Dropout
Dropout可以随机删除网络ongoing的神经单元,它为什么可以通过正则化发挥这么大的作用呢?我们来更直观地理解一下. 在上一个视频中,我们已经对dropout随机删除网络中的神经单元有了一个直观 ...

什么是正则化？他是如何起作用的？

什么是正则化？他是如何起作用的？相关推荐

最新文章

热门文章