斯坦福2014机器学习笔记五----正则化

一、纲要

　　欠拟合和过拟合

　　代价函数正则化

　　正则化线性回归

　　正则化逻辑回归

二、内容详述

　　1、欠拟合和过拟合

　　欠拟合，也叫高偏差，就是没有很好的拟合数据集的情况。如下图中的左图所示

　　过拟合，也叫高方差，就是虽然高阶多项式可以完美的拟合所有的数据，但会导致函数过于庞大，变量太多而我们又没有足够的数据来约束这个模型，这就是过度拟合。过度拟合的原因，简单来说就是过多的特征变量和过少的数据集。如下图右。

　　过拟合带来的效果就是，虽然可以完美的拟合现有的数据集，但是在预测新数据方面却表现的不尽如人意。所以最适合的还是中间的方式。

　　当然上面是线性回归的过拟合问题，逻辑回归中也存在这样的问题，就以多项式理解，阶数越高，拟合程度越好，但是预测方面就表现的很差。那么如何解决这些问题呢？这里就要引入“正则化”的概念！

　　2、代价函数正则化

　　以第一个问题中的线性回归过拟合为例，我们应该怎样用正则化解决这个问题呢？我们知道如果让高次项系数为0的话，我们就可以比较好的进行拟合。所以我们假设代价函数是，然后在求解代价函数J最小化的

过程中我们就会使Θ_3、Θ₄尽可能的小，这样的话高次项就趋于0，就能很好的解决这个问题。这就给了我们正则化算法的启示。

　　我们在代价函数J后面加入一个正则项，代价函数就变为，其中λ为正则化参数。需要注意的是，这里的正则项Θ的Θ_j是从j=1开始到j=n为止，而不包括Θ₀，虽然加与不加Θ₀的结果相差不大，但是按照惯例一般Θ₀单独考虑。所以我们在使用梯度算法的时候Θ₀的参数更新要与其他Θ_j分开考虑。

　　这里需要强调的一点是，正则化参数的选择非常重要，如果λ过大，那么就会使得Θ_j(j=1,2,3...n)都基本趋于0，也就是只剩下h_θ(x)=θ₀，就如下图的情况，这样就变成了欠拟合的问题(Too big lamda)，而当λ选择合适的话，过拟合的曲线(Unregulated)就会变成良好的Regulated

　　3、正则化线性回归

　　正则化线性回归的代价函数J为，在使用梯度下降法之前需要对J进行偏导，，然后带入梯度下降法得到：，之前说过这里Θ₀的参数更新要与其他Θ_j分开考虑的原因。对θ_j进行调整得到，这个式子是不是很熟悉？跟之前的梯度下降法参数更新公式很像，区别只是θ_j变成了θ_j(1-α*(λ/m))，这里1-α*(λ/m)就是一个小于1的常数，可能是0.99或0.98.这里可以看出正则化线性回归的梯度下降算法的变化在于，每次都在原有的更新规则的基础上令θ额外减去一个值。

　　之前我们说的线性回归还有一种正规方程解法，我们同样可以对线性回归正规方程进行正则化，方法为

X = [(x⁽⁰⁾)^T (x⁽¹⁾)^T (x⁽²⁾)^T ... (x⁽ⁿ⁾)^T]^T，y=[y⁽¹⁾ y⁽²⁾ y⁽³⁾ ... y^(m)]^T，X是m*(n+1)维矩阵，y为m*1维矩阵

图中矩阵的尺寸为(n+1)*(n+1)

　　4、正则化逻辑回归

　　代价函数为，用梯度下降法进行参数更新得到的方程为：

这里虽然形式跟线性回归的梯度下降法一样，但是由于h_θ(x)的不同，所以两者还是有很大差别

转载于:https://www.cnblogs.com/kl2blog/p/7712210.html

斯坦福2014机器学习笔记五----正则化相关推荐

斯坦福大学机器学习第五课正则化“
斯坦福大学机器学习第五课"正则化" 本次课程主要包括4部分: 1) The Problem of Overfitting(过拟合问题) 2) Cost Function(成本函 ...
机器学习笔记之正则化(一)拉格朗日乘数法角度
机器学习笔记之正则化--拉格朗日乘数法角度引言回顾:基于正则化的最小二乘法正则化描述正则化的优化对象常见的正则化方法正则化角度处理神经网络的过拟合问题场景构建最优模型参数的不确定性最 ...
斯坦福大学机器学习笔记（2）逻辑回归
上一篇线性回归是连续的量,用的是梯度下降或者正规方程来求解. 这一篇讲分类离散的量. 课程官网吴恩达老师机器学习课程笔记斯坦福大学的课程视频判定边界首先随便不管是什么参数θ,我们需要的是输 ...
吴恩达机器学习笔记 —— 8 正则化
http://www.cnblogs.com/xing901022/p/9338467.html 本章讲述了机器学习中如何解决过拟合问题--正则化.讲述了正则化的作用以及在线性回归和逻辑回归是怎么参与 ...
斯坦福CS229机器学习笔记-Lecture5 - 生成学习算法+高斯判别GDA+朴素贝叶斯+拉普拉斯平滑
作者:teeyohuang 邮箱:teeyohuang@163.com 本文系原创,供交流学习使用,转载请注明出处,谢谢声明:此系列博文根据斯坦福CS229课程,吴恩达主讲所写,为本人自学笔记,写 ...
机器学习笔记(五)神经网络
5.神经网络 5.1神经元模型神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应.对这句话的理解,简单提要下,主角是简单单元(输入单 ...
吴恩达机器学习笔记五之神经网络
本节目录: 1.非线性假设 2. 神经元和大脑 3. 模型表示 4. 特征的直观理解 5. 样本的直观理解 6. 多类分类 1 非线性假设假设我们希望训练一个模型来识别视觉对象(例如识别一张图片上是 ...
机器学习笔记(五)回归模型
1.线性回归模型 1.广义线性模型也就是x和y的线性组合也就是: y = w1x1+w2x2-+wnxn+b coef_是系数矩阵w =[w1,w2-wn],intercept_就是截距 2.普通最 ...
机器学习笔记~五种常见的聚类算法简介
参考:https://towardsdatascience.com/the-5-clustering-algorithms-data-scientists-need-to-know-a36d136ef ...

斯坦福2014机器学习笔记五----正则化

斯坦福2014机器学习笔记五----正则化相关推荐

最新文章

热门文章